混同行列・適合率・再現率のまとめ

このあたりの用語は試験の勉強をするたびに混乱して覚え直している気がする。あらためてまとめておく。

これまでに3つの試験勉強で出てきた。

混同行列、confusion matrix

↓予測 \ →真実
TP FP
FN TN
予測値 正解
TP True Positive 正しく正と判断
FP False Positive 誤って正と判断
FN False Negative 誤って負と判断
TN True Negative 正しく負と判断
がん検診での例
TP がんだと正しく判定
FP がんでないにも関わらずがんであると判定される誤検知
FN がんであるにも関わらずがんではないと判定される見逃し
TN がんではないと正しく判定

指標

正解率、精度、accuracy

 \displaystyle
Accuracy = \frac{TP + TN}{TP + FP + FN + TN}

再現率、感度、検出率、真陽性率、recall

 \displaystyle
Recall = \frac{TP}{TP + FN}
  • 見逃しの損害が大きい場合に重要な指標
  • 0.0はダメ、1.0に近いほどよい
  • 検索の場合:マッチしてほしいアイテムの中で、実際にマッチした割合
  • 反対は偽陰性率、False negative rate

適合率、precision

 \displaystyle
Precision = \frac{TP}{TP + FP}
  • 見つけ出したもののうち正解の割合
  • 0.0はダメ、1.0に近いほどよい
  • 検索の場合:マッチしたアイテムの中で、本当にマッチしてほしいアイテムの割合

F値

再現率(Recall)と適合率(Precision)の調和平均

 \displaystyle
\begin{align}
F &= \frac{2}{\frac{1}{Recall} + \frac{1}{Precision}} \\
&= \frac{2 Recall \,Precision}{Recall + Precision}
\end{align}
  • 0.0はダメ、1.0に近いほどよい
  • 再現率と適合率はトレードオフの関係にあるため、両方をバランス良く見たい場合の指標として使える

調和平均は逆数の算術平均の逆数。例えば1と0.5の調和平均は0.67になる。

偽陽性率、False positive rate

 \displaystyle
\frac{FP}{TN + FP}
  • 本当はnegativeなものの中で、検出してしまった割合
  • 1.0はダメ、0.0に近いほどよい
  • 第1種の過誤で  \displaystyle
\alpha と一致

偽陰性率、False negative rate

 \displaystyle
\frac{FN}{TP + FN}
  • 本当はpositiveなものの中で、検出できなかった割合
  • 1.0はダメ、0.0に近いほどよい
  • 再現率、recallの反対
  • 第2種の過誤( \displaystyle
\beta )

第1種の過誤と第2種の過誤

統計的仮説検定での話。

「対立仮説が正しい」「 帰無仮説を棄却する」が上の議論でいう「正」「陽」、

帰無仮説が正しい」「 帰無仮説を棄却しない」が上の議論でいう「負」「陰」

に相当する。

↓検定結果 \ →真実 対立仮説が正しい 帰無仮説が正しい
帰無仮説を棄却する 検定結果は正しい 第1種の過誤(  \displaystyle \alpha )
帰無仮説を棄却しない 第2種の過誤(  \displaystyle \beta ) 検定結果は正しい