[ML] 귀무가설, 대립가설, 제1종오류, 제2종오류, confusion matrix 등등

Jaemun Jung
7 min readMay 3, 2020

--

ML 모델 성과 측정의 기초가 되는 통계학 용어들에 대해 정리해보자.

귀무가설과 대립가설

어떤 문제가 일어날 확률을 계산하기 위해 통계학에서는 가설검정(hypothesis testing)이라는 방법으로 접근한다.

  • 먼저 귀무가설(null hypothesis)와 대립가설(연구가설, alternative hypothesis)를 세운다. 이 중 대립가설이 데이터를 통하여 입증하고자 하는 가설이다.
  • 데이터의 확률 분포 상에서 사건이 얼마나 극단적인가를 판단하는 척도로써 사건이 일어날 확률(p-value)를 계산한다.
  • 이 확률이 어떤 수준보다 작아야 유의한 것일지는 임의의 기준값으로 결정한다. 이를 유의수준(siginificance level)이라 하며 종종 5%가 되는데 1%, 10%가 되기도 한다. 따라서 이 p-value가 유의수준보다 작으면 관측값이 유의한 것이 되고 이 경우 귀무가설을 기각, 대립가설을 채택하게 된다.
    (0.05 및 5% 유의수준은 귀무가설이 5% 확률로 잘못 기각된다는 의미)

제1종 오류와 제2종 오류

그러나 아무리 낮은 극단적인 확률이라도 우연으로 발생할 수도 있기 때문에 오류의 가능성이 존재한다.

  • 제1종 오류 (Type 1 error, Alpha error, False Positive) : 귀무가설이 참임에도 불구하고 잘못 기각한 오류. 극단적인 것처럼 보이는 값을 우연히 얻어서 발생한다.
    제1종 오류를 낮추려면, 유의수준을 낮추면 된다. 유의수준이란 제 1종 오류가 일어날 확률이다. 하지만 이러면 제2종 오류가 커진다.
  • 제2종 오류 (Type 2 error, Beta error, False Negative) : 대립가설이 참인데 귀무가설을 채택하는 오류.
  • 동일 표본수에서 두 오류를 동시에 줄일 수는 없고 하나가 커지면 다른 하나는 작아진다. 이 오류를 동시에 줄이는 방법은 표본수(n)를 늘리는 것.

제1종 오류와 제2종 오류의 예시를 들어보면,

제1종 오류 예시

  • (임신)
    “임신하지 않은 일반인이다” 귀무가설
    -> 임신하지 않은 사람에게 임신했다고 판단한 경우 1종 오류. False Positive
  • (스팸)
    “일반 메일이다” 귀무가설
    -> 일반 메일이 스팸박스로 분류된 경우 1종 오류
  • (범죄)
    “일반인일 것이다” 귀무가설
    -> 일반인을 범인이라고 판단 시 1종 오류
  • (채용)
    “핵심인재가 아니다" 귀무가설 (핵심인재를 찾기 위한 연구가설)
    -> 핵심인재가 아닌 사람을 핵심인재로 잘못 채택할 경우 1종 오류
    -> 기업에서는 채용 시 2종 오류보다 1종 오류를 줄이고자 한다
  • (금융)
    “대출 대상 아님” 귀무가설 / 성실한 대출자를 찾기 위한 연구가설
    -> 성실한 대출자인 줄 알았는데 알고보니 불성실한 대출자(false positive) -> 금융기관에서는 1종 오류를 최대한 줄이고자 한다.

제2종 오류 예시

  • (임신)
    “임신하지 않았다”는 귀무가설
    -> 임신한 사람한테 임신이 아니라고 귀무가설 채택 시 2종 오류 (false negative)
  • (스팸)
    “일반 메일이다” 귀무가설
    -> 스팸 메일이 스팸박스로 분류되지 못한 경우 2종 오류
  • (범죄)
    “일반일일 것이다” 귀무가설
    -> 범인인데 범인이 아니라고 판단 시 2종 오류
  • (채용)
    “핵심인재가 아닌 일반인”이라는 귀무가설 / 핵심인재를 찾기위한 연구가설
    -> 핵심인재를 탈락시킨 경우 2종 오류
  • (금융)
    “대출 대상 아님” 귀무가설 / 성실한 대출자를 찾기 위한 연구가설
    -> 사기꾼이라고 판단했는데 실제로는 성실한 사람이었음 2종 오류

TP, TN, FP, FN

When you are trying to find sick people:

  • True positive: Sick people correctly identified as sick
  • False positive: Healthy people incorrectly identified as sick
  • True negative: Healthy people correctly identified as healthy
  • False negative: Sick people incorrectly identified as healthy

In general, Positive = identified and negative = rejected. Therefore:

  • True positive = correctly identified
  • False positive = incorrectly identified
  • True negative = correctly rejected
  • False negative = incorrectly rejected

Sensitivity, Recall, Precision, Specificity

  • Accuracy 정확도= (TP + TN) / (TP + FP + TN + FN)
  • precision 정밀도 = (TP) / (TP + FP)
  • Recall (Sensitivity) 재현율 =(TP)/ (TP + FN)
  • Specificity 특이도 = (TN) / (TN + FP)

아래 그림으로 이해하면 더 쉽다.

Precision vs Recall
Sensitivity vs Specificity

Confusion Matrix

(아래는 귀무가설을 고려할 때 좋은 글이라 추가)

‘ 통계적 가설 검정과 입증의 책임 ’ 중 ‘입증 책임은 누구에게 있는가?’

-귀무가설은 무엇을 기준으로 정하는가

가설 검정 문제를 현실에 적용할 때는 귀무가설을 어떤 기준으로 정하는가가 중요하다.
귀무가설을 “송전탑과 가까운 곳에 오래 사는 것과 암발생율과는 상관관계가 없다”라고 놓았을 때 여러 가지 역학 조사 결과 이 귀무가설을 기각할 만한 통계학적 증거가 없는 경우가 있다. 아래 두가지를 생각해보자.

  • “증거의 부재가 부재의 증거가 아니다” 나심 니콜라스 탈레브(Nassim Nicholas Taleb)
  • 입증의 책임이 누구에게 있느냐에 따라서 귀무가설이 바뀌어야 한다.

즉, 이러한 싸움에서 이득을 보는 주체에게 입증의 책임이 있는 것입니다. 이러한 입증의 책임은 논리적으로 귀무가설의 결정과도 직결되는 문제입니다. 위의 예에서 송전탑의 인체 유해성을 귀무가설로 놓을 것이냐 아니면 송전탑의 인체 무해성을 귀무가설로 놓을 것이냐는 그것을 통해서 이익을 얻고자 하는 주체가 누구냐에 따라 달라지는 것입니다.

정부는 안정성을 증명할 법적 책임을 지는 것이므로 귀무가설을 (송전탑이) 유해하다고 놓고 이를 기각할 만큼 증거가 충분히 있다는 것을 입증해야 하는 책임이 있는 것입니다.

Reference

https://en.wikipedia.org/wiki/Precision_and_recall

https://en.wikipedia.org/wiki/Confusion_matrix

김재광, 통계적 가설 검정과 입증의 책임, 동아사이언스, 2016

--

--

No responses yet