티스토리 뷰
오늘은 통계학이 형성되던 시기의 이야기를 해드릴까 합니다. 데이터가 쏟아지는 요즘은 통계학이 어디에나 쓰이지만, 학문적 체계가 잡힌 건 100년 밖에 안됩니다. 그 이전에는 다른 분야에서 데이터를 분석하는 도구에 불과했었죠. 통계학은 19세기 말 영국에서 급격히 발달했는데요, 당시 진화론 열풍이 변형되어 나타난 우생학에서 가장 많이 쓰였습니다. 우생학은 유전 연구를 통해 인류를 개량하자는 목적으로 창시된 분야였는데요, 다윈의 사촌 골턴이 인종의 차이, 부모와 자식 간 형태 비교 등을 수리적으로 연구했습니다. 이를 이어받아 칼 피어슨과 웰던 등 후배 학자가 회귀분석, 상관관계, 확률 밀도 함수 등을 만들었습니다.
이들이 1901년 창간한 학술지 Biometrika는 오늘날에도 통계학 분야의 탑 저널입니다. 우생학에서 발달한 통계 방법론을 집대성한 사람이 피셔인데요, 가장 큰 업적으로 통계적 추론 방법을 만들었습니다. 그런데 오늘의 주인공은 이들이 아니라, 이들을 계승해서 통계학을 더욱 엄밀하게 만든 네이먼과 피어슨입니다. 피어슨은 University College London에서 세계 최초로 통계학과를 설립한 아버지 칼 피어슨을 이어받아 평생 여기서 교수로 근무했는데요, 아버지 연구실에서 만난 폴란드 출신의 네이먼과 1920년대 말부터 함께 연구하게 됩니다. 이들은 선배 학자들이 개척하고 피셔가 집대성한 통계적 가설검정에 대해 의심했는데요, 쉽게 설명하면 이런 겁니다. 오랜 연구나 경험으로 어떤 법칙을 만든다고 해보죠. 피셔는 자신이 생각하는 가설 하나를 세우고 데이터의 결과에 따라 그 가설이 맞는지 틀리는지 증명하는 방법을 제시했습니다. 뭐, 상당히 상식적이고 합리적으로 보이지요. 그러나 엄밀했던 네이먼과 피어슨이 볼 때는 이 방법에 약점이 있다고 생각했습니다. 가설검정에는 2가지 오류가 발생하기 때문인데요, 첫번째는 내 가설이 맞는 것인데, 데이터에 따라 틀렸다고 판명되는 경우고, 두 번째는 사실 내가 틀렸는데, 데이터가 내 생각이 맞다고 판명하는 오류입니다. 전자를 타입 I 오류, 즉 1종 오류로 불렀고, 후자를 타입 II 오류, 2종 오류로 불렀습니다. 네이먼과 피어슨은 가설을 하나만 세워서 검증하면 내가 틀렸는데 맞다고 나타나는 2종 오류를 밝혀낼 방법이 없다고 지적한 겁니다. 그래서 증명하려는 가설에 대립하는 가설을 하나 더 세웠습니다. 이렇게 되면 다른 가설이 맞는데 내 가설을 지지하게 되는 경우까지 측정할 수 있게 됩니다. 2종 오류를 측정할 수 있게 만들어 놓은 겁니다.
더 이상 들어가지 않고 이 의미만 생각해 보겠습니다. 가설을 하나만 세워서 검정하는 것이 왜 치명적인 단점이라고 생각했을까요? 골턴을 비롯한 선배 학자들은 통계학을 자신의 생각을 증명하기 위한 도구로 썼습니다. 실제 피셔도 통계학자이기 이전에 저명한 유전학자였으니까요. 이들은 세상 현상으로부터 발견해낸 자기들의 생각, 이론이 옳다는 걸 증명하는 게 목표였습니다. 지금도 사람들은 통계학을 이렇게 씁니다. 내 생각이 맞는지 검증하는 데만 관심 있죠. 기업에서 보고서를 그런 식으로 쓰는 경우 많지 않나요? 자신의 생각을 지지해줄 정보만 골라서 말입니다. 그런데요, 네이먼과 피어슨은 다른 분야에는 관심 없고 그냥 통계학자였습니다. 방법론 연구가였죠. 이들은 적은 수의 샘플을 수집해서 전체의 특성을 밝혀내는 통계방법이 틀릴 수도 있다는 생각에 항상 사로잡혔습니다. 특히 2종 오류는 오류라는 걸 눈치채기가 어렵습니다. 1종 오류, 내 생각이 맞는데 데이터가 틀렸다고 하는 경우는 실망하거나 기분 나쁩니다. 그래서 끈질기게 다시 연구할 수도 있습니다. 그러나 2종 오류, 내 생각이 틀렸는데 자료에 의해 맞다고 뒷받침되는 경우는 내가 틀렸는지 알 방법이 없습니다.
지금 보면 틀린 걸로 드러난 과거의 이론, 천동설, 연금술, 골상학, 우생학, 심지어 원자세계에서의 뉴턴 역학까지 당시에는 데이터가 부합하는 것 같기 때문에 오류라는 사실을 몰랐습니다. 인류의 역사는 이런 2종 오류가 드러나는 과정이었죠. 아마도 엄밀했던 피어슨은 히틀러처럼 우생학이 가져온 해악을 지켜보며 아버지의 학문이 틀릴 수도 있다고 생각했던 것 같습니다. 아버지에 대한 질문을 받으면 곤혹스러워하며 “통계학에서의 업적은 존경한다”라고 말했으니까요. 내가 틀렸을지 모른다는 가능성, 신사업을 할 때는 더없이 중요한데요. 과거에 없던 걸 만들 때 충분한 조사와 치밀한 계획을 세우지만 현실에서 계획대로 드러나는 경우가 별로 없기 때문입니다. 현장에서 보내오는 데이터를 통해 내가 틀렸을지 모른다는 생각을 항상 해야 합니다. 카카오페이지가 이런 경우인데요. ‘콘텐츠는 무료’라는 생각을 뒤집어서 선순환 콘텐츠 생태계 구축을 목표로 유료 서비스를 시작했습니다. 당연히 유료에 합당한 좋은 콘텐츠만을 확보했습니다. 그런데 날이 갈수록 매출과 트래픽이 떨어졌는데요, 결국 콘텐츠가 문제가 아니라 유료 전략이 문제였던 거죠. 시장에 대한 생각이 틀렸다는 걸 바로 인정하고 무료로 전환했습니다. 이후 무료 체험을 유료 구매로 단계적으로 바꿔 나간 결과, 이제는 주목하는 서비스로 자리매김했습니다. 1946년 네이먼은 내전이 끝난 그리스에서 연합국 감시단의 일원으로 국민투표를 감독하러 갔습니다. 사실 서구 열강들이 지지하는 국왕파에게 정당성을 부여해주러 간 것이었는데요, 네이먼은 선거의 공정성에 대해 문제를 제기했습니다. 결국 감시단에서 제외되었습니다. 재미있는 건요. 이 선거 결과에 반발해서 또다시 내전이 일어났다는 것이죠. 이처럼 네이먼과 피어슨은 우리의 생각, 가설, 전략, 방향이 틀릴지도 모른다는 생각을 항상 가지고 있으라고 조언합니다. 그렇다고 우물쭈물 결정하지 말라는 게 아닙니다. 결정하되 틀린 게 드러나면 바꾸라는 거죠. 이들은 우리에게 유연성이 얼마나 중요한지 알려주고 있는 것입니다. 읽어주셔서 감사합니다.