본문 바로가기
지식/과학

벤포드의 법칙, 우리가 사는 세상의 미스터리

by 연강 2020. 8. 20.
반응형

 세상에는 1로 시작하는 수가 훨씬 많습니다. 1부터 99,999의 숫자가 상자 안에 있다고 가정하고 무작위로 숫자를 뽑습니다. 그렇다면 1부터 9까지 확률은 9분의 1로 약 11%가 될 것입니다. 그러나 우리가 사는 세상에서는 1이 나올 확률이 훨씬 많습니다. 왜 그럴까요?
 
 
 
 벤포드의 법칙은 한 사람의 호기심으로 탄생했습니다. 1800년대 후반 로그 책을 보던 천문학자 사이먼 뉴컴은 이상한 점을 발견합니다. 책의 앞쪽 페이지는 온통 낡았는데 뒤쪽 페이지를 보면 훨씬 덜 낡았다는 것입이다. 다른 로그 책들을 봐도 마찬가지입니다. 그는 우리가 산 문제집의 앞부분을 열심히 풀다가 점점 시들해진 것과는 다르다고 봤습니다. 그는 1881년,  「미국 수학 저널 American Journal of Mathematics」에 논문을 발표합니다. 1로 시작하는 수들의 로그 값이 나오는 앞쪽 페이지가 9로 시작하는 수들이 있는 마지막 페이지보다 더 낡은 이유가 있다. 로그함수를 통해 1로 시작하는 숫자는 전체의 30.1%, 2는 17.6%, 3은 12.5%, 4는 9.7%, 5는 7.9%, 6은 6.7%, 8은 5.1%, 9는 4.6%라고 결과를 도출해냈습니다. 
 
 
 
 
 

 

 

 
 
 
 그리고 1938년 벤포드라는 사람이 나타납니다. 뉴욕의 제너럴 일렉트릭 사에서 일하던 물리학자이자 공학자였던 프랭크 벤포드 역시 세상의 미스터리함을 눈치챕니다. 그는 로그 책에서 더 나아갔습니다. 미국 도시들의 인구 기록표, 원소들의 원자량, 강 355개의 면적, 물리학 상수 104가지, 분자 중량 1800개 아구 통계 등등 여러 곳에서 무작위로 숫자를 뽑아 연구했고, 이 법칙이 반복해서 나타남을 알게 됩니다. 어떤 숫자의 첫번째 숫자가 1일 확률은 30% 2일 확률은 18%라고 말입니다. 그래서 그는 이러한 현상에 대해 '이례적인 수들의 법칙 Law of Anomalous Number's'라고 명명했습니다. 이후에 사람들은 이 법칙을 '벤포드의 법칙'이라고 부르게 됩니다.   
 
 
 
 
 벤포드는 이러한 비율을 공식으로 만들기도 합니다. 공식에서 P(d)는 d라는 숫자가 데이터에서 첫 번째 숫자로 나타날 확률을 말합니다. 
 
 

 

벤포드의 공식

 

 
 
 
 
 벤포드의 발표 이후, 사람들은 다양한 분야에 벤포드의 법칙을 찾아냅니다. 벤포드의 법칙은 놀랍도록 여러곳에서 이 세계의 법칙을 품고 있었습니다. 높은 건물들의 높이, 주소의 번지수, 전기세, 세금, 주식, 집값 통계, GDP에서 그 법칙을 찾을 수 있습니다. 또한 음악에 있어서 작곡가의 악보 중 일부를 발췌해서 각 곡의 진행과정에서 각각의 음이 얼마나 오래 연주되는지 음의 지속시간을 살펴본 경과 벤포드의 법칙을 볼 수 있습니다. 스포츠 통계에서는 태권도 발차기 수, 농구 선수의 평생 득점, 배드민턴 랠리, 아메리칸 풋볼 선수당 터치다운 수, 축구에서 가로채기 전 패스 수등에서 이 법칙을 보입니다. 도시와 시골 인구도 벤포드의 법칙을 따릅니다. 도시의 인구는 개개인들의 자유로운 의사의 합이라고 볼 수 있습니다. 직장 때문에 그곳에 사는 사람, 아이들의 학업 문제, 은퇴 후 삶 등등. 약간의 차이는 있었지만 19,500개 미국 도시를 살펴본 결과 법칙을 따르고 있었습니다. 또한 1912년과 2012년의 인구 연구 결과에서도 같은 모습을 보였습니다. 범죄의 희생자 수, 법규 위반 수, 암 발생률, 점염병 발생률, 심장마비 발생 직전의 심박 간격에도 법칙이 있었습니다. 벤포드 법칙은 이 세상의 많은 부분에서 이 법칙이 들어맞는다는 것을 알려주는 데에 그치지 않았습니다. 
 
 
 
 
 마크 리그리니는 벤포드의 법칙을 알고 있었습니다. 그는 현실 세계의 숫자가 이 법칙을 따른다고 가정하고, 회계 장부에 이를 적용했습니다. 그리고 에너지 기업인 '엔론'의 회계부정을 밝히게 됩니다. 엔론은 수치를 부풀리고 싶었습니다. 모든 기업이 그렇겠지만 엔론은 재무제표 상 좋은 회사로 보이고 싶었습니다. 그래서 부채를 과소계상으로 하기 위해 특수 목적법인, 일명 유령 자회사로 넘기는 방식으로 회계장부를 조작하였습니다. 마크 리그리니는 법칙의 그래프만 보고 이를 알아냈습니다. 벤포드의 법칙에 따르면 1보다는 2가 , 2보다는 3이 적은 비율로 숫자의 앞자리를 차지해야 했습니다. 그러나 엔론은 그 비율이 법칙에 위배된다는 것을 발견한 것입니다. 그 후 미국에서는 회계와 세무에 관해서 벤포드 법칙으로 검사를 하는 벤포드 검사법이 생겼습니다. 또한 미국의 국세청(IRS)나 금융감독기관은 거래소나 코스닥 기업의 보고 이익 수치에서 분식 회계 등 조작 단서를 적발해내고 있습니다.
 
 
 

 

엔론 분식회계의 증거

 

 
 
 
 2009년 국가 부도 위기에 몰린 그리스는 재정 적자 규모를 조작하기에 이릅니다. 유로존 가입을 위해 2000년 그리스 정부는 GDP대비 재정 적자 규모가 13.6% 임에도 불구하고 6%라고 밝혔습니다. 그리고 EU의 회계 실사에서 조작이 드러납니다. 그 배경에는 벤포드 법칙이 있었습니다. 
 
 
 
 
 2009년 프랑스 수학자인 부드라인 루케마이란 대통령 선거가 조작되었을 가능성을 제기하였습니다. 이란에서 선거가 있고 며칠 뒤, 통계적으로 분석을 했더니 대통령이 된 후보의 지지율이 높도록 조작되었다고 주장했으나 아직까지 밝혀진 것은 없다고 합니다. 현재에는 러시아, 이란, 멕시코, 터키, 필리핀 등 여러 나라에서 선거 결과 분석에 벤포드 법칙을 사용하고 있습니다. 
 
 
 
 
 SNS 친구 수와 관련해서도 이 법칙은 성립한다고 합니다. 미국 메릴랜드 대학의 제니퍼 골벡(Jennifer Golbeck) 교수는 MIT Technology Review에서 2015년 소셜 네트워크의 데이터와 벤포드 법칙의 관계에 대해서 발표했습니다. 더 나아가 SNS상의 사기를 알아낼 수 있다고 말합니다. 수를 다루는 벤포드 법칙을 우리가 가진 친구 수 즉 팔로워 수에 대입하는 것입니다. 그녀는 페이스북, 트위터 등의 계정에서 친구의 친구 숫자를 살폈는데 놀랍게도 30%의 친구수가 1로 시작한다고 점을 발견했다고 합니다. 모든 페이스북 사용자를 뽑으면 그 패턴에 맞지만 나의 친구에 대해서 똑같이 해도 같은 결과가 나온다는 것입니다. 그녀는 트위터 사용자를 무작위로 뽑고 연구한 결과 다 벤포드 규칙을 따르는 것 같았지만 이 법칙을 따르지 않는 계정을 발견했습니다. 그리고 이 계정을 살펴본 결과  전부 러시아의 로봇 계정이었으며, 한 사람이 운영하는 것이었다고 합니다. 로봇 계정은 온라인에서는 사람처럼 보이는 컴퓨터 프로그램을 말합니다. 그들도 우리와 같이 트윗을 쓰고 사진도 올리며, 좋아요를 누르고, 팔로우를 합니다. 대략 10만에서 15만 개의 로봇 계정이 있을 것으로 그녀는 추정합니다. 일명 트윗봇은 평소에는 무해할지 모릅니다. 그러나 우리가 인식하지 못할 때 우리에게 해를 입힐 수 있습니다. 우리에게 스팸메일을 보낼 수도 있고, 선거에 영향을 미치는 여론을 조성할 수도 있습니다. 
 
 
 
 
 인터넷 상의 가짜 이미지와 진짜 이미지를 구분하는 방법에도 이 법칙이 쓰입니다. 미국 다트머스 대학 하니 파리드는 이미지, 영상, 음성, 문서도 믿을 수 없는 가짜일 수있다는 것에 항상 위협을 느낀다고 합니다. 그래서 이미지에도 이 법칙이 적용시켰습니다. 먼저 이미지에서 무엇을 분석할 것인지를 생각했고, 사진이 수백만 개의 숫자 값으로 이루어지는 점을 이용합니다. 사진을 찍어 JPEG로 압축하고 이미지에 담긴 기본 숫자가 벤포드의 규칙을 따른다는 것을 알아냅니다. 또한 포토샵을 거치고 저장을 하면 벤포드의 규칙이 깨진다는 것을 발견합니다. 이미지를 가공할수록 저장 횟수는 많아지고 벤포드 곡선은 더 완만해지는 진다고 합니다.
 
 
 
 
 심지어 전 세계의 화산 크기 데이터베이스를 적용하니까 이 역시 이 법칙에 들어맞았다고 합니다. 정말이지 믿을 수가 없습니다. 이 세계가 무질서하다고 생각했는데 생각보다 정교한 시스템이 아닐 수 없습니다. 

반응형

댓글