상세 컨텐츠

본문 제목

[니시우치 히로무/신현호 역/홍종선 감수] 빅데이터를 지배하는 통계의 힘(2014)

독서일기/수학

by 태즈매니언 2015. 10. 9. 00:19

본문

 

 

빅데이터가 워낙 각광을 받다보니 '빅데이터'를 제목으로 붙인 책들이 널려있다. 그래서 좀 저어했는데 어느 블로그에서 본 서평에서 높이 평가하더라. 평소 직장에서 연구하시는 박사님들이 기본적으로 사용하는 방법론이 통계적 사고이기에 기초적인 내용이라도 이런 부분을 이해하고싶어서 읽게 되었다. 통계쪽은 중고교 과정에서 교과서 끝부분 단원으로 배우다보니 책을 읽기 전 알고 있는 지식은 분산과 표준편차의 기본 정의 뿐이었다. --;

 

책을 읽고나니 나같은 문외한은 올해에 출간된 실무활용편이 아니라 2013년에 번역되어 나온 본편을 먼저 봤어야하는구나 싶었다. 그리고 학교를 졸업하면 수학 과정 중에서 사칙연산 다음으로 자주 쓰는 것이 통계적 지식인데 교육과정 편재가 좀 잘못되어 있다는 생각.

 

수열과 극한의 개념을 배우면 현대사회를 살아가는 상식인으로서 필요한 기초적인 통계지식은 충분히 습득할 수 있는데 이미 미분 적분을 거치면서 대량의 수포자를 양산한 다음에 막판에 통계 단원을 배치하는 순서는 바귀어야 할 것 같다.

 

개인적으로는 회귀분석과 로짓모형같이 외계어로만 보였던 단어들의 기본적인 의미를 이해할 수 있게 되었다는 사실. 하지만 이 책의 내용 중 20%나 이해했을까 싶어서 더 쉽고 두툼한 책을 골라서 제대로 읽어봐야할 듯. 이 책에서는 나같은 초심자들을 위해 좋은 책들을 많이 추천해줬는데 그 책들이 번역이 다 되었을리는 없겠지. 일본의 출판계의 깊이가 부러울 뿐.

 

------------------------------------------------------

 

45쪽

 

평균은 최소제곱법에 기초하여 측정값에 포함되어 있는 차이를 가장 적게 만드는 뛰어난 추정값이다.

 

51쪽

 

데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정 바업이고 그 결과 평균값이 가장 좋은 추정값이 된다.

 

76쪽

 

러시아의 수학자 체비셰프에 의해 데이터의 불규칙성이 어떠하든 평균값 -2SD(표준편차의 두배)~평균값+2SD까지의 범위에 반드시 전체의 4분의3 이상의 데이터가 존재하는 것이 증명되었다.

 

130쪽

 

흔히 '대는 소를 수용한다'는 표현이 있지만 통계학에서는 반대로 '소(를 위한 분석방법)는 대(를 위한 분석방법)을 포용한다.'는 말이 성립한다.

 

163쪽

 

가로 세로 축에 양적 항목을 잡고 점을 그려넣은 그래프를 산포도라고 한다.

 

167쪽

 

골턴의 제자 피어슨은 가우스의 최소제곱법을 이용하여 얻은 2개의 양적 항목 간의 경향성을 나타내는 직선(회귀곡선)의 수식을 통해 어떤 정보도 일단 수치화하면 관련성을 명백히 할 수 있는 추상적인 영역까지 통계학을 확장했다.

 

199쪽

 

로지스틱 회귀분석에서 로지스틱은 '물류'가 아니라 '기호 논리학'의 의미다. 기호 논리학에서는 '이항논리'라 하여 참(true)와 거짓(false)과 같이 아웃컴이 두 종류로 나타나는 자료를 다루는데 이와 같은 이항논리에 관한 아웃컴을 분석하는 회귀분석이다.

 

325쪽

 

고등학교까지의 수학교육 커리큘럼은 '최종적으로 통계학을 습득한다는 전제 아래서 현실적으로 어떻게 쓰이는지 용도를 깨우쳐주면서 미적분이나 선형대수를 가르쳐야 한다.'는 것이 필자의 견해이다.

어쩌면 이 책에서 다뤄왔던 50년 이상 전에 발명된 기본적인 분석방법에서조차 미적분과 선형대수를 사용하지 않고서 자력으로 계산할 수 있는 방법은 매우 한정되어 있다. 
 

관련글 더보기

댓글 영역