본문 바로가기
데이터과학자 진로정보/데이터 과학 & 통계도서

비모수통계학 with R (자유아카데미 정성규)

by 기서무나구물 2022. 1. 21.

포스팅 목차

    비모수통계학 with R (자유아카데미 정성규)

     

    * 머리말

     

    이 책의 제I부에서는 바로 이 전통적인 비모수통계의 방법론을 다룬다. 전통적인, 순위에 기반한 방법들은 1930년대부터 60년대까지 주로 연구가 이루어졌지만, 지금도 그 방법들이 실제 데이터 분석에서의 중요한 도구 중 하나이므로 중요한 방법론이라고 볼 수 있다. 이 책이 다른 전통적인 비모수통계를 다룬 책들과 다른 점은, 전통적인 비모수통계에서의 추론을 모두 순열검정의 특수한 경우로 설명한다는 점이다. 피셔(R.A. Fisher)가 처음 도입한 순열검정은 데이터의 뒤섞기를 통해 가설검정에서의 정확한 영분포를 구하는 방법이다. 뒤섞기를 이용한 추론 또는 순열검정은 제I부에서 다루는 전통적인 데이터 분석의 상황뿐 아니라 회귀분석에서의 추론, 그리고 고차원 다변량 데이터를 이용한 가설검정 등에도 적용되는, 매우 범용적인 방법이다.

    순위를 이용한 검정방법의 개발이 잦아들던 7080년대에 에프론 (B. Efron) 이 “붓스트랩”을 이용한 통계적 추론 방법을 학계에 소개하였다. 붓스트랩 (bootstrap)은 장화 뒤의 작은 손잡이를 말하며, 붓스트랩을 이용한 추론이 마치 자신이 자신의 장화를 들어올려 하늘을 나는 것과 같다는 뜻으로 붙여진 이름이다. 이 책의 제II부에서는 붓스트랩을 이용한 추론을 주로 다룬다. 특히, 모집단이 정규분포를 따르지 않을 때에도 표준오차와 신뢰구간을 붓스트랩을 이용하여 추정하는 방법을 설명한다. 순열검정과 붓스트랩을 이용한 추론의 방법을 통틀어 재표집(resample)에 기반한방법이라고 말한다. 일반적인 통계적 방법은 모집단으로부터 표집된 표본(sample)을 이용하여, 모집단의 모수에 대한 추론을 한다. 재표집이란 주어진 표본으로부터 다시 표집을 시행함을 뜻한다. 재표집 방법을 이용한 추론은 일반적으로 반복적으로 그리고 랜덤하게 재표집을 시행하는 과정이 수반되므로, 컴퓨터를 이용한 반복이 빠르고 쉬어진 최근에 붓스트랩과 순열검정이 각광받고 있다. 제10장에서는 통계분석에서 가장 자주 쓰이는 선형회귀분석에서의 붓스트랩 추론과 순열검정의 방법을 자세하게 설명한다.

    비모수통계학이 다시 통계학의 중심이 된 것은 8090년대에 활발하게 연구가 이루어진 평활법과 비모수적 함수 추정이 비모수통계의 한 분야로 이해되면서부터이다. 함수 또는 곡선을 추정할 때에는 이 곡선의 형태가 매우 자유롭기 때문에, 몇 개의 모수로 모집단을 정하는 기존의 모수모형을 이용한 추정이 불가능하다. 따라서, 추정의 대상이 되는 관측값뿐 아니라 그 주변의 관측값도 이용하여 추정하는 평활법(smoothing)이 함수 또는 곡선의 추정에 쓰인다. 비모수적 함수 추정은 매우 넓은 주제이지만, 제11, 12장에서밀도함수 추정과 비모수적 회귀분석에서의 회귀곡선 추정에 대한 방법론만을 간략히 다루고, 특히 추정된 함수의 불확실성을 붓스트랩을 이용하여 계량화하는 방법을 소개한다. 비모수적 방법론과 같이 발전한 통계학의 소분야는 로버스트 통계학이다. 로버스트 또는 강건한 통계적 방법이란 데이터에 이상점이 있을 때에도 좋은 성능을 보이는 방법을 말한다. 이 책에서는 회귀분석에서의 로버스트 추정량만을 간략히 소개하고, 순열검정과 붓스트랩을 이용한 통계적 추론을 설명한다.

    이 책에서 소개한 순열검정과 붓스트랩 방법은 책에 소개된 응용분야 (일표본, 이표본 위치에 대한 추론, 분산분석, 회귀분석, 비모수적 함수 추정 등) 뿐 아니라 다변량 분석에서의 추론 등 여러 통계 방법론에 적용될 수 있다. 이 책을 읽는 독자들이 재표집 방법의 범용과 성능을 잘 이해한다면, 다양한 통계 추론에 적용할 수 있을 것이라고 믿는다.

     
    * 저자 홈페이지(데이터파일 제공) : https://github.com/sungkyujung/npbook
     
     

    반응형

    댓글