본문 바로가기
데이터과학자 진로정보

이 땅, 통계학의 오늘② (BI Korea - 고려대 최종후교수)

by 기서무나구물 2018. 12. 21.

포스팅 목차

    이 땅, 통계학의 오늘② (BI Korea - 고려대 최종후교수)

     

    II. 통계/확률 연구동향 


    1. 추론/계산 

    1.1. 모수/비모수추론 

    국외 연구동향: 비모수적추론에서 표본의 크기가 증가함에 따라 국소평활영역을 축소시키거나 기저함수의 개수를 늘이는 식으로 함수공간의 근사오차를 줄이는 방법은 함수가 정의된 정의역의 차원, 즉, 관측값의 차원이 증가하면 효과적이지 않다는 사실이 알려져 있다.

    이 현상을 ‘차원의 저주(curse of dimensionality)’라고 하며 비모수적추론에서는 이를 극복하는 것이 현재 연구흐름의 큰 방향이다. 차원의 저주를 극복하는 하나의 방법으로 모형의 차원은 무한차원으로 유지하여 모형의 융통성을 갖추는 동시에 차원의 저주를 피하는 특별한 구조를 모형에 추가하는 것이다. 비모수가법모형(nonparametric additive models), 비모수일반화가법모형(nonparametric generalized additive models), 비모수변수계수모형(nonparametric varying coefficient model) 등이 대표적인 예이다. 

    한편, 관측값의 차원이 초고차원인 경우에 모수적추론의 문제도 현재 매우 활발하게 연구되고 있다. 특히, 마이크로어레이(microarray)자료와 같이 자료의 차원(p)이 표본의 크기(n)에 비해 훨씬 큰 경우가 주된 연구대상이다. 자료의 차원은 그 생성과정을 설명하는 통계모형에서 모수의 차원과 직접적인 관계가 있다. 

    자료의 차원이 커지면 모수의 차원도 커질 수밖에 없다. 21세기 들어서면서 많이 연구되었던 ‘lasso’ 및 그와 유사한 벌점회귀(penalized regression)방법들은 모형의 차원축소와 모수의 추정을 동시에 수행하는 방법으로 각광을 받았지만 n이 한없이 커질 때 p/n이 영으로 수렴하는 경우에만 유효함이 알려져 있다. 
    최근의 연구방향은 p/n이 무한으로 발산하는 경우에 유효한 방법을 개발하는 것이다. 이와 함께 자료의 차원이 무한차원인 함수자료(functional data)에 대한 연구도 최근 활발하게 진행되고 있다. 함수자료에 대한 모형으로 가장 간단한 함수선형모형(functional linear models)에 대한 연구는 상당 부분이 진행이 되었고, 함수자료의 비모수모형에 대한 연구는 아직 시작 단계이다. 
    국내 연구동향: 국내에서 일부 통계학자의 연구는 국제적인 동향과 일치한다. 비모수추론의 연구는 국제적으로 선두그룹에 속해 있고 초고차원모수모형의 추론과 함수자료 모형의 분석에서도 국제적인 수준의 연구가 진행되고 있다. 그러나 현대통계학에서 이 분야의 연구가 국제적으로 중심 테마가 되고 있는 만큼 국내에서의 저변확대가 필요하다. 

    1.2. 베이지안추론 

    국내/외 연구동향: MCMC, 객관적베이지안, 비모수베이지안 등 세부주제별로 정기적인 국제 workshop이 개최되는 등 활발한 연구활동이 진행 중이고 통계학의 4대 major journal 에 발표되는 논문 수도 증가하고 있는 추세이다. 국내에서도 일부 통계학자들이 MCMC, 객관적베이지안, 비모수베이지안 등에 대해 연구하고 있다. 1996년 한국통계학회 산하에 베이지안통계연구회가 설립되어 활발한 학술교류가 진행되고 있다. 

    1.3. 통계계산 

    국내/외 연구동향: 최근 통계학은 생물정보학, 경영학, 인터넷 연구등 다양한 분야에서 수집되어 오는 초고차원 대용량 자료의 분석에 많은 노력을 기울이고 있다. 이러한 초고차원 대용량자료의 분석은 필연적으로 어려운 계산 문제들을 동반하고 기존의 낮은 차원의 자료를 위한 방법론들이 잘 작동하지 않게 된다. 
    한 예로 변수들 사이의 상호연관성 추론에 있어서 초고차원 공분산 (또는 역공분산)행렬의 벌점가능도함수를 최대화 하기 위한 여러 가지 알고리즘들이 제안되었으나 실제 유전체자료와 같은 초고차원 자료에 직접 적용하는 것은 매우 어려운 상황이다. 이러한 어려움을 해결하기 위하여 수치선형대수나 최적화기법의 최근 발전과 더불어 새로운 계산방법에 대한 연구가 요구된다. 
    몬테칼로적분(또는 MCMC)의 최근 국외 연구 동향을 살펴보면 대략적으로 다음의 세 방향으로 진행되고 있다. 
    첫째가 비모수베이지안에서 Dirichlet Process Mixture(DPM) 모형을 이용한 함수자료나 베이지안 인자모형의 분석, 또는 두 개 이상의 DPM을 사용하는 모형들에 대한 연구이다.
    둘째로 adaptive MCMC방법에 대한 연구로 Metropolis-Hastings 알고리즘의 조절모수(tuning parameter)값을 Markov chain의 진행과 더불어 수정함으로써 수렴속도를 개선해 나가는 샘플러에 대한 연구이다. 
    마지막으로 trans-dimensional MCMC 방법들에 대한 연구이다. 여기서 trans-dimensional MCMC란 reversible jump MCMC와 같이 모형이 차원이 정하여지지 않은 모수를 가지고 있을 때 사용되는 방법이다. 국내에서도 일부학자에 의해 이러한 연구가 시도되고 있다. 

    2. 모형/자료분석 

    2.1. 선형모형 

    국내/외 연구동향: 설명변수의 차원이 초고차원일 때 모형의 차원을 축소시키기 위한 변수선택(variable selection) 및 벌점회귀(penalized regressions) 방법 등이 많이 연구되고 있고, 함수자료 사이에 상관성이 매우 큰 경우에 함수선형모형을 적합시키는 방법에 대해서도 많은 연구가 진행되고 있다. 국내에서는 계층적일반화선형모형(hierarchical generalized linear models)에 대한 연구가 활발히 진행되고 있다. 

    2.2. 다변량통계 

    국내/외 연구동향: 다변량자료분석의 연구는 크게 두 가지 줄기로 나뉘어 분류된다. 하나는 다변량정규분포에 기초한 모형론이고 또 하나는 어떤 확률적 전제 없이 다변량자료의 기술에 중점을 두는 자료론이라고 할 수 있다. 그간은 자료론이 모형론에 비하여 다소 열세에 있었다고 할 수 있었지만 근래에는 자료론이 행렬도(biplot), 쌍대척도법(dual scaling), 수량화(quantification) 등의 다양한 이름으로 활발히 연구되고 있다. 
    국내에서도 일부 통계학자들에 의해 다양한 다변량적 방법론이 개발되어 활용되고 있다. 특히, 정규분포 및 통계모형에 의존하지 않은 탐색적 다변량자료분석법이 많이 개발되고 있는 상황이다. 개발된 방법론들은 실제 사회의 다양한 분야에서 폭넓게 활용되고 있으며, 통계적 방법론의 다양성에 큰 기여를 하고 있다. 

    2.3. 시계열자료분석 

    국외 연구동향: 최근 불안정(nonstationary)시계열모형, 장기기억과정(long memory process), 조건부이분산성, 비선형과정(nonlinear process)에 대한 연구가 활발하게 진행되고 있다. 불안정시계열모형에서는 특히 단위근(unit root)가설에 대한 다양한 검정법이 연구되었고, 단위근을 갖는 시계열자료에 대한 회귀분석 등의 연구가 진행되었다. 
    또한, 패널(panel)단위근에 대한 연구가 활발히 이루어졌는데 여기에서는 패널개체들이 갖는 교차상관을 적절히 감안하는 방안이 적극 검토되었다. 불안정시계열을 표현하는 다른 방법으로서 평균모수 또는 추세모수가 시간에 따라 변하는 브레이크모형이 단위근과 함께 연구되어졌다. 단위근을 갖는 벡타시계열도 많은 학문적 발전을 이룬 분야이다. 
    벡타시계열들이 동일한 확률적 추세를 갖는지에 대한 공적분(cointegration)검정법이 주된 연구 관심이었는데 벡타오차수정모형에 대한 추정 및 검정으로 확대되어 연구되어졌다. 장기기억과정은 불안정시계열과 안정(stationary)시계열 중간에 위치한 모형으로서 그동안 괄목할만한 발전을 이루었다. 장기기억시계열모형은 ARFIMA 모형 등을 통해 일반화되었고 통계적인 문제를 포함하여 경제 및 금융시계열에의 응용에서 괄목할 만한 진전이 있었다. 
    조건부 이분산성 분야에서는 GARCH 계열의 모형이 금융시계열과 경제시계열에서 흔히 볼 수 있는 분산의 volatility clustering을 표현하는데 적극 활용되고 연구되었다. 또한 ARMA모형, 회귀모형, VAR 모형 등 다양한 평균함수와의 결합을 통해 단위근검정, 공적분검정 등의 통계적 방법들이 다수 개발되었다. 아울러 실제 자료의 미세한 특징, 즉 비대칭성, persistency 등을 표현하는 EGARCH, IGARCH 등으로 확장이 이루어졌다. 비선형과정의 연구는 TAR 계열의 모형을 중심으로 이루어졌다. 
    국내 연구동향: 국내에서도 여러 통계학자에 의해 단위근 검정, 패널단위근 검정, 브레이크 모형, 장기기억모형, GARCH 모형 등에 대해 많은 연구가 진행되었다. 

    2.4. 생존분석 

    국외 연구동향: 생존분석분야의 주요 연구 분야는 생존시간 자료를 분석하기 위한 비모수추론, 모수회귀모형과 준모수회귀모형, 개체 간 이질성을 수용하기 위한 프레일티(frailty) 모형 및 랜덤효과 모형, 재발 사건 자료 및 그룹화 된 자료를 포함하는 다변량 생존자료에 대한 추론, 종속적인 중도절단을 포함하는 모형, 비모수베이지안추론 등이다. 
    특히 최근에는 마이크로어레이 자료나 SNP 자료와 같은 방대한 유전체 정보를 생존자료분석에 접목시키는 연구가 매우 활발히 진행되고 있다. 이러한 연구결과들은 정기적으로 International Biometric Society가 주최하는 국제학술대회에서 발표되며 이를 통해 활발한 학술교류가 진행되고 있다. 
    국내 연구동향: 국내에서의 연구동향도 국외와 거의 일치한다. 국내 학자들 사이의 연구교류는 한국통계학회 산하의 생물통계연구회가 조직되어 이를 중심으로 이루어지고 있다. 생존분석 분야에서는 국내 연구자들이 많이 활동하고 있기 때문에 이 분야에 대한 많은 투자가 필요하다. 

    2.5. 표본조사 

    국외 연구동향: 국외 연구는 크게 조사방법(survey methodology) 부분에 대한 연구와 추론에 대한 연구의 두 분야로 이루어져 있다. 조사방법론적 측면에서는 웹조사(web survey)와 모바일조사(mobile survaey) 등의 새로운 조사도구에 대한 연구가 최근 활발히 진행되고 있다. 
    표본조사 자료를 이용한 추론 부분에서는 내용에서 언급된 모든 분야에 대한 연구들이 균형적으로 이루어지고 있으나 특히 분산추정(variance estimation), 무응답 대체(missing value imputation), 소지역 추정(small area estimation)에 대한 연구가 집중적으로 이루어지고 있다. 또한 보조정보를 효율적으로 사용하기 위한 표본추출법 및 추정량의 개발에 대한 연구도 활발히 이루어지고 있다. 
    국내 연구동향: 개인정보보호 및 사생활 침해 문제로 인하여 독립적인 반복 표본조사가 어려워짐에 따라 패널을 구성하여 일정시간 동안 조사를 진행하는 패널조사가 국내에서 급증하고 있다. 패널조사는 시간에 따른 모집단의 변화를 예측할 수 있는 장점이 있어 최근 많은 조사가 패널조사의 형태로 진행되고 있다. 
    이러한 패널조사를 위한 패널 구축 및 모평균 혹은 모집단 총합과 같은 단순모수로부터 변화율과 같은 복잡 모수의 추정에 대한 연구가 활발히 진행되고 있다. 또한 패널조사만이 갖는 패널마모(panel attrition)와 같은 비표본오차에 대한 연구도 진행되고 있다. 최근 급속하게 변하는 조사환경에 대응하기 위하여 사회여론조사를 위한 새로운 조사도구에 대한 연구가 증가하고 있다. 기존의 전화조사를 대체할 수 있는 모바일조사 혹은 인터넷조사를 위하여 패널조사의 방법을 접목하고 이를 바탕으로 새로운 추정량을 개발하는 연구가 진행되고 있다. 

    3. 응용통계 

    3.1. 생물통계 

    국외 연구동향: 인간 유전체 사업(human genome project) 이후 현재 많은 의학/생물통계학 연구는 유전체 및 단백질체 기반으로 진행되고 있다. 전장 유전체 자료, sequence 자료, epigenetics 자료, 마이크로어레이 자료 등을 활용하여 얻은 원인 단백질 및 원인 유전자에 대한 정보를 바탕으로 이미 개개인의 유전 정보를 활용하여 건강 정보를 예측해주는 민간 기업들이 출현했으며, 미국과 독일은 본격적인 신약 개발에 돌입하였다. 
    그러나 여기엔 건강수명에 영향을 미치는 다양한 변수들이 고려되지 않아 예측 모형에 한계가 있으며 이를 극복하기 위해 통합분석(integrated analysis) 및 메타 분석에 대한 연구가 최근 활발히 진행되고 있다. 또한 환경 간, 환경과 유전자, 유전자간의 상호작용에 대한 연구가 중요하게 부각됨에 따라 대용량 자료를 빠르고 효율적으로 분석할 수 있는 벌점회귀, 데이터마이닝 기법들을 비롯한 다양한 통계 분석 알고리즘 및 소프트웨어들이 활발히 연구 개발되고 있다. 
    국내 연구동향: 동아시아 지역 처음으로 KARE(Korean Association REsource)가 2007년 안성, 안산 코호트에서 지역기반 코호트의 유전체 전장분석 사업을 시작하여 대량의 유전체 정보를 발굴하였고, 현재 임상, 역학 자료와의 통합연관분석이 진행되고 있다. 또한 KARE의 전장유전체 연구를 통해 생산된 유전체 정보와 지역기반 코호트 역학 자료를 효율적으로 분석하기 위한 협력 연구가 진행 중에 있다. 그러나 통계 알고리즘 및 소프트웨어 개발이 부족하여 대다수의 분석들이 국외 연구 결과물에 의존하는 한계가 있어 점진적인 해결방안의 모색이 요구된다. 

    3.2. 금융/보험통계 

    국외 연구동향: 연구동향을 크게 (1)보험, (2)금융, (3)리스크관리로 나누어서 기술한다. 보험 분야에서는 신종 상품의 출현으로 확률/통계학적인 접근이 더욱 요구되고 있으며, 금융시장 실적과 연계된 동적해약률(dynamic lapse rate)의 모형 개발과 보험료와 준비금 산출에 필요한 각종 위험률의 추정방법에 대한 연구가 진행 중이다. 고령화에 따른 사망률의 지속적인 하락은 미래 추세를 반영하는 생명표의 작성에 대한 연구를 유발시키고 국제회계기준의 도입에 따른 제도변경은 새로운 연구 주제들을 계속 생산하고 있다. 
    또한, 노후보장을 위한 연금의 필요성이 증대되면서 연금 재정의 추계에 필요한 통계적인 방법론의 개발이 요구되고 있다. 금융 분야에서는 정규분포모형에서 벗어나 다양한 통계모형으로 수익률의 비대칭성과 변동성의 변화를 수용하고 이를 파생상품의 가격결정과 헷징에 적용하고 있다. 또한, 다변량 금융자료의 상관성을 코퓰라를 이용하여 반영하는 방법도 연구되고 있다. 
    리스크관리는 시장리스크, 신용리스크, 금리리스크 등으로 나뉘며 각 영역에서 리스크의 크기를 계산하는데 통계적 추론이 필수적이며 여기에 많은 연구자가 참여하고 있다. 
    국내 연구동향: 국내의 금융/보험통계에 대한 연구는 1990년대에 본격적으로 시작되었으며 2000년 이후에 후속세대 연구자들이 다수 배출되기 시작하면서 다양한 분야에서의 보험/금융통계 이론과 응용에 대하여 연구가 진행되고 있다. 

    3.3. 환경통계 

    국외 연구동향: 환경통계의 국외연구 동향의 특징은 국가의 정책적인 지원을 통해 대규모로 이루어지고 있다는 것이다. 국가 연구소나 대학교에 환경통계를 연구할 수 있는 센터를 만들고 이를 통해 전문 인력을 양성, 배출하는 것이다. 대표적인 예로는 미국 국립대기연구소 소속의 통계그룹, 시카고대학 통계학과 소속의 환경통계센터 등이다. 또한 환경자료를 수집하고 관리하는 기관들과 통계연구자 간에 활발한 공동연구가 이루어지고 있다. 

    국내 연구동향: 개인 연구자별로 작은 규모로 연구가 진행되고 있다. 보다 활발하고 창의적인 연구를 위해 범국가적인 지원이 절실히 요구되는 분야이다. 

    4. 확률/확률과정 

    4.1. 확률과정/해석 

    국내/외 연구동향: 국외에서는 확률과정/해석의 여러 분야에서 상당히 많은 수의 학자들이 존재하고 연구 성과 역시 괄목할만한 수준이나 국내에서는 상당히 미흡한 실정이다. 확률해석 부분에는 비록 충분치는 않으나 다른 분야에 비해 다수의 국내 학자들이 존재하며, 확률해석의 여러 영역에서 연구를 진행 중에 있다. 
    특히 Levy process와 관련된 확률해석 분야 및 금융수학 분야에 여러 명의 학자들이 존재한다. 확률과정에서의 추론 및 mixing property에 대한 연구는 주로 시계열 분석을 하는 연구자들이 그들의 필요에 의해 연구를 진행하고 있는데, 국제적으로도 소수의 학자들이 참여하고 있으며 국내에서는 이 분야에 대한 연구 인력이 극도로 적은 형편이다. 
    극한이론 분야는 확률론 중 중요한 분야로서 국제적으로는 이미 연구의 질이 높은 수준에 도달해 있으며, 국내에서도 몇몇의 학자가 좋은 성과를 내고 있다. 마지막으로 점 확률과정이론은 통신망 이론 및 대기체계이론과 밀접한 관계에 있는 분야로 국내에서는 대기체계이론과 댐이론(dam theory) 등에 여러 학자들이 연구를 진행 중에 있다. 

    4.2. 극단값이론 

    국내/외 연구동향: 국외에서는 종속확률과정에서 나타나는 극단값의 확률적 특성과 극단분위수의 추정 등에서 많은 연구가 진행되고 있다. 또한, 극단값이론은 환경자료나 리스크 관련 금융자료를 모델링하는데 매우 유용한 도구로 활용되고 있다. 국내에서는 이 분야에 대한 연구 인력이 매우 부족하다. 

    4.3. 대기체계이론 

    국외 연구동향: 대기체계이론의 연구는 대기망(queueing networks), 행렬분석방법(matrix analytic method), 역변환(inverse transformation), 컴퓨터와 통신에서 트래픽 확률과정의 분석, 플루이드모형, 생산시스템(manufacturing systems)으로의 응용, 대기체계시스템에서의 통계적추론 등을 중심으로 진행되고 있다. 

    국내 연구동향: 국내 대기체계이론의 연구는 1980년대에 시작되었으며 다양한 서비스정책 하에서 다양한 형태의 대기체계시스템을 연구하고 있다. 또한 행렬기하방법을 이용한 대기체계시스템의 분석, 통신망 분석, 대기체계이론을 이용한 리스크 모형의 분석, 대기체계이론의 응용 등에 대하여 연구를 진행하고 있다.

     

    * 출처 : http://www.bikorea.net/news/articleView.html?idxno=4625

    반응형

    댓글