본문 바로가기
데이터과학자 진로정보

이 땅, 통계학의 오늘① (BI Korea - 고려대 최종후교수) - Bikorea 2011.10

by 기서무나구물 2018. 12. 21.

포스팅 목차




    이 땅, 통계학의 오늘① (BI Korea - 고려대 최종후교수)


    * 출처 : http://www.bikorea.net/news/articleView.html?idxno=4616



    한국통계학회는 1971년 12월 17일, 연세대학교에서 필자의 대은사인 김준보 선생님께서 앞장서 창립한 학술단체이다. 세월이 흐르고 흘러 어언 40년, 필자는 2010-2011 2년간 학회 회장을 맡게 된 것이니, 금년은 학회 창립 40주년인 해이다.




       

    ▲ 최종후 한국통계학회장/고려대 교수



    당시의 기록을 살펴보니, 1971년 초 고려대학교에서 김준보, 백운붕, 윤기중 선생님을 비롯한 7명의 교수가 학회창립을 발기하였으며, 그해 겨울 47명의 호해지사(湖海之士) 두루 모여 한국통계학회 창립총회를 가졌다고 되어 있다. 필자가 대학에 입학하기 삼 년 전의 일이다. 


    이제 한국통계학회는 천 여 명의 회원이 참여하고 있으며, 관심분야가 비슷한 회원들이 학문적 공통 주제를 토론하고 연구하기 위하여 연구주제별로 9개의 연구회를 두고 있으니, 조사통계연구회(1988년 발족), 통계교육상담연구회(1988년), 통계계산연구회(1988년), 공업 및 기업정보통계연구회(1990년), 생물통계연구회(1990년), 분류연구회(1993년), 국가통계연구회(1995년), 베이지안통계연구회(1999년), 스포츠통계연구회(2007)가 그것이다. 9개의 연구회는 전문 서적의 발간, 심포지움, 포럼 개최를 통하여 이 땅의 학문적 발전을 모색하며 또한 실천하고 있다. 또한 통계학회는 세가지 학술지를 정기적으로 간행함으로써 이 사회의 지적 성장에 기여하고 있는데, <JKSS>(Journal of the Korean Statistical Society - SCIE, Elsevier B.V. 출간)는 연간 4회, <응용통계연구>와 <한국통계학회논문집>(학술진흥재단 등재학술지)은 각각 연간 6회 발간되고 있다. 

    한국통계학회는 학회 창립 40주년을 기하여 2011년 5월 26일 한국통계학회, 통계청 공동주최로 통계센터(대전)에서 ‘국가통계포럼’, 5월 26-28일 KAIST에서 ‘학회 창립 40주년 기념 춘계학술대회’, 7월 1-2일 웨스턴조선호텔(부산)에서 한국통계학회, 통계청, 한국은행 공동 주최로 국제학술대회 ‘2011 KSS International Conference on Statistics and Probability -The 40th Anniversary of the Korean Statistical Society’를 개최하였다. 

    11월 3일에는 고려대학교에서 ‘2011 신진 통계학자 학술대회’, 11월 4-5일 성균관대학교에서 ‘학회 창립 40주년 기념 추계학술대회’가 열리게 된다. 추계학회에서 ‘한국통계학회 40년사’가 발간 배포된다. 한국통계학회는 학회 창립 40주년에 기해 이 땅의 통계학의 오늘과 내일을 정리하는 글을 정리한 바 있어 여기에 소개한다. 

     


     

    I. 통계/확률 분야 소개 


    국가과학기술표준분류체계에 의거, 통계/확률의 분야소개를 (1)추론/계산, (2)모형/자료분석, (3)응용통계, (4)확률/확률과정의 4개 중분야별로 정리한다. 통계/확률분야는 현재에도 계속 응용영역을 확장하고 있으며 이에 따른 이론연구의 영역도 확장일로에 있다. 따라서 여기에 이 모든 분야의 소개와 연구동향을 분석하는 것이 불가능하며, 단지 현재 국내 연구자가 관심을 가지고 있는 대표적인 분야에 대해 기술함을 밝혀둔다. 


    1. 추론/계산 


    1.1. 모수/비모수추론 


    통계적 추론이란 우리가 관측하는 자료를 생성시키는 미지의 규칙을 근사적으로 찾고 그것을 바탕으로 미래의 관측현상을 추측하거나 예측하는 분야라고 할 수 있다. 자료생성의 규칙은 ‘통계모형’으로 설정하는데 여기에는 미지(未知)의 값, 즉 모수가 포함되고 이를 관측 자료로부터 추정하게 된다. 

    모수적추론(parametric inference)은 자료생성의 규칙이 유한차원의 통계모형으로 설명이 된다는 가정에서 출발한다. 유한차원의 통계모형이란 유한개의 모수로 표현될 수 있는 모형을 일컫는다. 비모수적추론(nonparametric inference)에서 모수는 일반적으로 함수이며 함수의 참값이 포함되는 영역을 무한차원의 공간으로 설정한다. 비모수적추론의 강점은 모수의 차원이 무한이기 때문에 모형이 유연하고, 따라서 매우 복잡한 자료생성의 규칙도 수용할 수 있다는 것이다. 

    일반적으로 통계적 추론에서 모수의 차원이 자료의 크기, 즉 관측값의 개수보다 크면 추정 방법이 일치성을 가지기가 힘들다는 사실이 알려져 있다. 여기서 일치성이란 자료의 크기가 한없이 커질 때 추정값이 참값으로 수렴하는 현상을 말한다. 비모수적추론에서 무한차원의 함수를 유한개의 관측 자료를 이용하여 일치성(consistency)을 가지도록 추정하기 위해 주로 사용되는 방법은 추정대상인 함수의 차원을 유한으로 축소시키되 차원의 크기를 자료의 크기와 함께 증가시키는 것이다.

    그 대표적인 예가 국소평활법(local smoothing)과 기저함수방법론(basis function approach)인데, 전자의 경우에는 미지의 함수가 충분히 미분가능하다는 사실을 전제로 각 추정점 근방에서 유한차원의 함수로 근사시킴으로써 차원을 축소시키고, 후자의 경우에는 유한개의 기저함수만 이용하여 무한차원의 함수공간을 근사시킨다. 모형의 유연성은 비모수적추론의 큰 강점이지만 동시에 약점이기도 하다. 

    즉, 모형이 유연한 만큼 모수(함수)의 추정이 모형보다는 자료에 크게 의존하게 되고 따라서 추정된 함수의 형태가 복잡하여 그 해석이 모수적추론에 비해 매우 어렵다. 준모수적추론(semiparametric inference)이란 모수적추론의 강점이라 할 수 있는 해석의 용이함과 비모수적추론의 강점인 모형의 유연성을 모두 살릴 수 있는 방법으로서 모형에 모수적부분인 유한차원의 모수와 비모수적부분인 무한차원의 함수가 공존한다. 간단한 예로, 준모수회귀모형의 경우 회귀함수는 선형 또는 다항함수로 설정하는 반면에 오차항의 분포를 나타내는 밀도함수는 무한차원으로 두는 것을 들 수 있다. 

    준모수적추론은 비모수적추론에 비해 최적추정에 관한 일반적인 이론이 잘 정립되어 있다. 일반적으로, 준모수적추론에서는 모수적부분 또는 비모수적부분 어느 쪽이든 한쪽을 추정하기 위해서는 다른 한쪽의 값이나 추정이 필요하게 되고 이를 해결하는 방식에 따라 여러 가지 방법론이 가능하다. 


    1.2. 베이지안추론 


    Bayes(1763)로부터 시작한 베이지안통계학은 모수를 미지의 고정된 값이 아니라 확률적 규칙의 지배를 받는 변수로 취급한다. 베이지안추론의 핵심은 모수에 대한 사전분포(prior distribution)와 자료의 정보를 혼합하여 사후분포(posterior distribution)를 구하는 것이다. 베이지안추론에서 사전분포가 공액(conjugate)이 아닌 경우나 혹은 복잡한 문제의 경우 사후분포를 쉽게 구할 수 없다. 

    이 때 사후분포의 계산을 가능하게 하는 방법 중 하나가 MCMC(Markov chain Monte Carlo)이다. 베이지안추론의 가장 큰 단점이 사전분포의 임의성이다. 즉, 모수에 대한 사전정보가 분석자의 주관에 따라 달라질 수 있다는 것이다. 이러한 단점을 보완하기 위하여 객관적인 사전분포에 대해 연구하는 분야가 객관적베이지안(objective Bayesian)이다. 베이지안추론에서도 사전분포의 확률모형을 무한차원으로 설정할 수 있는데 이에 대한 방법론을 연구하는 분야가 비모수베이지안(Bayesian nonparametrics)이다. 


    1.3. 통계계산 


    통계계산은 통계학의 다양한 분야에서 발생하는 계산(computing)에 관련된 문제들에 대하여 연구하는 융합분야이다. 통계계산은 20세기 후반의 컴퓨터의 발달과 더불어 비약적인 발전을 하였고 통계적 방법론의 발전과 대중화에 많은 공헌을 하였다. 

    통계계산의 주요 관심사는 통계학의 세부 분야들과 밀접하게 연결되어 있고 (1)수치선형대수(numerical linear algebra), (2)최적화(optimization), (3)몬테칼로적분(Monte Carlo integration) 등으로 분류된다. 수치선형대수는 선형회귀분석과 다변량분석에서 등장하는 선형방정식의 해, 역행렬, 공분산행렬의 고유치와 고유벡터의 계산 등과 같은 행렬연산과 관련된 문제에 대하여 빠르고 정확한 계산방법을 제시함으로써 통계계산의 초기발전을 이끌었다. 

    최적화는 다양한 목적함수(objective function)의 최적화와 관련된 방법을 연구하는 분야이다. 통계학에서 발생하는 목적함수로는 (벌점)가능도함수, robust 회귀분석의 최소절대편차(least absolute deviation), 분위수회귀(quantile regression)을 위한 check 함수, 다변량 정규분포에서 공분산행렬에 관한 max-det 함수 등 매우 다양한 형태가 존재하고, 최적화는 각 목적함수를 최대화(최소화)하는 값을 계산하는 방법을 연구한다. 최적화에는 주로 선형계획(linear programming)이나 볼록최적화(convex optimization) 기법이 이용된다. 

    몬테칼로 적분(또는 MCMC)은 특히 베이지안추론과 관련하여 계산도구를 제공함으로써 베이지안추론의 응용을 촉진시키는 역할을 하였다. MCMC의 연구는 베이지안모형의 확장에 따라 좋은 샘플러의 개발에 많은 노력이 기울여져 왔고 현재의 연구도 같은 선상에 있다. 


    2. 모형/자료분석 


    2.1. 선형모형 


    넓은 의미의 선형모형은 반응변수와 설명변수 간의 통계적 연관성을 모델링함에 있어서, 반응변수의 평균(혹은 평균의 함수)이 설명변수(혹은 설명변수들의 함수)의 선형결합으로 표현되는 유한차원의 통계모형을 총칭하며 다양한 통계적 방법/모형의 기초가 되는 분야이다. 

    가장 간단한 모형인 선형회귀모형 혹은 분산분석(ANOVA)모형으로부터 데이터의 복잡성과 모형의 다양성을 위해 여러 방면으로 확장된 모형이 연구되고 있다. 그 첫째가 일반화선형모형(generalized linear models)인데, 표준적인 선형모형이 비정규자료(예: 도수 혹은 비율)를 다룰 수 없는데 반해, 일반화선형모형은 범주형자료, 이항자료 및 다양한 형태의 비정규반응변수를 다룰 수 있다. 

    둘째로 혼합효과모형(mixed effect models)인데 이것은 반복측정자료(repeated measures), 경시자료(longitudinal data), 다층자료(multi-level data) 등과 같이 동일 개체로부터 얻어진 관측값의 오차항들 사이의 상관성을 모델링하는데 적절한 것으로 알려져 있다. 이밖에 위의 모형을 혼합/확장한 일반화선형잠재변수모형(generalized linear latent variable models), 분산성분모형(variance component models), 측정오차모형(measurement error models), 함수선형모형(functional linear models) 등이 연구되고 있으며 여러 응용분야에서 다양하게 변형/확장되고 있다. 


    2.2. 다변량통계 


    다변량(multivariate)통계는 둘 이상의 서로 상관되어 있는 확률변수들의 관측값을 분석하는 방법을 총칭한다. 한 개인의 얼굴을 그림으로 묘사할 때 눈만 그려서는 안 될 것이고 코도 그려야 하고 입도 그려야 하듯이 한 관측개체가 갖는 특성을 수치적으로 묘사하려면 여러 변수가 필요하다. 다수의 변수 사이에 통계적 관계를 정확히 잡아내어 효과적으로 표현하는 것이 다변량통계 혹은 다변량자료분석이다. 

    최근에 데이터 마이닝(data mining)이 사회의 제 현업에서 큰 관심을 끌고 있는데 그 통계적 중심기법이 다변량통계이다. 다변량 통계기법에는 여러 가지가 있다. 그 중 주성분분석(principal component analysis)은 차원의 단순화를 통해 서로 상관되어 있는 변수들 간의 복잡한 구조를 분석하는데 목적을 둔다. 인자분석(factor analysis)은 여러 변수들 간의 구조적 연관관계를 변수의 수보다 훨씬 적은 소수의 공통인자(common factor)로 모델링하는 것이다. 

    정준상관분석(canonical correlation analysis)은 2개의 변수집단 간의 선형적 연관성을 분석하는 기법이고, 다차원척도법(multi-dimensional scaling)은 관측개체들 사이의 유사성 또는 비유사성 값을 기초로 개체 간의 멀고 가까운 정도를 저차원의 공간에 시각적으로 표현하는 방법이다. 

    군집분석(cluster analysis)은 군집의 개수나 구조에 관한 특별한 가정 없이 개체들 사이의 유사성 또는 비유사성에 근거하여 자연스러운 군집을 찾고 다음 단계의 분석을 꾀하는 탐색적인 통계분석기법이고, 판별분석(discriminant analysis/classification)은 관측개체의 소속집단이 알려진 경우 새로운 관측자료의 소속집단을 판별하는데 이를 활용하는 방법을 연구하는 분야이다. 이외에도 인과변수들간의 구조적 관계를 일련의 선형방정식들의 항목으로 정식화하는 구조방정식모형(structural equation models) 등이 있다. 


    2.3. 시계열자료분석 


    시계열(times series)이란 일별 코스피지수, 연도별 강우량 등과 같이 시간의 경과에 따라 연속적으로 관측된 값의 계열(sequence)을 뜻한다. 시계열분석은 과거의 관측자료로부터 통계모형을 찾아 시계열의 특성을 설명하고 이를 이용하여 미래의 값을 예측하는데 목적을 둔다. 시계열자료는 시간의 경과에 따른 자연스러운 순서를 가지므로 분석기법이 통상적인 자료의 분석기법과는 차별된다. 

    일반적으로 시계열자료에 대한 통계모형은 시간적으로 가까운 관측값들이 시간적으로 먼 경우보다 상관성을 더 많이 가진다는 사실을 반영한다. 시계열자료의 분석방법은 크게 빈도수영역(frequency-domain) 방법과 시간영역(time-domain) 방법으로 나뉜다. 스펙트럴(spectral)분석 또는 웨이블릿(wavelet)분석 등이 전자의 방법이고 자기상관(auto-correlation)분석 또는 교차상관(cross-correlation)분석이 후자의 방법이다. 


    2.4. 생존분석 


    생존분석(survival analysis)은 관심있는 이벤트가 발생할 때까지의 시간을 분석을 하기 위한 통계적 방법을 연구하는 분야이다. 생존자료 분석방법의 응용분야는 의학을 비롯하여 생물학, 보건학, 예방의학, 공학, 경제학, 인구학 등 매우 다양하다. 

    생존시간 자료는 두 가지 특징을 갖고 있다. 그 중 하나는 중도절단(censoring)이고, 다른 하나는 절단(truncation)이다. 한 개체의 생존시간을 정확히 관측하지 못하고 대신에 어떤 시구간(time interval)에 포함된다는 것만을 관측 할 수 있을 때 생존시간은 중도절단 되었다고 말한다. 중도절단은 크게 세 가지로 분류된다. 한 개체의 이벤트가 미리 정한 어떤 시점까지 발생하지 않으면 그 개체의 정확한 생존 시간은 우측 중도절단(right censored) 되었다고 하고, 반대로 한 개체가 연구시작 시점 때 이미 이벤트를 경험한 것으로 관측되면 정확한 생존시간은 죄측 중도절단(left censored) 되었다고 한다. 

    아울러 이벤트의 발생 시간이 구간으로 관측되면 정확한 생존시간은 구간 중도절단(interval-censored) 되었다고 한다. 한편 절단은 두 가지로 분류된다. 일정 시점까지 생존한 개체만을 대상으로 하는 연구에서는 그 시점까지 충분한 생존경험이 없는 개체들은 연구대상에서 자연스럽게 제외되는데 이를 좌측 절단(left truncated) 되었다고 하고, 반대로 미리 정한 시점까지 이벤트를 경험한 개체만을 대상으로 하면 그 시점에 이후에 이벤트를 경험한 개체들은 연구대상에서 제외되는데 이때 우측 절단(right truncated)되었다고 한다. 생존시간 자료만이 갖고 있는 이와 같은 특징 때문에 생존분석 분야에서 통계적 방법론의 개발은 독특하며 또한 복잡한 수리적 전개가 뒤따라야 한다. 


    2.5. 표본조사 


    표본조사(sample survey) 또는 조사통계(survey statistics)분야에서는 관심 모집단에 대한 통계적 추론을 하는데 그 목적을 두고 모집단의 일부인 표본을 추출하는 방법을 연구하는 분야이다. 표본조사는 그 내용에 따라 정부조사(government survey), 마케팅조사(marketing survey) 그리고 사회 여론조사(public opinion survey) 등으로 구분된다. 또한 시간에 따른 조사대상의 중복에 따라 표본조사는 패널조사(panel survey), 순환조사(rotation sample survey) 그리고 독립반복조사(independently repeated survey) 등으로 구분된다. 조사 도구에 따라서는 면대면 조사, 우편조사, 전화조사, 인터넷 혹은 모바일 조사 등으로 구분할 수 있다. 


    언급된 조사의 분류에 따라 해당 조사의 특수한 연구주제가 있으나 일반적으로 조사의 계획단계로부터 조사자료 분석까지의 모든 조사 과정이 연구주제가 될 수 있으며, 이를 크게 나누면 (1)모집단 혹은 표집틀의 구축에 대한 연구, (2)표본추출법에 대한 연구, (3)가중치 및 추정량 산출과 분산 추정에 대한 연구, (4)무응답오차와 관측오차 등의 비표본오차에 대한 연구, (5)조사도구에 관한 연구 등이 있다. 


    3. 응용통계 


    3.1. 의학/생물통계 


    의학/생물통계학은 임상시험 및 신약개발, 유전체/단백질체학, 영양학 및 환경자료를 포괄하는 보건학 등의 분야에서 광범위하게 활용되는 분야로써, 의학/생물 자료를 효율적으로 분석할 수 있는 기법을 개발하고 응용하는 통계학의 한 분야라고 정의할 수 있다. 

    의학/생물통계학은 의학/생물학의 연구에서 (1)비용 대비 효율이 좋고 관심 가설의 검정에 적합한 연구방안(study design)을 결정하고, (2)연구결과의 효율성과 타당성을 향상시킴과 동시에 방대한 자료를 주어진 시간에 적절히 처리할 수 있는 통계량을 제시하며, (3)얻어진 결과를 정확히 해석하고 이로부터 의미 있는 결론을 도출한다. 

    다시 말해서 의학/생물학의 대규모 연구 그 시작과 끝에 의학/생물통계학이 있다고 해도 과언이 아니다. 임상시험 및 신약개발 분야에서는 임상시험과 신약개발 시 많은 연구들이 인간에 기초하고 있어 연구에 한계가 존재하나, 이를 “관측”된 자료의 통계적 분석으로 극복하는 방안이 연구된다. 

    유전체/단백질체 분야에서는 실험적으로 얻어진 유전체/단백질체 자료에 근거하여 내재된 정보를 통계적 분석으로 유추하고 이를 바탕으로 개개인의 역학 자료와 유전체/단백질체 간의 상호 연관성을 검정할 수 있는 통계적 방안들이 연구된다. 보건학 분야에서는 개인의 영양 상태 및 환경에 기인한 질병의 원인을 찾고 구성원들의 건강을 증진시키기 위해 역학 자료에 근거한 다양한 통계적 자료분석 기법이 연구되고 있다. 


    3.2. 금융/보험통계 


    금융/보험통계 분야는 응용통계의 한 분야로 금융(finance)과 보험(insurance)에 대한 수리적인 분석과 확률/통계모형의 설정 및 추정 등을 하는 학문 분야이다. 금융/보험 통계는 금융/보험 분야에서 중요한 과제인 금융상품의 가격 결정(pricing)과 헷징(hedging), 보험 상품의 보험료와 준비금의 계산, 최적 자산 포트폴리오의 결정, 리스크 관리(risk management) 등에 필요한 확률/통계 모형의 유도와 추정 및 계산을 다룬다. 


    최근 급변하는 금융환경에 대응하기 위하여 기존의 금융/보험통계의 지식을 뛰어 넘는 새로운 이론 창출이 요구되고 있다. 금융/보험통계의 이론에 대한 역사는 보험과 금융으로 나뉘어서 살펴볼 수 있다. 보험통계는 17C 후반 생명보험을 위하여 연령별 사망자와 생존자수에 대한 정보가 포함된 생명표(life table)를 작성한 것이 통계적인 접근의 시초로 알려져 있다. 이후 많은 연구자에 의해 생존분포의 유도, 보험료와 준비금의 계산, 총손해액분포의 유도, 파산확률 등을 위한 연구가 진행되었다. 


    금융통계 분야는 금융 이론의 발전과 그 궤적을 함께 하고 있다. 금융의 고전 이론은 경제학의 학문적 결과들을 이용하여 발전해왔지만 20C 중반 이후 금융이론에 수리적인 접근이 주요 방법론으로 차용되면서 금융연구에 확률/통계이론의 적용은 필수적이 되었다. 


    포트폴리오 이론은 여러 위험자산의 수익률 평균, 분산, 상관계수를 이용하여 포트폴리오의 최적 구성에 대한 수리적 분석을 가능하게 하였다. 금융파생상품인 옵션(options)의 가격결정에 대한 연구에서는 1973년 Black and Scholes 그리고 Merton 등이 확률미분방정식을 활용하여 가격공식을 편미분방정식의 형태로 표현하였다. 그 이후 가격공식이 마팅게일(martingale)을 이용한 기대값의 형태로 표현가능하다고 밝혀지면서 확률론적 접근이 활발해졌으며, 1975년 Boyle에 의한 파생상품 가격의 몬테칼로 근사방법은 이후 확장되어 복잡한 파생상품 가격의 산출에 적용되었다. 


    또한 계산오차를 줄이는 분산 감소기법에 대한 연구가 진행되었고 난수(random numbers)의 생성에 대한 이슈들도 옵션 가격 결정의 주제로 도입되었다. 주식을 기초자산으로 하는 파생상품뿐 아니라 이자율 파생상품의 가격결정을 위하여 이자율 확률모형도 등장하여 금융시장에서 관측된 자료를 이용하여 이자율 모형의 모수를 추정하는 문제들도 크게 주목을 받았다. 


    3.3. 환경통계 


    환경통계(environmental statistics)는 최근 10-20년 사이에 급격히 발전한 통계학의 한 분야이다. 선진국을 중심으로 환경에 대한 보다 나은 이해와 분석 그리고 미래에 대한 불확실성을 평가하려는 노력의 일환으로 작게는 기업규모로 크게는 전 지구적인 규모로 그 중요성이 증대되고 있다. 환경통계에서는 다양한 환경관련 자료를 분석하기위해 여러 통계적 방법론 및 모형들을 사용한다. 


    대표적인 예로는 극단값(extreme value) 이론 및 분석, 적응표본추출 방법(adaptive sampling), 리스크와 불확실성 분석, 시공간(spatio-temporal)모형 등을 사용한다. 환경통계의 몇 가지 특징에 대해 언급하면, 첫째 다른 응용분야에 비해 다루고 있는 영역이 매우 넓다는 것이다. 공기오염 평가 및 조절, 수자원 평가, 생태계 조사, 기후변화, 온난화현상의 이해, 수산업 및 임업 자원평가 등 환경통계의 연구 영역은 광범위하고 다양하다. 둘째로 시공간 모형과 소지역 추정법 등 고유의 통계적 방법론을 창출하고 주도한다는 것이다. 


    셋째로 자료의 규모가 방대하고 복잡하여 새로운 통계기법의 개발에 대한 동기를 부여한다는 것이다. 기후자료의 예를 들면 일반적인 기후자료는 한 시점에 전 지구를 2.5도 격자로 자르고 이를 다시 지상, 지하로 구분하는 3차원 자료이기에 10년간 기후자료는 보관하기에도 어려운 대용량 자료가 된다. 또한 시공간상 상관성이 존재하는 기후자료를 기존의 방법들로 분석하기에는 여러 가지 한계가 존재한다. 



    4. 확률/확률과정 


    4.1. 확률과정/해석 


    확률론 및 확률과정론은 불확실성을 가지고 있는 시스템에 관한 추정, 예측, 결정을 하는데 있어서 최적의 방법론을 연구하는 학문분야이다. 응용분야는 자연과학, 공학, 의학, 경제학, 경영학에 걸쳐 매우 다양하며, 중요한 예를 들면 유전학, 금융수학, 통신망 이론 등이다. 


    확률과정론의 분야 중 비교적 통계학과 밀접하게 관련된 분야를 소개하면, 확률미분방정식, 확률과정에서의 추론, 확률과정의 mixing 성질분석, 극한이론, 점 확률과정 (point process) 등이다. 확률미분방정식은 Brownian motion에 기초한 미분방정식을 의미한다. 확률미분방정식은 확률해석(stochastic calculus/analysis) 분야의 중심이며 stochastic process에 관한 적분이론을 주로 다루는 학문분야이다. 


    이 분야에서 주된 주제는 크게 Ito process와 Malliavin calculus 등이며, 이들로부터 파생된 분야로서 partial stochastic differential equation과 Levy process 및 fractional Brownian motion에 의해 정의되는 확률적 적분 이론 등을 들 수 있다. Levy process는 jump가 있는 확률과정을 모델링할 때 쓰이며 최근 재정시계열분야에서 다채롭게 응용되고 있다. 확률미분방정식의 응용분야는 매우 광범위하지만 금융수학으로 대변되는 재정시계열분석으로의 응용이 그 중 백미라고 할 수 있다. 


    이는 Black-Sholes 모형 이래 금융자료의 변동성을 모형화 하려는 시도가 장구한 세월에 걸쳐 존재해 왔기 때문이다. 확률과정의 연구에서 중요한 부분 중 하나는 stationarity 및 ergodicity를 입증하는 것이다. 이와 더불어 확률과정의 mixing property를 밝히는 것도 매우 중요한 작업이다. 


    최근까지 mixing property는 상당히 많은 연구가 진행되었으나 새로운 모형의 출현 등으로 더 많은 연구가 필요하게 되었다. 극한이론은 확률과정의 점근적 성질을 연구하는 분야로 크게는 strong convergence, weak convergence, law of iterated logarithm 등으로 나눌 수 있다. 현재, 다양한 확률과정에서 수많은 결과가 알려져 있으나 응용분야가 확대됨에 따라 새로운 모형에서의 이론개발이 계속 요구되고 있다. 


    점 확률과정은 대기체계이론(queueing theory) 및 통신이론 등에서 매우 중요한 연구 분야로 알려져 있다. 또한 지진자료 분석 등에도 널리 응용되고 있다. 이 분야는 데이터가 count data 형태인 경우의 확률과정에 널리 응용되고 있으며 확률미분방정식 모형과 달리 Poisson process를 기본적인 확률과정으로 가정하고 있다. 


    4.2. 극단값이론 


    전통적인 극단값이론은 서로독립이고 동일한 분포를 따르는 확률변수들의 최대값(또는 최소값)에 대한 점근분포이론 및 관련 이론을 일컫는다. 이 이론은 확률표본에서 표본평균은 모분산이 유한하면 점근적으로 정규분포를 따른다는 중심극한정리와 유사하게 최대순서통계량의 점근분포는 대체로 세 가지 종류의 극단값분포 중의 하나가 된다는 극단극한정리에 기초한다. 


    현대적 극단값이론은 (1)확률과정의 극단값이론과 (2)통계적 극단값모형으로 나누어 생각해 볼 수 있다. 확률과정의 극단값이론 분야는 전통적 극단값이론을 종속 확률과정으로 확장한 것으로 여기에는 정상과정, 가우시안과정, 초과점과정, 비정상과정, 마코프연쇄, ARMA시계열, 연속시간 확률과정 등이 포함된다. 종속 확률과정에서의 극단값들은 독립 확률변수들의 경우와 달리 변수들 간의 종속성으로 인하여 집락적으로 발생하는 경향이 두드러지는데 이와 같은 확률적 특성을 잘 규명하는 작업이 무엇보다도 중요한 일이다. 


    통계적 극단값모형 분야에서는 주로 극단분위수 및 꼬리확률 추정, (다변량)극단값분포의 모수추정 및 검정, 극단지수 추정 등을 연구한다. 예를 들어 네덜란드 영토의 40%는 해수면보다도 낮은데 이는 제방 둑으로 보호되고 있다. 그러나 겨울철 불어오는 폭풍우는 해수면을 밀어 올리고 해변가에 위치한 제방 둑은 이를 견뎌 내야만 한다. 


    이를 위해 네덜란드 정부는 경비와 안정성을 모두 고려하여 연중 최대 해수면이 제방 둑을 넘칠 확률이 0.0001이 되도록 제방 둑의 높이를 정하고자 한다. 이때 사용할 수 있는 해수면 자료는 100년 남짓이라고 한다. 이는 100년 남짓 자료를 이용하여 해수면이 10,000년에 한번 정도 넘어설 정도의 제방 둑의 높이를 추정하는 문제로 전형적인 극단분위수 추정문제이다. 극단값이론의 대표적인 응용 분야로는 보험, 외환, 파생상품 등과 관련된 금융 분야, 대기오염, 수질오염 등을 포함한 환경 분야 등을 들 수 있다. 


    4.3. 대기체계이론 


    대기체계(queueing)이론 분야는 응용확률론의 한 분야로 대기열과 큐(queue)의 분석을 위한 이론이다. 대기체계이론은 큐 또는 시스템에서의 여러 가지 성능측도를 다루며, 여기에는 대기시간의 분포, 시스템에서 대기하는 개체와 서비스를 받는 개체 수의 분포, 시스템의 특정 상태에 머무르는 확률 등을 유도하고 계산하는 방법이 있다. 


    큐잉이론은 정보통신, 교통, 컴퓨터, 공장, 쇼핑, 병원 등의 시스템설계 등 다양한 분야에 응용된다. 대기체계이론의 역사는 파스칼(Blaise Pascal)과 페르마(Pierre de Fermat)의 파산확률(ruin probability)에 대한 토론으로 거슬러 올라가기도 하지만 본격적으로는 1834년 므치(Antonio Meucci)에 의하여 전화가 발명되고 1876년 벨(A. G. Bell)이 전화에 대한 특허를 획득한 이후 시작되었다. 


    대기체계이론은 이후 1950년대와 1960년대를 거치면서 학문의 한 분야로 정립되게 된다. 이 시기에 이르러 Kendall은 대기체계시스템의 분석에 확률론적 접근을 시도하였으며 Lindley는 대기시간과 관련하여 적분방정식을 유도하였다. 이러한 연구결과들은 1960년대에 재생이론(renewal theory)과 조합론 (combinatorial theory)이 대기체계시스템의 분석에 이용되는 토대를 제공하였다. 


    현재의 대기체계이론은 좀 더 현실적인 시스템의 모형화와 분석에 초점을 맞추어 지속적으로 발전하고 있다. 이러한 배경에는 컴퓨터의 발달이 있으며 이는 모형의 근사와 확률계산을 위한 다양한 알고리즘의 개발로 이어지고 있다. 확산과정(diffusion)을 이용한 근사, 플루이드(fluid)근사, 행렬기하방법(matrix geometric method) 등이 대표적인 예이다. 대기체계이론은 현실적인 필요에 의해 생겨났으며 최근에는 금융 보험 등의 위험이론에서도 대기체계이론의 연구결과들이 광범위하게 이용되고 있다.





    반응형

    댓글