본문 바로가기
카테고리 없음

[유충현님의 R-project 강의 모음]

by 기서무나구물 2010. 11. 2.

포스팅 목차

    1. Mosaic PLOT

    [링크]

    Mosaic Plot은 다변량의 범주형 데이터의 분포를 설명하는 도구이다. 단변량의 범주형 데이터의 분포에도 사용할 수 는 있지만 여타 Plot에 비해 실효성을 떨어지기 때문에 사용하지 않는 게 일반적이다. 그러나 다변량 분석에 앞서 자료의 분포를 조망하는 EDA 단계에서 유요할 도구로 사용될 수 있다. 위력을 발휘하는 분야는 2차원 이상의 교차 분류 자료 (cross-classified data)의 표현이다.

    2. Spine Plot

    [링크]

    Spine Plot은 Barchart의 일종이라 할 수 있다. Barchart는 일변량 범주형 자료에서 Class의 돗수의 비율을 막대의 길이로 표현한 것인 반면 Spine Plot은 막대의 길이는 동일하게 하고 Class의 돗수의 비율을 막대의 폭으로 표현한 것이다.

    3. RARDAR Plot

    [링크]

    RADAR Plot은 특정 그룹의 성격을 설명하는 N개의 변수의 점수분포를 비교하는 그림이다.  단위 그룹별로 각각의 변수의 관계를 볼 수도 있고, 여러 개의 그룹의 차이도 비교할 수 있는 그림이다. 다변량 분석에서 사용하는 Star Plot과도 유사한 그림이라 하겠다.

    4. Trellis & Lattice

    [링크]

    Trellis Graphics는 panel이라는 여러 개의 독립된 Graph Chart를 가로, 세로 혹은 페이지의 배열로 나타내어서 비교 분석할 수 있다. 즉, 다변량 데이터에서의 변수들 간의 유기적인 관계나 특징을 파악할 수 있는 도구라 할 수 있다. 이들이 Trellis라고 명명한 것은 Trellis를 구현하는 기술이 정원의 격자짜기(garden trelliswork)를 추억케 하였기 때문이라 한다.

    5. Colors

    [링크]

    Chart를 그리기 위해서는 점, 선, 면, 문자 등의 가시적인 요소가 필연적이다. 이들 요소가 모여서, 범례를 만들고, 좌표축을 만들고, 타이틀 등과 그래프를 만든다. 여기에 각각의 객체들에 색상을 부여해서 가독성을 높일 수 있다. 단일 색상이 아니라 여러 색상을 적절하게 조합하면 보다 직관적인 Chart를 생성할 수 있다.

    6. 원에 대해서

    [링크]

    앞서 한 점에서 같은 거리 만큼 떨어진 점들의 집합을 원이라고 한 적이 있었다. 한 점(원점)에서 1만큼 떨어진 위치의 점들의 모임인 단위원을 생각해 보자. x^2 + y^2 = 1^2인 원의 공식을 기억할지 모르겠다. 고교 수학 때 배운 기억이 어렴풋이 나지 않는가?

    그러면 한 점에서 1만큼 떨어진 위치에 꼭지점을 갖는 정n각형을 생각하자. 정삼각형, 정사각형, 정오각형 무수히 많다. 그러면 n의 수가 무한히 클 수록 이 다각형을 원에 수렴하게 된다.

    7. Graphics - maps

    [링크]

    map 데이터에 통계량을 가미해서 시각화 시킨 map chart는 지역의 특성을 쉽게 파악할 수 있는 장점이 있는 반면, map 데이터가 절대적으로 필요하다는 전제조건이 있다. 그러면 R의 maps와 mapdata 패키지를 통해 Geographics + Statistics를 느껴보자.

    8. R Font

    [링크]

    한글을 위시로한 전각문자를 쓰는 나라에서는 영문을 쓰는 나라보다 불리함 점이 너무 많다. 구현의 문제와 폰트가 이쁘지 않다는 문제가 그것이다. 비단 R뿐만 아니라 컴퓨팅 환경에 두루 해당되는 문제이기도 하다.

    9. 벡터에 대해서

    [링크]

    R은 자료의 변환 및 가공이 무척이나 수월하다. 통계 계산을 목적으로 설계된 언어이기 때문에 새삼 놀랄 일은 아니다. 그러나 R이외의 다른 언어를 사용 경험이 있는 사람들에게는 획기적인 기능들우 많이 있다. 이번에는 벡터를 통해서R의 자료조작의 방법에 대해서 감을 잡아보자.

    10. 행렬에 대해서

    [링크]

    행의 수가 1인 1 by n 행렬은 행벡터이고, 열의 수가 1인 m by 1의 행렬은 열벡터이다. 그리고 원소의 개수가 1인 벡터는 스칼라라고 할 수 있기 때문이다. 이처럼 행렬과 벡터는 밀접한 관계에 놓여 있고, 행렬을 정의할 때는 벡터를 먼저 정의하고 행렬을 정의하는 것이 일반적이다.

       



    P 백승민님의 파란블로그에서 발행된 글입니다.
    반응형

    댓글