본문 바로가기
기서무나구물

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집(Hulu 데이터 과학팀 저/주거웨 편/김태헌 역 | 제이펍 )

by 기서무나구물 2020. 6. 26.

포스팅 목차

    데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집(Hulu 데이터 과학팀 저/주거웨 편/김태헌 역 | 제이펍 )

    100개 이상의 실전 면접 문제로 배우는 머신러닝, 딥러닝, 강화학습 알고리즘

    • 원제 : 百面机器: 算法工程去面
     

     

    책소개

    『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와준다.

    [

    책 속으로

    ]

    데이터 과학자로 향하는 길은 순탄치 않을 것입니다. 하지만 그 길에는 아름다움과 광활함이 함께할 것입니다. 여러분이 해야 할 일은 자신이 어떤 일을 하고 싶은지를 명확히 하고, 묵묵히 이 책의 내용을 최대한 습득한 후, 조용히 이 책을 덮고서 생활 속 사소한 곳에서 머신러닝의 매력을 느껴보는 것입니다.
    --- p.xxii

    머신러닝 문제에서 특성은 벡터의 형태로 표현되는 경우가 많습니다. 따라서 두 특성 벡터 사이의 유사도를 분석할 때 코사인 유사도를 자주 사용합니다. 코사인 유사도 값의 범위는 [-1, 1]이고, 같은 두 벡터 사이의 유사도는 1입니다. 만약 거리와 유사한 형태로 표현하고 싶다면 1에서 코사인 유사도를 뺀 것이 코사인 거리가 됩니다. 따라서 코사인 거리가 취할 수 있는 값의 범위는 [0, 2]가 되고, 동일한 두 벡터의 코사인 거리는 0이 됩니다.
    --- p.38

    같은 선형 차원축소 방법이지만 PCA는 비지도(unsupervised) 차원축소 알고리즘인 반면, LDA는 지도(supervised) 차원축소 알고리즘입니다. 따라서 원리와 응용 두 측면에서 두 알고리즘은 큰 차이점이 존재하지만, 두 방법 모두 수학적 방법론에서 시작했기 때문에 공통적인 특성도 존재함을 쉽게 알 수 있습니다.
    --- p.101

    위 문제에서 우리는 몇 가지 자주 사용하는 샘플링 알고리즘에 대해서만 간단한 소개를 했습니다. 실제 면접에서 면접관은 지원자에게 익숙한 샘플링 방법을 골라 해당 알고리즘에 대한 이론 증명, 장단점, 적용 등에 대해 깊게 물어볼 확률이 높습니다. 예를 들면, 왜 기각 샘플링이나 중요도 샘플링은 고차원 공간에서의 효율이 낮아 사용할 수 없는지? 혹은 하나의 불규칙한 다변형 중에서 하나의 점을 추출하는 방법은 어떤 것이 있는지? 등에 관해 물어볼 수 있습니다.
    --- p.211

    그림 9.14는 합성곱 신경망을 설명하는 전통적인 도표입니다. 이는 얀 르쿤이 1998년에 고안한 합성곱 신경망 구조인데, 입력 후 몇 개의 컨볼루션층과 풀링층 연산을 거쳐 완전 연결층을 더하면 예측 결과를 바로 출력하고, 성공적으로 손글씨 인식을 할 수 있습니다.
    --- p.263

    [

    출판사 리뷰

    ]

    로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지!

    분야별, 난이도별로 잘 구성된 실전 면접 문제!
    이 책은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있습니다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와줍니다.

    Hulu 데이터 과학팀 실전 면접 문제 수록!
    Hulu(훌루)는 넷플릭스 대항마로 월트 디즈니가 설립한 OTT(Over The Top) 서비스 회사이며, 이 책은 스탠퍼드대학교, 칭화대학교, 베이징대학교 등 일류 대학 출신들로 구성된 Hulu 데이터 과학팀 멤버 15인이 튼튼한 수학 기초, 알고리즘 시스템에 대한 완전한 이해, 모델에 대한 깊은 이해를 제공하기 위해 집필한 서적입니다.

    데이터 과학자/데이터 엔지니어가 알아야 할 필수 스킬 트리 PDF 파일 제공!
    데이터 과학자/데이터 엔지니어를 위한 스킬 트리(기술 로드맵) PDF 파일이 온라인으로 무료 제공됩니다.

     

    [

    추천평

    ]

    이 책은 주거웨 박사가 편집하고 15명의 Hulu 데이터 과학자가 함께 쓴 창의적이고 실용적인 면이 돋보이는 책입니다. 인공지능과 머신러닝에 대한 이해를 높여 소프트웨어 엔지니어와 데이터 과학자 모두를 AI 전문가로 거듭날 수 있도록 도와줄 것입니다.
    _ 해리 셤(Harry Shum) / 마이크로소프트 글로벌 수석부사장, IEEE 펠로우, ACM 펠로우

    컴퓨터 이론과 알고리즘은 사람들에게 자주 냉대를 받습니다. 왜냐하면 그들과 실제 응용 사이를 이어 주는 다리가 없기 때문입니다. 주거웨 박사와 그녀의 동료들이 쓴 이 책은 어떻게 그들을 잇는 다리를 만들어 줄 수 있는지에 대해 가르쳐 주고 있습니다. 이 책을 통해 컴퓨터 관련 종사자들은 이론적인 부분에서 크게 도약할 것이며, 비전공자 출신들도 컴퓨터 과학이란 위대한 도구를 더 잘 이해할 수 있을 것입니다.
    _ 우쥔(Wu Jun) / 『수학의 아름다움(數學之美)』, 『물결의 정점에서(浪潮之?)』 저자

    시장에 쏟아져 나오고 있는 머신러닝 관련 서적 중에서 Hulu 데이터 과학자들이 출판한 이 책은 매우 특별합니다. 일선에서 일하고 있는 데이터 과학자들의 시각으로 인터뷰, 실전 모델링, 그리고 응용 사례들을 중점으로 머신러닝을 설명하고 있습니다. 그래서 데이터 과학자를 꿈꾸는 독자들에게는 더 빠르게 꿈을 이룰 수 있도록 도와줄 것입니다. 특히, 여러 명의 실전 전문가가 힘을 합쳐 만든 것임에도 내용이 상당히 체계적이라 더욱 독보적입니다.
    _ 리우펑(Liu Peng) / 『알고리즘 마케팅(?算?告)』 저자, iFLYTEK 부사장

     

    [

    목차

    ]

    CHAPTER 1 피처 엔지니어링 1

    ① 피처 정규화 3
    ② 범주형 피처 6
    ③ 고차원 결합 피처의 처리 방법 9
    ④ 결합 피처 12
    ⑤ 텍스트 표현 모델 14
    ⑥ Word2Vec 17
    ⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20

    CHAPTER 2 모델 평가 23

    ① 평가 지표의 한계 25
    ② ROC 곡선 31
    ③ 코사인 거리의 응용 38
    ④ A/B 테스트의 함정 43
    ⑤ 모델 평가 방법 46
    ⑥ 하이퍼파라미터 튜닝 49
    ⑦ 과적합과 과소적합 52

    CHAPTER 3 클래식 알고리즘 55

    ① 서포트 벡터 머신 57
    ② 로지스틱 회귀 67
    ③ 의사결정 트리 71

    CHAPTER 4 차원축소 85

    ① PCA 최대분산 이론 87
    ② PCA 최소제곱오차 이론 92
    ③ 선형판별분석 96
    ④ 선형판별분석과 주성분분석 101

    CHAPTER 5 비지도학습 107

    ① k평균 클러스터링 109
    ② 가우스 혼합 모델 121
    ③ 자기 조직화 지도 125
    ④ 클러스터링 알고리즘 평가 131

    CHAPTER 6 확률 그래프 모델 137

    ① 확률 그래프 모델의 결합확률분포 139
    ② 확률 그래프 표현 142
    ③ 생성모델과 판별모델 146
    ④ 마르코프 모델 148
    ⑤ 토픽 모델 156

    CHAPTER 7 최적화 알고리즘 163

    ① 지도학습에서의 손실함수 165
    ② 머신러닝에서의 최적화 문제 169
    ③ 전통적인 최적화 알고리즘 172
    ④ 경사하강법 검증 방법 177
    ⑤ 확률적 경사하강법 180
    ⑥ 확률적 경사하강법의 가속 184
    ⑦ L1 정규화와 희소성 192

    CHAPTER 8 샘플링 199

    ① 샘플링의 역할 201
    ② 균등분포의 난수 204
    ③ 자주 사용하는 샘플링 방법 207
    ④ 가우스 분포 샘플링 212
    ⑤ 마르코프 체인 몬테카를로 219
    ⑥ 베이지안 네트워크 샘플링 225
    ⑦ 불균형 샘플 집합에서의 리샘플링 230

    CHAPTER 9 피드 포워드 신경망 235

    ① 다층 퍼셉트론과 부울 함수 237
    ② 딥러닝의 활성화 함수 245
    ③ 다층 퍼셉트론의 오차역전파 알고리즘 249
    ④ 딥러닝 훈련 테크닉 257
    ⑤ 합성곱 신경망 263
    ⑥ ResNet 271

    CHAPTER 10 순환신경망 277

    ① 순환신경망과 합성곱 신경망 279
    ② 순환신경망의 그래디언트 소실 문제 281
    ③ 순환신경망의 활성화 함수 284
    ④ LSTM 네트워크 286
    ⑤ Seq2Seq 모델 290
    ⑥ 어텐션 메커니즘 294

    CHAPTER 11 강화학습 299

    ① 강화학습 기초 301
    ② 비디오 게임에서의 강화학습 308
    ③ 폴리시 그래디언트 313
    ④ 탐색과 이용 317

    CHAPTER 12 앙상블 학습 323

    ① 앙상블 학습의 종류 325
    ② 앙상블 학습 단계와 예제 329
    ③ 기초 분류기 332
    ④ 편향과 분산 334
    ⑤ GBDT 알고리즘의 기본 원리 338
    ⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342

    CHAPTER 13 생성적 적대 신경망 347

    ① 처음 만나는 GANs의 비밀 349
    ② WGAN: 저차원의 유령을 잡아라 357
    ③ DCGAN: GANs이 합성곱을 만났을 때 365
    ④ ALI 372
    ⑤ IRGAN: 이산 샘플의 생성 377
    ⑥ SeqGAN: 텍스트 시퀀스 생성 382

    CHAPTER 14 인공지능의 응용 현황 391

    ① 알고리즘 마케팅 393
    ② 게임에서의 인공지능 409
    ③ 자율 주행에서의 AI 428
    ④ 기계 번역 439
    ⑤ 인간과 컴퓨터 상호작용 443

     

     

     

    반응형

    댓글