포스팅 목차
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집(Hulu 데이터 과학팀 저/주거웨 편/김태헌 역 | 제이펍 )
100개 이상의 실전 면접 문제로 배우는 머신러닝, 딥러닝, 강화학습 알고리즘
- 원제 : 百面机器: 算法工程去面
책소개
『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와준다.
[
책 속으로
]
데이터 과학자로 향하는 길은 순탄치 않을 것입니다. 하지만 그 길에는 아름다움과 광활함이 함께할 것입니다. 여러분이 해야 할 일은 자신이 어떤 일을 하고 싶은지를 명확히 하고, 묵묵히 이 책의 내용을 최대한 습득한 후, 조용히 이 책을 덮고서 생활 속 사소한 곳에서 머신러닝의 매력을 느껴보는 것입니다.
--- p.xxii
머신러닝 문제에서 특성은 벡터의 형태로 표현되는 경우가 많습니다. 따라서 두 특성 벡터 사이의 유사도를 분석할 때 코사인 유사도를 자주 사용합니다. 코사인 유사도 값의 범위는 [-1, 1]이고, 같은 두 벡터 사이의 유사도는 1입니다. 만약 거리와 유사한 형태로 표현하고 싶다면 1에서 코사인 유사도를 뺀 것이 코사인 거리가 됩니다. 따라서 코사인 거리가 취할 수 있는 값의 범위는 [0, 2]가 되고, 동일한 두 벡터의 코사인 거리는 0이 됩니다.
--- p.38
같은 선형 차원축소 방법이지만 PCA는 비지도(unsupervised) 차원축소 알고리즘인 반면, LDA는 지도(supervised) 차원축소 알고리즘입니다. 따라서 원리와 응용 두 측면에서 두 알고리즘은 큰 차이점이 존재하지만, 두 방법 모두 수학적 방법론에서 시작했기 때문에 공통적인 특성도 존재함을 쉽게 알 수 있습니다.
--- p.101
위 문제에서 우리는 몇 가지 자주 사용하는 샘플링 알고리즘에 대해서만 간단한 소개를 했습니다. 실제 면접에서 면접관은 지원자에게 익숙한 샘플링 방법을 골라 해당 알고리즘에 대한 이론 증명, 장단점, 적용 등에 대해 깊게 물어볼 확률이 높습니다. 예를 들면, 왜 기각 샘플링이나 중요도 샘플링은 고차원 공간에서의 효율이 낮아 사용할 수 없는지? 혹은 하나의 불규칙한 다변형 중에서 하나의 점을 추출하는 방법은 어떤 것이 있는지? 등에 관해 물어볼 수 있습니다.
--- p.211
그림 9.14는 합성곱 신경망을 설명하는 전통적인 도표입니다. 이는 얀 르쿤이 1998년에 고안한 합성곱 신경망 구조인데, 입력 후 몇 개의 컨볼루션층과 풀링층 연산을 거쳐 완전 연결층을 더하면 예측 결과를 바로 출력하고, 성공적으로 손글씨 인식을 할 수 있습니다.
--- p.263
[
출판사 리뷰
]
로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지!
분야별, 난이도별로 잘 구성된 실전 면접 문제!
이 책은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있습니다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와줍니다.
Hulu 데이터 과학팀 실전 면접 문제 수록!
Hulu(훌루)는 넷플릭스 대항마로 월트 디즈니가 설립한 OTT(Over The Top) 서비스 회사이며, 이 책은 스탠퍼드대학교, 칭화대학교, 베이징대학교 등 일류 대학 출신들로 구성된 Hulu 데이터 과학팀 멤버 15인이 튼튼한 수학 기초, 알고리즘 시스템에 대한 완전한 이해, 모델에 대한 깊은 이해를 제공하기 위해 집필한 서적입니다.
데이터 과학자/데이터 엔지니어가 알아야 할 필수 스킬 트리 PDF 파일 제공!
데이터 과학자/데이터 엔지니어를 위한 스킬 트리(기술 로드맵) PDF 파일이 온라인으로 무료 제공됩니다.
[
추천평
]
이 책은 주거웨 박사가 편집하고 15명의 Hulu 데이터 과학자가 함께 쓴 창의적이고 실용적인 면이 돋보이는 책입니다. 인공지능과 머신러닝에 대한 이해를 높여 소프트웨어 엔지니어와 데이터 과학자 모두를 AI 전문가로 거듭날 수 있도록 도와줄 것입니다.
_ 해리 셤(Harry Shum) / 마이크로소프트 글로벌 수석부사장, IEEE 펠로우, ACM 펠로우
컴퓨터 이론과 알고리즘은 사람들에게 자주 냉대를 받습니다. 왜냐하면 그들과 실제 응용 사이를 이어 주는 다리가 없기 때문입니다. 주거웨 박사와 그녀의 동료들이 쓴 이 책은 어떻게 그들을 잇는 다리를 만들어 줄 수 있는지에 대해 가르쳐 주고 있습니다. 이 책을 통해 컴퓨터 관련 종사자들은 이론적인 부분에서 크게 도약할 것이며, 비전공자 출신들도 컴퓨터 과학이란 위대한 도구를 더 잘 이해할 수 있을 것입니다.
_ 우쥔(Wu Jun) / 『수학의 아름다움(數學之美)』, 『물결의 정점에서(浪潮之?)』 저자
시장에 쏟아져 나오고 있는 머신러닝 관련 서적 중에서 Hulu 데이터 과학자들이 출판한 이 책은 매우 특별합니다. 일선에서 일하고 있는 데이터 과학자들의 시각으로 인터뷰, 실전 모델링, 그리고 응용 사례들을 중점으로 머신러닝을 설명하고 있습니다. 그래서 데이터 과학자를 꿈꾸는 독자들에게는 더 빠르게 꿈을 이룰 수 있도록 도와줄 것입니다. 특히, 여러 명의 실전 전문가가 힘을 합쳐 만든 것임에도 내용이 상당히 체계적이라 더욱 독보적입니다.
_ 리우펑(Liu Peng) / 『알고리즘 마케팅(?算?告)』 저자, iFLYTEK 부사장
[
목차
]
CHAPTER 1 피처 엔지니어링 1
① 피처 정규화 3
② 범주형 피처 6
③ 고차원 결합 피처의 처리 방법 9
④ 결합 피처 12
⑤ 텍스트 표현 모델 14
⑥ Word2Vec 17
⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20
CHAPTER 2 모델 평가 23
① 평가 지표의 한계 25
② ROC 곡선 31
③ 코사인 거리의 응용 38
④ A/B 테스트의 함정 43
⑤ 모델 평가 방법 46
⑥ 하이퍼파라미터 튜닝 49
⑦ 과적합과 과소적합 52
CHAPTER 3 클래식 알고리즘 55
① 서포트 벡터 머신 57
② 로지스틱 회귀 67
③ 의사결정 트리 71
CHAPTER 4 차원축소 85
① PCA 최대분산 이론 87
② PCA 최소제곱오차 이론 92
③ 선형판별분석 96
④ 선형판별분석과 주성분분석 101
CHAPTER 5 비지도학습 107
① k평균 클러스터링 109
② 가우스 혼합 모델 121
③ 자기 조직화 지도 125
④ 클러스터링 알고리즘 평가 131
CHAPTER 6 확률 그래프 모델 137
① 확률 그래프 모델의 결합확률분포 139
② 확률 그래프 표현 142
③ 생성모델과 판별모델 146
④ 마르코프 모델 148
⑤ 토픽 모델 156
CHAPTER 7 최적화 알고리즘 163
① 지도학습에서의 손실함수 165
② 머신러닝에서의 최적화 문제 169
③ 전통적인 최적화 알고리즘 172
④ 경사하강법 검증 방법 177
⑤ 확률적 경사하강법 180
⑥ 확률적 경사하강법의 가속 184
⑦ L1 정규화와 희소성 192
CHAPTER 8 샘플링 199
① 샘플링의 역할 201
② 균등분포의 난수 204
③ 자주 사용하는 샘플링 방법 207
④ 가우스 분포 샘플링 212
⑤ 마르코프 체인 몬테카를로 219
⑥ 베이지안 네트워크 샘플링 225
⑦ 불균형 샘플 집합에서의 리샘플링 230
CHAPTER 9 피드 포워드 신경망 235
① 다층 퍼셉트론과 부울 함수 237
② 딥러닝의 활성화 함수 245
③ 다층 퍼셉트론의 오차역전파 알고리즘 249
④ 딥러닝 훈련 테크닉 257
⑤ 합성곱 신경망 263
⑥ ResNet 271
CHAPTER 10 순환신경망 277
① 순환신경망과 합성곱 신경망 279
② 순환신경망의 그래디언트 소실 문제 281
③ 순환신경망의 활성화 함수 284
④ LSTM 네트워크 286
⑤ Seq2Seq 모델 290
⑥ 어텐션 메커니즘 294
CHAPTER 11 강화학습 299
① 강화학습 기초 301
② 비디오 게임에서의 강화학습 308
③ 폴리시 그래디언트 313
④ 탐색과 이용 317
CHAPTER 12 앙상블 학습 323
① 앙상블 학습의 종류 325
② 앙상블 학습 단계와 예제 329
③ 기초 분류기 332
④ 편향과 분산 334
⑤ GBDT 알고리즘의 기본 원리 338
⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342
CHAPTER 13 생성적 적대 신경망 347
① 처음 만나는 GANs의 비밀 349
② WGAN: 저차원의 유령을 잡아라 357
③ DCGAN: GANs이 합성곱을 만났을 때 365
④ ALI 372
⑤ IRGAN: 이산 샘플의 생성 377
⑥ SeqGAN: 텍스트 시퀀스 생성 382
CHAPTER 14 인공지능의 응용 현황 391
① 알고리즘 마케팅 393
② 게임에서의 인공지능 409
③ 자율 주행에서의 AI 428
④ 기계 번역 439
⑤ 인간과 컴퓨터 상호작용 443
-
자기주도온라인학습센터 : http://withmooc.com/courses/
'기서무나구물' 카테고리의 다른 글
숙박공유 플랫폼 성장(단기 숙박업)의 최대 장애물 (0) | 2022.06.09 |
---|---|
환인제약 협찬 '우리의 놀이를 찾아서' (0) | 2021.05.12 |
인터넷에 돌고있는 웃긴이야기~외국인떡실신시리즈... (0) | 2018.11.23 |
독도는 우리 땅... (0) | 2018.11.12 |
화성비봉습지와 서천 강릉 해변 메밀 막국수 (0) | 2018.11.11 |
댓글