포스팅 목차
국립국어원 세종 말뭉치(sejong-corpus) 다운로드 스크립트( 최호진 (Hojin Choi))
* 스크립트 제작 이유
- 세종 말뭉치 관련 파일들이 1400개가 넘습니다. 또한 전체 크기는 2GB에 해당.
- 게시판을 통해 하나씩 받는데 어려움이 있습니다.
- 말뭉치에 사소한 오류들이 있습니다. 또한, 세종 말뭉치는 개작 및 재배포를 허용하지 않는 라이센스를 가지고 있습니다. 따라서, 연구자들이 말뭉치를 받아 오류를 고쳐도 재배포가 허용되지 않습니다.
* 참고 : 세종 말뭉치 - 국립국어원 언어정보나눔터
******************************************************
- 통계분석연구회
- 카페 : http://cafe.daum.net/statsas
- 통계분석연구회(Statistics Analysis Study) 그룹
: https://www.facebook.com/groups/statsas
- STATWITH : http://statwith.tistory.com/
- RSS : https://statwith.tistory.com/rss
반응형
'분석데이터' 카테고리의 다른 글
데이터가 없어서 AI, DS 못 한다고 하지마세요 1(낭만학습자의 IT기술이야기 김영하) (0) | 2019.02.19 |
---|---|
인공지능(AI) 학습용 공개데이터 4400만건으로 확대(동아사이언스) (0) | 2019.02.05 |
머신러닝을 위한 50가지 공용 데이터세트(Data Driven investor Stacy Stanford) (0) | 2018.12.20 |
기억해두면 유용한 통계지표 사이트 12곳(퀘벤하운/ㅍㅍㅅㅅ) (0) | 2018.12.18 |
우편번호를 통한 지역구분에 대한 분석시 참고 (0) | 2018.11.20 |
댓글