본문 바로가기
반응형

r11

[데이터 전처리 비교- 테이블 결합] LEFT JOIN (왼쪽 결합) 으로 2개 테이블 결합 - 오른쪽 테이블에 미존재 데이터 추출 - 84 84. Display the details of those who do not have any person working under them. * 관리자 업무를 수행하지 않는 직원의 정보를 출력하시오. 파이썬 & R 패키지 호출 및 예제 데이터 생성 링크 [테이블 결합] LEFT JOIN (왼쪽 결합) 으로 2개 테이블 결합 - 왼쪽 테이블을 기준으로 오른쪽 테이블에 존재하지 않는 데이터 추출 Oracle : LEFT JOIN, IS NULL, 비상관 서브쿼리(Uncorrelated Subqueyr), Not in 파이썬 Pandas : Not 연산자('~') 와 isin(), notnull() R 프로그래밍 : Not 연산자('!') 와 %in%, unlist() R Dplyr : Not 연산자('!'.. 2021. 11. 15.
데이터 과학 입문: R과 Python의 활용( 허명회 교수 지음 | 자유아카데미 ) 데이터 과학 입문: R과 Python의 활용( 허명회 교수 지음 | 자유아카데미 ) * 머리말 '이 책은 성신여자대학교에서 “빅데이터의 이해와 활용”을 가르치면서 쓴 강의 텍스트 〈빅 데이터의 과학: R Commander의 활용〉의 고급 버전입니다. 이 책에서는 계산 도구(computing tools)로 R Commander 대신 R과 Python을 사용하였습니다. R과 Python은 데이터 과학 커뮤니티에서 활용되는 Top 2 컴퓨터 언어입니다. R은 전통적으로 통계학 배경의 전공자들이 사용하였고, Python은 컴퓨터 전공자들이 사용하였습니다. 두 언어가 기질적인 차이가 있어서 개인별로 선호가 다릅니다만, 선호의 차이는 주로 어느 언어를 먼저 배우느냐에 있어 보입니다. 한국어를 영어보다 먼저 배운 사.. 2021. 10. 26.
SQL EMP 예제로 배우는 데이터 처리 방법 21-24 (SQL, Pandas, R Prog, Dplyr, SQLDF, PANDASQL, DATA.TABLE) SQL EMP 예제로 배우는 데이터 처리 방법 21-24 (SQL, Pandas, R Prog, Dplyr, SQLDF, PANDASQL, DATA.TABLE) SQL 오라클 emp 예제를 대상으로 파이썬 Pandas, R 프로그래밍, R Dplyr, R Sqldf, Python Pandasql, R Data.table 에 대한 사용 방법을 정리해보고 있습니다. 아래 예제는 패턴검색(match, substr, grep, grepl, like, stringr::str_detect 함수), subset 함수, , 문자길이(length, len,stringr::str_length, nchar 함수), not in / in 연산자(isin, np.isin,%in%, Hmisc패키지의 %nin%), not 연산자.. 2020. 11. 21.
통계프로그램 비교 시리즈 – 15. 변수 라벨(Variable Labels) 통계프로그램 비교 시리즈 – 15. 변수 라벨(Variable Labels) (Proc Sql, SAS, SPSS, R, R-Tidyverse, Pandas, Python dfply) PROC SQL : Label 구문 SAS : Label 구문 SPSS : VARIABLE LABELS R 프로그래밍 : label / names 출처 : http://statwith.com/통계프로그램-비교-시리즈-15-변수-라벨Variable-Labels 통계프로그램 비교 시리즈 – 15. 변수 라벨(Variable Labels) » 기서무나구물 & 통계분석연구회 통계프로그램 비교 시리즈 – 통계프로그램 비교 시리즈 – 15. 변수 라벨(Variable Labels) - Proc Sql, SAS, SPSS, R, R-T.. 2020. 11. 7.
통계프로그램 비교 시리즈 – 14. 변수 특성에 따른 통계량 일괄 처리 & Value Labels Or Formats(& Measurement Level)) 통계프로그램 비교 시리즈 – 14. 변수 특성에 따른 통계량 일괄 처리 & Value Labels Or Formats(& Measurement Level)) (Proc Sql, SAS, SPSS, R, R-Tidyverse, Pandas, Python dfply) 1. PROC SQL : - 데이터 라벨링 : PROC FORMAT 2. SAS : - 데이터 라벨링 : PROC FORMAT 3. SPSS : - 데이터 라벨링 : VALUE LABELS 4. R 프로그래밍 : - 데이터 라벨링 : factor - 통계량 일괄 처리 : base::summary / Hmisc::describe / describeData / dlookr::diagnose_numeric / purrr::keep ~ dlookr::.. 2020. 10. 20.
통계프로그램 비교 시리즈 - 13. 데이터 프레임 정렬-Sorting 통계프로그램 비교 시리즈 - 13. 데이터 프레임 정렬-Sorting (Proc Sql, SAS, SPSS, R, R-Tidyverse, Pandas, Python dfply) PROC SQL : 데이터 정렬 : order by 중복 데이터 제거 : 서브쿼리, 데이터 Join SAS : 데이터 정렬 : PROC SORT 중복 데이터 제거 : PROC SORT - nodupkey SPSS : 데이터 정렬 : SORT CASES BY R 프로그래밍 : 데이터 정렬 : 인덱스, order R - Tidyverse : 데이터 정렬 : arrange 중복 데이터 제거 : distinct / slice Python - Pandas : 데이터 정렬 : 인덱스 / sort_values 중복 데이터 제거 : drop_d.. 2020. 10. 3.
통계프로그램 비교 시리즈 - 10. Joining & Merging 데이터 프레임 통계프로그램 비교 시리즈 - 10. Joining & Merging 데이터 프레임 (Proc Sql, SAS, SPSS, R, R-Tidyverse, Pandas, Python dfply) PROC SQL : INNER JOIN / LEFT JOIN / RIGHT JOIN SAS : Merge / in SPSS : MATCH R 프로그래밍 : merge / by R - Tidyverse : inner_join / left_join / right_join / full_join Python - Pandas : merge/ how / left_on / rigth_on Python - dfply : inner_join / left_join / right_join / full_join / left_on / rig.. 2020. 9. 25.
통계프로그램 비교(Proc sql, SAS, R, Tidyverse, Pandas, Python Dfply) - 2. 관측치 선택 통계프로그램 비교(Proc sql, SAS, R, Tidyverse, Pandas, Python Dfply) - 2. 관측치 선택 [변수와 관측치 선택] 2. 관측치 선택( WHERE, IF, SELECT IF ) 자기주도온라인평생학습으로 공부하고 있는 프로그래밍에 대하여 우중에 휴가를 맞이하여 10여 년전에 작성하였던 자료(SAS,SPSS,R-PROJECT,S-PLUS,PROC-SQL)를 최신으로 수정해보았습니다. 주석 및 상세 설명은 수정하지 않은 상태라서 파이썬과 Tidyverse의 주석은 과거 R 프로그래밍 상태로 되어 있습니다. 현재는 프로그램 변경을 우선으로 작업하도록 하겠습니다. (향후에 수정 예정) SAS와 SPSS는 프로그램이 없는 상태여서 최신 버젼의 구동 여부를 체크하지 못하였습니다... 2020. 8. 13.
[통계유머] 통계패키지 학습곡선 (Learning Curves of Popular Stats Programs) [통계유머] 통계패키지 학습곡선 (Learning Curves of Popular Stats Programs) ******************************************************- 통계분석연구회- 카페 : http://cafe.daum.net/statsas- 통계분석연구회(Statistics Analysis Study) 그룹 : https://www.facebook.com/groups/statsas- STATWITH : http://statwith.tistory.com/- RSS : https://statwith.tistory.com/rss 2018. 12. 25.
[온라인 강의] 03_머신러닝 기법과 R 프로그래밍(고급Ⅰ) (포항공대 이혜선 교수 / Postechx) 밑바닥부터 시작하는 딥러닝국내도서저자 : 사이토 고키 / 이복연(개앞맵시)역출판 : 한빛미디어 2017.01.03상세보기 03_머신러닝 기법과 R 프로그래밍(고급Ⅰ) (포항공대 이혜선 교수 / Postechx) 취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정 "R 프로그래밍 고급 과정은 데이터 과학(Data Science) 전문인 양성을 위한 과정으로 데이터 마이닝 및 기계학습 기법의 활용과 분석을 학습 목표" - 고급(Ⅰ): 데이터마이닝 기초/ k-인접기법과 판별분석/ 서포트 벡터 머신/ 의사결정 나무와 랜덤 포레스트- 고급(Ⅱ): 군집분석/ 연관규칙/ 주성분 분석과 부분 최소자승법/ 딥러닝과 텍스트마이닝 * 출처 : http://www.postechx.kr/ko/tak.. 2018. 12. 1.
'데이터과학 석사 양성' 美 상위 10대 대학은 어디? (Sarah K. White | CIO) '데이터과학 석사 양성' 美 상위 10대 대학은 어디? (Sarah K. White | CIO) "데이터과학 학위 프로그램 가이드는 공립 및 비영리 대학에서 최고의 데이터과학 석사 프로그램을 제공한다. 순위는 학생 대 교수 비율, 평균 순수 비용, 학위 과정의 집중 분야 제공 여부의 3가지 범주를 기반으로 작성됐다. 다음은 미국에서 최고의 데이터과학 석사 과정을 보유한 상위 10개 학교다. 1. 퍼듀대학 : 크라넛 경영대학원 2. 드폴대학교 3. 로체스터대학 4. 뉴욕대학교 5. 카네기멜론 대학 6. 뉴욕시의 컬럼비아대학교 7. 노스캐롤라이나 주립대학-노스캐롤라이나주 롤리 8. 조지아 공과대학 9. 오클라호마 대학 10. 아이오와 대학 원문보기: http://www.ciokorea.com/news/402.. 2018. 11. 21.
반응형