jc.jang

OKKY - [OKKY 4월 세미나] (입문자를 위한) Data Science. Intro 본문

카테고리 없음

OKKY - [OKKY 4월 세미나] (입문자를 위한) Data Science. Intro

jangstory 2018. 4. 6. 01:28

세미나 관련 정보 - https://okky.kr/article/454066

슬라이드 자료 - https://www.slideshare.net/zzsza/data-science-intro

4월 5일 데이터 사이언스 입문자를 위한 세미나에 다녀왔다.

이 세미나를 듣고 싶었던 이유는

  • 평소에 데이터나 수치등에 관심이 많았고 대학교 시절 유일하게 스스로 공부했던 분야가 numpy & pandas를 이용한 빅데이터 분석 이었다. 플러닝에서 김길호 강사님 강의였는데 완주는 못했다. 이렇게 평소에 관심이 있었다. 그리고 하고 있는 일이 머신러닝을 이용한 피부분석이다보니 자연스럽게 인사이트를 얻고자 세미나를 들은 것도 있다.
  • 데이터 사이언티스트가 되고 싶은데 어디서부터 무엇을 공부해야할지 모르겠어서 조언을 얻고 싶었다.


세미나는

1. 우리 주위에 있는 데이터 사이언스

2. 데이터 사이언스의 세부 직군 소개 및 현업 업무 사례 소개

3. 데이터 사이언스 공부 로드맵

4. 참고하면 좋은 자료

5. 부록1. 논문을 어떻게 읽어야 할까요? / 부록2. Github 블로그 만들기


간단한 발표자 소개부터 어떻게 데이터 사이언티스트가 되었는지, 정확하게 말하자면 데이터 분석가를 소개하는 세미나다.

사회 경험이 정말 많으신 것 같다. 경영학 전공하시고, 광고에 관심이 많으셔서 광고 동아리도 들어가시고, 공기업 근무, 창업, 빅데이터 동아리, 패스트캠퍼스 데이터사이언스 스쿨 2기 수료, 현재는 카메라 어플을 만드는 스타트업에서 근무중이시고 곧 퇴사 예정!


들어본 강의, 봤던 책도 엄청 많다. 저정도는 공부해야 남들 앞에서 발표할 수준은 되는구나라는 생각을 했다. + 아무것도 안하는 나를 반성하게 되었다.



1. 우리 주위에 있는 데이터 사이언스

의외로 cs231n 강의를 들은게 도움이 되는 것 같다. 우리 주위에 있는 데이터 사이언스를 소개하실때 강의에서 다 봤던 것들이고 평소에 브런치나 깃허브 블로그에서 봤던 것들이다. 하지만 역시 내가 구현해봤다거나 코드를 분석해본적은 없다. 이점을 보완해야한다. ISIC2017 피부분석 대회에서 수상한 코드를 보고 분석하는데 쉽지않다.


2. 데이터 사이언스의 세부 직군 소개 및 현업 업무 사례 소개

변성윤님께서도 Data Scientist는 정말 어려운, 복잡한 직무를 맡는다고 하셨다. 내가 관심있게 본 부분


바로 ML/DL Engineer 속한 도메인의 목적에 맞는 모델 생성 및 고도화

ex)    추천 시스템 - 개인화 추천 알고리즘 개선 및 설계

금융권(퀀트) - 금융 자산 예측 모델 연구/개발

자연어 처리 - 자연어 처리 모델 개발

컴퓨터 비전 - Object Detect을 통한 물체 인식

강화학습 - 게임 AI 생성

음성 인식 - 음성 인식 모델 개발


필요 역랑 : 논문을 읽고 구현할 수 있는 능력(논문을 이해하고, code로 작성), 머신러닝/딥러닝 이론 지식, 수학 base(선형대수, 통계학, 미적분학), 개발 역량, 도메인 관련 지식


회사에서 들리는 소리 :

문제 정의

스팸 사진을 분류하고 싶은데, 어떻게 하면 될까요?

영화 추천 모델을 만들어야 하는데, 어떻게 할까요?

과거 1년치 데이터를 기반으로 내년을 예측할 수 있나요?

-> 모델에 넣기 위해 데이터 전처리


문제 정의 -> 데이터 수집 및 전처리 -> 모델 선정 및 학습(최적화 포함)

정의한 문제를 풀 수 있는 모델들을 선정한 후, 학습 그 후 성능 지표를 확인하며 하이퍼 파라미터 튜닝


ML/DL Engineer                 vs                 Data Scientist

개발자                                                연구자

논문을 구현해 Product에 적용                  새로운 논문 집필

학력보다 실력                                       석박사 이상의 학위

코딩 실력 + 논문 Reading                        해당 분야에 대한 깊은 이해


(경계가 애매모호할 수 있지만, 개인적으로 나누는 것이 좋을 것 같아 나누었다고 합니다.)


당장 머신러닝을 적용해야 한다면 기계학습은 즐겁다라는 시리즈물을 추천해주셨다. https://goo.gl/kz33kt


3. 데이터 사이언스 공부 로드맵

내가 가장 갈망했던 부분. 주의 깊게 들었다.

Part1. 기초 다지기

머신러닝 / 딥러닝 강의 수강

Andrew Ng

김성훈 교수님의 모두를 위한 딥러닝

추천 도서 : 밑바닥부터 시작하는 딥러닝

선형대수 강의 수강

이상화 교수님의 선형대수(유튜브, 2013년 2학기 강의)


Python 강의 수강

최성철 교수님의 데이터과학을 위한 Python 입문

김왼손


Tensorflow, Keras, Pytorch

공식 Document

어떤 프레임워크든 상관없습니다

덧붙여서 Tensorflow로 구현 할 줄 안다면 그보다 상위 레벨인 Keras나 Pytorch로도 충분히 가능하다. Tensorflow로 구현하기 힘들다면 상위 레벨로 구현해 보는 것을 추천


여기서 중요한 것은 이론만 배웠다고 끝이 아니고 실습까지 완전히! 하는 것을 추천한다.

내가 맨날 까먹는 것... 강의만 듣고 실습안하고 끝내기.. 제일 미련한 짓 같다. 시간은 시간대로 잡아먹고 얻는건 없고 나중에 보면 기억안나서 또 들어야되는 미련한 짓 실습을 꼭 하자.



Part2. 세부 분야 탐색

컴퓨터 비전 - cs231n

이외에도 자연어 처리, 강화학습, 음성인식 등등이 있다.

어떤 분야를 좋아할 지는 본인이 선택하고, 세부 분야의 이론을 공부하며 코드를 짜보기



Part3-1. 논문 읽고 정리

주 관심사에 해당하는 논문을 읽으며 정리하기(블로그를 추천)
-> 코드로 구현해서 Github에 남기면 Best(실제 N사의 경우 아무도 최신 논문의 첫 구현자는 가산점)

처음에 논문 읽기 어렵다면
최성준님의 최신 논문으로 시작하는 딥러닝(edwith) http://www.edwith.org/deeplearningchoi/home
두 영상을 참고하며 하나씩 해봅시다.

논문을 보다가 어려운 수학이 나오면, 하나씩 공부
(수학을 끝내고 딥러닝 시작해야지! 하면 끝이 없다!)
이 부분 특히 공감하는데, 논문 처음 읽을 때 모르는거 나와서 이걸 어떻게 해야지 하고 고민했던 기억이 있다. 그때는 대충 그 부분만 이해하고 넘겼는데 계속 모르는 것들이 나오니까 자신감도 떨어졌다. 그때 그때 필요한 지식만 습득해서 읽는 것이 좋다.
정권우님의 Github는 issue에 tag를 이용해서 정리하셨다. https://github.com/kweonwooj/papers


Part3-2. 프로젝트 진행

데이터 프로젝트 진행

문제 정의, 데이터 수집, 모델 선정, 결론 도출의 과정을 경험해보기

Kaggle Competition에 참여하거나 빅데이터 공모전에 참여해보는 것도 좋은 방법이다. https://github.com/zzsza/Kaggle-knowhow

그 이후에 강의가 듣고 싶다면

문일철 교수님의 인공지능, 기계학습 심화 강의(유튜브)

fast.ai의 강의 추천

책을 보고싶다면 PRML



생각해 볼 것들과 권하고 싶은 것

1. 왜 해당 직군을 하고 싶은가?

- 관심을 갖게 된 계기


2. 내가 잘 할 수 있는 것은 무엇인가?

- 논문 읽기, 논문 구현, 논문 적용, 코딩, 데이터 정형화, 모델 개발 등


3. 개발 vs 분석 vs 연구


4. Communication Skill은 정말 중요

- 설득하는 과정은 어느 직군이나 필요


5.포트폴리오를 어떻게 만들것인가

- Github, Blog


6.대기업 vs 스타트업


4. 참고하면 좋은 자료

5. 부록1. 논문을 어떻게 읽어야 할까요? / 부록2. Github 블로그 만들기

6. 사전 질문 목록
Q : 데이터 분석도 굉장히 무겁고 비중있는 분야인데 다른 개발들과 함께 병행하기에 무리가 많이 될까요?
A : 네 무리가 됩니다. 어디에 더 비중을 둘 것인지 정하고 하세요. 웹을 주로하고 데이터분석을 덤으로 할 것인지 그 반대로 할 것인지. 하지만 자신이 정말 좋아한다면 주말에 논문이나 읽자 라는 마인드로 열심히 하면 됨


Q : 퇴근하고나면 피곤해서 공부하기 힘들던데... 열심히 공부하시는 원동력은 무엇인가요?
A : 29살인데 공기업 창업 마케팅 했는데, 내가 뭘 잘하는지 찾고 싶었다. 마지막에 찾은게 이거다. 힘든건 체력적인거 말고는 없다. 확실히 하고 싶은걸 찾아서 할 수 있는 것 같다.



Q : 포트폴리오 추천 부탁합니다.

A : 관련분야의 논문 정리, 구현이 최고



Q : 수학 공부는 얼마나 해야하나요?

A :  http://www.deeplearningbook.org/ 에서 part1은 보고 가야한다.





그래서 나는 어떻게 해야하는가?

운 좋게 취업했지만, 능력이 없다면 그 회사에 충성하는 것이 유일한 답이겠지만, 아직까지는 그렇게 살고 싶진 않다. 사람이 말이야 꿈과 낭만을 갖고 살아야지! 비록 회사는 작지만 낭만이 있어서 충분히 좋다. 잡소리가 많았는데, 공부 로드맵을 보면서 생각한 것들이 있다. 무엇보다 시간이 없고, 짧은 시간에 결과를 내야함과 동시에 기초를 다지면서 탄탄한 기반을 다져야한다.


이론 공부는 반드시 코드 구현과 함께하기.


로드맵을 그리자면

프로그래밍, 데이터 과학을 위한 파이썬 입문 https://bit.ly/2iznqM8

밑바닥 부터 시작하는 머신러닝 입문 https://bit.ly/2q9uItt

칸 아카데미 선형대수학 https://bit.ly/1Oyhc6M

밑바닥부터 시작하는 딥러닝 책 https://bit.ly/2HcIILd


cs231n http://cs231n.stanford.edu/

기계 학습은 즐겁다 https://bit.ly/2nBnVL5


논문 읽기, 프로젝트 진행

최성준님의 최신 논문으로 시작하는 딥러닝(edwith) http://www.edwith.org/deeplearningchoi/home
정권우님의 Github는 issue에 tag를 이용해서 정리하셨다. https://github.com/kweonwooj/papers

공부한 내용을 Github나 blog에 정리하는 것이 best
일상 글 좀 작작 써야겠다. 아무도 내 일상 안 궁금해 할듯...
인프런에 돈 결제하고 강의 들어야겠다. 나는 나를 믿기 때문에 무료면 중간에 포기 할거란걸 알고있다.

Comments