본 과정은 스파크를 활용하여 ML시스템 구성 요소를 살펴보고 공부하는데 목적이 있습니다. 이를 위해 데이터 전처리 및 데이터 파이프 라인 구축을 위한 내용을 같이 공부하게 됩니다. 주로 Spark의 MLib 관련 내용을 공부합니다.
- ML 알고리즘을 활용해서 분류, 회귀, 클러스터링, 피쳐 추출, 변환, 치수 감소 및 선택
- ML 파이프라인 구성, 평가 및 튜닝을 위한 도구를 알아봅니다.
- 알고리즘, 모델 및 파이프라인 저장 및 로드를 공부합니다.
스파크로 데이터 파이프 라인 구축하기
DL, PipeLine, Spark
시작일
매주 2019년 10월 7일
진행일시
매주
모집현황

data-product-id="11650"

진행장소
캠퍼스
학습대상
처음 스파크를 활용하여 ML시스템을 구성해보고 싶으신 분들을 대상으로 하는 과정입니다.
과목난이도

쉬움 (1단계) ~ 어려움(5단계)

학습목표
기본적인 spark 환경을 구축해 봅니다.
spark mllib 로 데이터를 다뤄봅니다.
운영방식
한주에 하나의 주제를 모여서 정하게 됩니다.
정해진 주제를 가지고 각자 모여서 찾아보고 공부하게 됩니다.
주제에 대한 스터디 결과를 돌아가면서 정리하고 진행하게 됩니다.
선수지식
분류, 회귀, 클러스터링, 피쳐 추출, 변환, 변수의 차원 감소를 이해할수 있음.
python , jupyter notebook을 사용할수 있음.
학습 및 참고자료
주교제
스파크를 다루는 기술 Spark in Action

부교제
스파크 ML 가이드
커리큘럼
/
주차 모임내용 학습자료
1 주차 교재 내용 토론 및 향후 방향 논의 스터디 진도 계획 및 실습환경 공유 (주교재)스파크를 다루는 기술 Spark in Action 1~2장, (보조교제) 자체 제작 자료
2 주차 스파크가 제공하는 기본 기능 이해 (주교재)스파크를 다루는 기술 Spark in Action 1~2장, (보조교제) 자체 제작 자료
3 주차 스파크 애플리케이션 작성 및 스파크 API 깊이 파헤치기 (주교재)스파크를 다루는 기술 Spark in Action 3~4장, (보조교제) 자체 제작 자료
4 주차 스파크 SQL 쿼리를 실행 및 스트리밍 구성 (주교재)스파크를 다루는 기술 Spark in Action 5~6장, (보조교제) 자체 제작 자료
5 주차 MLlib로 더 똑똑해지자 (주교재)스파크를 다루는 기술 Spark in Action 7장, (보조교제) 자체 제작 자료
6 주차 스파크 ML로 만드는 분류와 군집화 (주교재)스파크를 다루는 기술 Spark in Action 8장, (보조교제) 자체 제작 자료
7 주차 점을 연결하는 GraphX (주교재)스파크를 다루는 기술 Spark in Action 9장, (보조교제) 자체 제작 자료
8 주차 미정 (논의 후 결정) (주교재)10장 스파크 클러스터 구동(보조교제) 자체 제작 자료
9 주차 미정 (논의 후 결정) (주교재)11장 스파크 자체 클러스터(보조교제) 자체 제작 자료
10 주차 미정 (논의 후 결정) (주교재)12장 YARN 클러스터와 메소스 클러스터(보조교제) 자체 제작 자료
11 주차 미정 (논의 후 결정) (주교재)13장 실시간 대시보드를 구현하자(보조교제) 자체 제작 자료
퍼실소개
이청환

이청환

게임 회사에서 데이터 다루는 일을 오랫동안 해오고 있습니다. 최근엔 ML 관련 시스템을 구축을 진행 중인데, 학습 환경 구성에서부터 데이터 모델을 구축 및 적용하고, 이후 결과를 모니터링하는 일련의 과정을 개설해서 같이 공부해보고 싶었습니다.

게임 회사에서 데이터 다루는 일을 오랫동안 해오고 있습니다. 최근엔 ML 관련 시스템을 구축을 진행 중인데, 학습 환경 구성에서부터 데이터 모델을 구축 및 적용하고, 이후 결과를 모니터링하는 일련의 과정을 개설해서 같이 공부해보고 싶었습니다.


풀잎스쿨 신청 및 결제를 위해서 로그인을 해주세요