안녕하세요
코딩교육자 헨리입니다.
오늘은 데이터 엔지니어의 여정에 있어서,
다양한 데이터 팀의 직군에 대해 알아보려고 합니다.
데이터 팀의 직군에는 다음과 같은 직군들이 있습니다.
1. 데이터 엔지니어
2. 데이터 분석가
- 지표/KPI와 시각화 툴
3. 데이터 과학자
- AB 테스트
4. 새로운 데이터 관련 직군
어떤 일들을 하고 어떤 스킬셋이 필요하고 어떤 특징들이 있는지 알아 볼 것입니다.
(이하부터는 강의를 정리하는 노트이기 때문에 "~다"로 끝맺음이 있을 수 있습니다.)
데이터 엔지니어가 인프라를 구축해주면,
데이터 분석가가 해당 데이터 웨어하우스의 데이터를 기반으로 지표를 만들고 시각화한다.
이후에 데이터 과학자가 머신러닝 모델을 만들어 인사이트를 도출하며, 서비스를 제공한다.
먼저 데이터 엔지니어에 대해서 알아보자
데이터 엔지니어의 역할
1) 기본적으로는 소프트웨어 엔지니어다
- 파이썬이 대세, 자바 혹은 스칼라와 같은 언어도 아는 것이 좋다.
2) 데이터 웨어하우스 구축
- 데이터 웨어하우스를 만들고 이를 관리. 클라우드로 가는 것이 요즘 추세이다.
(AWS 의 Redshift, 구글클라우드의 GibQuery, 스노우플레이크)
- 관련해서 중요한 작업중의 하나는 ETL 코드를 작성하고 주기적으로 실행해주는 것이다.
(ETL 스케쥴러 혹은 프레임워크가 필요하다, Airflow라는 오픈소스가 대세)
* ETL이란 데이터를 전처리하고 적재하는 과정
3) 데이터 분석가와 과학자 지원
- 데이터 분석가, 데이터 과학자들과의 협업을 통해 필요한 툴이나 데이터를 제공해주는 것이 데이터 엔지니어의 중요한 역할 중의 하나.
데이터 엔지니어가 알아야하는 기술 (1)
# SQL: 기본 SQL, Hive, Presto, SparkSQL 등
# 프로그래밍 언어: 파이썬, 스칼라, 자바
# 데이터 웨어하우스
- Redshift / Snowflake BigQuery
# ETL/ELT 프레임워크: Airflow 등을 잘 알고 있으면 Big Plus가 된다.
# 대용량 데이터 처리 플랫폼: Spark/YARN
적용 TIP: 스파크 Yarn 사용해보기
데이터 엔지니어가 알아야하는 기술 (2)
# 클라우드 컴퓨팅
- AWS
- GCP
- Azure
# 도움이 되는 기타 지식
- 머신 러닝 일반
- A/B 테스트
- 통계
# 데이터 엔지니어 스킬 로드맵
- https://github.com/datastacktv/data-engineer-roadmap
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
github.com
- MLOps 혹은 ML Engineer가 다음 스텝이 많이 된다. <- 데이터 엔지니어에서 파생되는 다양한 직군들이 있다.
느낀 점:
데이터 엔지니어로써 필요한 기술 스택을 항상 알고 싶었다.
스파크의 경험은 있지만, Standalone 방식으로 예제 수준만 해보았고, YARN에 대한
경험은 없었다는 것을 알았습니다. 이번 강의를 통해서 스파크와 YARN 프레임워크에 대해서
공부를 해보아야겠다는 생각을 했습니다.
'데이터 엔지니어로 성장하기' 카테고리의 다른 글
데이터 엔지니어를 꿈꾸며(2022-01-29 개발일지) (0) | 2022.01.29 |
---|---|
데이터 직군의 이해 [데이터 분석가] (0) | 2022.01.28 |
데이터 팀의 역할: 케이스로 알아보자 (0) | 2022.01.26 |
스타트업에서 데이터 팀의 역할은 무엇인가? (0) | 2022.01.06 |
데이터 팀은 무슨 일을 할까? (0) | 2022.01.05 |