본문 바로가기

~2023/데이터 엔지니어로 성장하기

데이터 직군의 이해 [새로 뜨는 기타 데이터 직군]

반응형

 

안녕하세요!

코딩교육자 헨리입니다.

 

오늘은 데이터 커리어 분야에서 새롭게 뜨고 있는 데이터 직군에 대해서

강의를 들었습니다.

데이터 엔지니어, 데이터 분석가, 데이터 과학자 이외에도 실제 서비스를 운영하면서

파생된 다양한 데이터 직군들이 있다는 것을 배우게 되었고,

제가 앞으로 나아가고 싶은 길은 왠지 데이터 엔지니어 혹은 ML 엔지니어가 아닐까 하는 생각을 하게 되었습니다.

 

 

아래부터는 강의 요약입니다.

블로그에 노트를 정리하면 쓴 글이므로, 어투가 변경될 수 있는 점 양해부탁드립니다.)

 

 

 

어떤 새로운 직군들 혹은 뜨는 서비스들이 있는가?

# ML 엔지니어 (vs. 데이터 과학자 & 데이터 엔지니어)

 - 근데 JD로 보면, 데이터 과학자 기반 위에 데이터 엔지니어가 약간 더 들어가는 느낌이다.)

# ML옵스 (MLOps)

# 프라이버시 엔지니어: 개인정보 보호

 - 데이터 팀에 속한다고 보기는 어려울 수 있지만, 개인정보 보호에 있어서, 시스템 설계 때부터 생각할 수 있게, 설계해주고, 디자인해주는 직군으로 보면 된다.

# 데이터 디스커버리 서비스

# A/B 테스트 서비스

 - SaaS 형태로 제공되기도 한다.

 

 

MLOps란 무슨일은 하는가?

 # DevOps가 하는 일은?

  -- 개발자가 만든 코드를 시스템에 반영하는 프로세스(CI/CD, deployment)

배포하고 테스트를 계속 돌리고, 배포 후에 정상 동작 모니터링하고, 이슈가 생기면 이슈 해결을 위해 일하는 팀이다.

 

  -- 시스템이 제대로 동작하는지 모니터링 그리고 이슈 감지 시 escalation 프로세스 (On-call 프로세스)

 

 

 # MLOps가 하는 일은?

  -- 앞의 DevOps가 하는 일과 동일. 차이점은 서비스 코드가 아니라 ML모델이 대상

  -- 모델을 계속적으로 빌딩하고 배포하고 성능을 모니터링

   * ML모델 빌딩과 프로덕션 배포를 자동화할 수 있을까? 계속적인 모델 빌딩(CT, Continous Training)과 배포!

   * 모델 서빙 환경과 모델의 성능 저하를 모니터링하고 필요시 escalation 프로세스 진행

 

 

MLOps 엔지니어가 알아야하는 기술

3가지 데이터 직군 도메인이 겹쳐지는 부분이다.

CI/CD - 개발이 진행될 때마다, 계속적으로 빌드하고 테스트하고 배포할 것인가.

 

 

 

프라이버시 엔지니어란 무엇일까?

 # 전체 시스템에서 개인정보 보호를 위한 가이드라인/툴을 제공

  -- 개인정보란? 개인을 식별할 수 있는 정보

 # 이는 데이터 시스템에서 더욱 중요

 # 개인 정보 보호 법안의 징벌 조항이 점점 강화되는 추세

  -- 정보 주체의 권리를 강화하는 방향으로도 변화: GDPR의 프로파일링 거부권

  -- 유럽 연합의 GDPR (General Data Protection Regulation)

GDPR : 개인이 원하면 내 정보를 사용하지 말아라 라고 요청할 수 있다. 도 GDPR 법안의 일부이다.

  -- 미국의 HIPAA (건강보험 이전 및 책임에 관한 법률)

  -- 미국 캘리포니아의 CCPR (캘리포니아 소비자 개인정보 보호 법안)

 

 

데이터 디스커러버리 (Data Discovery)란?

 

데이터가 너무 많아지고, 대시보드가 너무 많아지면, 점점 어떤 데이터 및 대시보드를 봐야할 지 혼란이 생긴다.

어떤 테이블이 있고, 어떤 테이블을 주가 가장 최근에 사용했고, 어떤 차트가 있고, 어떤 대시보드가 있고,

이런 것들을 검색해주는 서비스가 나오기 시작했다.

 

실제로 어느정도 규모가 있는 회사에는 이런 이슈가 다 있었다.

이런 이슈를 해결하기 위해 필요한 서비스가 데이터 디스커버리이다.

 

 

자 이제 지금까지 배운 것들을 요약해보자.

 

 

 

반응형