본문 바로가기

데이터 엔지니어로 성장하기

데이터 직군의 이해 [데이터 분석가]

반응형

 

 

 

 

안녕하세요!

코딩교육자 헨리입니다.

 

오늘은 데이터 팀의 직군 중에서 데이터 분석가에 대해서 강의를 들었습니다.

데이터 분석가는 인프라가 갖추어진 환경에서

KPI / 지표를 정의하는 것과 이를 대시보드 형태로 시각화 서비스를 제공해주는 역할을 주로 맡게 됩니다.

회사 내 다른 팀들에게 데이터 관련 질문을 요구 받는 경우가 많습니다.

ex) KPI 대비 현재 이런 상황이 나오는 이유가 무엇인가? 같은 질문들입니다.

 

그러면 강의를 들으면서 정리한 내용을 덧붙여보겠습니다.

(강의에 대한 내용을 정리한 부분이여서, 음슴체가 사용될 수도 있습니다.)

 

 

데이터 분석가의 역할에 대해서 알아보자

 

1) 비지니스 인텔리전스를 책임진다. (*BI - Business Intelligence 이다)

- 중요 지표를 정의하고 이를 대시보드 형태로 시각화한다.

  대시보드로는 태블로(Tableau)와 룩커(Looker)등의 툴이 가장 흔히 사용됨

  오픈소스로는 수퍼셋(Superset)이 많이 사용됨.

 

통상적으로 상황이 안좋을때 일이 많아진다

ex) 이번달에 매출이 많이 떨어지고 있는데 이유가 뭐냐

ex) 이번달에 사용자 이탈률이 많이 떨어지고 있는데 이유가 뭐냐

 

- 이런 일을 수행하려면 비지니스 도메인에 대한 깊은 지식이 필요하다.

 

2) 회사내 다른 팀들의 데이터 관련 질문 대답

- 임원들이나 팀 리드들이 데이터 기반 결정을 내릴 수 있도록 도와줌

- 질문들이 굉장히 많고 반복적이기에 어떻게 셀프서비스로 만들 수 있느냐가 관건

 

 

데이터 분석가가 알아야하는 기술

# SQL: 기본 SQL, Hive, Presto, SparkSQL 등

# 대시보드

  - 룩커, 태블로, 파워 BI, 수퍼셋

  - 엑셀, 구글 스프레드시트, 파이썬

# 데이터 모델링 (어떤 정보를 어떻게 데이터로 표현할 것이냐)

# 통계 지식

  - AB 테스트 분석 혹은 다양한 데이터 분석에서 통계 지식은 아주 유용함(A와 B가 다르게 보이는데, 이 다름의 정의가 유의미하게 다른 범위이냐, 아니면 오차 범위 안에 있느냐에 대한 내용이다.)

# 비지니스 도메인에 관한 깊은 지식

# 좋은 지표를 정의하는 능력

# 보통 코딩을 하지는 않음. (그렇지만, 작은 회사에서는 데이터 분석하는 사람이 데이터 엔지니어 역할도 한다.)

 

 

 

데이터 분석가의 딜레마가 있다.

- 보통 많은 수의 긴급한 데이터 관련 질문들에 시달림 (왜 그러냐에 대한 빠른 답변을 요구받음)

- 좋은 데이터 인프라 없이는 일을 잘 하기 힘듬!

- 많은 경우 현업팀에 소속되기도 함

 내 커리어에서 다음은 무엇인가?

 소속감이 불분명하고 내 고과 기준이 불명확해짐

- 데이터 분석가의 경우 조직 구조가 더 중요함 (소속이 불명확하지 때문이다)

 

 

데이터 과학자는 커리어의 측면과, 일의 재미라는 측면에서 의문점들이 많이 생긴다.

그렇기 때문에 데이터 과학자가 재밌게 일할 수 있는 환경을 만들어 주는 것이 중요하다.

 

 

데이터 분석가: 지표/ KPI와 시각화 툴

데이터 분석가에게 중요한 능력은 좋은 지표를 정의하고 그걸 이해하기 쉬운 형태의 대시보드로 만드는 것이다.

 

KPI(Key Performance Indicator)란?

* 조직 내에서 달성하고자 하는 중요한 목표이다.

  - 보통 정량적인 숫자가 선호된다.

  - 예를 들면 매출액 혹은 유료 회원의 수/비율 (정의가 중요하다.)

 

ex) 유료회원의 경우 숫자보다는 비율이 더 중요한 KPI가 된다.

(많은 경우 숫자보다는 비율이 더 좋은 KPI 지표가 된다.)

ex) 좋은 데이터 분석가의 경우, 정의를 명확하게 하고, 정의를 공유하는 세션을 갖는다. 그리고 이것을 잘 정리하여 문서화하여야 한다. 그리고 KPI는 기간별 하나만 가지고 있는것이 좋다. KPI는 적으면 적을 수록 좋다.

 

 

* KPI의 수는 적을수록 좋다.

* 잘 정의된 KPI -> 현재 상황을 알고 더 나은 계획을 가능케 한다.

  - 정량적이기에 시간에 따른 성과를 추적하는 것이 가능하다.

  - OKR(Objectives and Key Results)과 같은 목표 설정 프레임워크의 중요한 포인트이다.

 

 

여러 지표중에 정말 중요해서 회사 차원의 목표로 삼은 것이 KPI이다.

 

데이터 문해력(Data Literacy)에 대한 내용이 최근에 많이 다뤄진다.

 

 

 

시각화 툴이란?

- 대시보드 혹은 BI(Business Intelligence) 툴이라고 부르기도 한다.

- KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴

- 결국은 결정권자들로 하여금 데이터 바탕 의사결정을 가능하게 함

  * 데이터 기반 결정 (Data-Driven Decision)

  * 데이터 참고 결정 (Data-Informed Decision)

 

한기용 강사님은 개인의 생각이 반영되는 데이터 참고 결정(Data0Informed Decision)을 더 선호한다.

 

 

어떤 시각화 툴이 존재하는가?

# 엑셀, 구글 스프레드시트

  * 사실상 가장 많이 쓰이는 시각화 툴

# 룩커(Looker)

# 태블로 (Tableau)

# 파워 BI

# 아파치 수퍼셋 (Apache Superset): 오픈소스

# 파이썬

  * 데이터 특성 분성(EDA: Exploratory Data Analysis)에 더 적합

 

 

그러면 위의 시각화 툴에 대해서 일부 중점적으로 살펴보겠다.

 

 

어떤 시각화 툴을 선택할 것인가?

# 룩커가 내블로가 가장 많이 사용되는 추세

  * 두 툴 모두 처음 배우는데 시간이 필요하다

  * 태블로의 가격이 더 싸고 투명하며 무료 버전도 존재해서 공부가 가능하다

 

# 중요한 포인트는 셀프서비스 대시보드를 만드는 것

  * 안 그러면 매번 사람의 노동이 필요해짐

   - 60~70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공

  * 이런 측면에서는 룩커가 더 좋은 선택이지만 가격이 상당히 비싸다.

 

 

 

 

느낀 점:

데이터 엔지니어를 채용하는 작은 규모의 기업들의 채용 공고를 보면, 태블로를 요구하는 공고들을 많이 보았다.

태블로는 한번도 경험해본 적이 없어서, 해보지 않은 기술로만 생각하고 있었는데, 이렇게 데이터 분석가의 스킬셋애 대한 내용에서 태블로를 보게 되서, 한번 찾아보게 되었다. 

그냥 눈으로만 찾아보기에는 적당히 감이 안오는 것 같아서, 내가 하고 있는 개인 프로젝트에 KPI를 정의하고 태블로를 사용해보아야겠다는 계획을 갖게 되었다.

 

반응형