본문 바로가기

~2023

Udemy 데이터 조직의 일주일 애자일 개발방법론에 대해서 설명하며 시작한다. (점진적으로 짧은 개발 사이클을 반복하면서 프로그램을 개선해나가는 개발 방법론) 짧은 사이클 - 스프린트(Sprint) 라고 부름. 데이터팀도 애자일 방법론을 따른다. 월요일 (그냥 월요일은 아니고, 스프린트가 새로 시작하는 월요일로 가정) 자기가 한 일을 팀원들에게 비주얼하게 데모한다. 잘됬던 일들, 잘되지 못한 일들 회고. 다시 생각해보아야 할 논의할 포인트 회고. 이런 회고 미팅은 팀장이 혼자 하지 않고, 팀원들끼리 한 명씩 돌아가면서 했다. 이후 논의할 액션 아이템을 찾아내는 것이 중요하다. (기존 백로그에 있는 스프린트 중에 이번주에 할 일은 무엇인지 계획) 백로그 - 이미 몇몇 사람들이 중요하다고 계획해놓은 작업들. 데이터 파이프라인이 많이 생기면.. 더보기
ML 모델 개발시 고려할 점 머신러닝 모델을 만드는 가정 하에 데이터 과학자들이 어떤 생각을 하는지 한번 살펴보자. 모델을 만드는 것은 시작일 뿐이다. 그것이 현업에서 어떻게 배포되고 사용되는지에 관심을 가져야지 실제로 내가 만든 머신러닝 모델에 의미가 있는 것이다. 데이터 모델 배포 잘 됬어? 실제 서비스 엔지니어: "뭐 잘 됬겠지?" 이런 마찰이 생기는 원인은 어디서 발생하는 것일까? 현재도 많은 수의 데이터 과학자들은 R로 데이터 모델을 만든다. 그러나 이것은 실제 서비스에 접붙이기가 쉽지 않다. MLOpes 팀이 생기게된 개념. (머신러닝 모델의 배포와 운영을 해주고, 그것을 자동화하는 것까지 책임지는 팀) 배포를 담당하는 백엔드 엔지니어는 R로 개발된 언어를 받아서 서비스의 java나 python으로 포팅을 하게 되는데, .. 더보기
데이터 조직의 이해 안녕하세요 코딩교육자 헨리입니다. 오늘은 회사마다 다 가지고 있는 데이터 팀의 조직 구조에 대해서 공부하는 시간을 갖었습니다. 이번 수업을 듣기 전까지는 단순히 데이터 엔지니어 혹은 ML 엔지니어로 일하고 싶다는 생각뿐이었는데, 수업을 들으면서 회사 내 데이터 조직 구조에 대해 미리 질문하고 알아보는 것이 중요하겠구나 라는 것을 깨닫게 되었습니다. 데이터 조직은 중앙 집중, 분산, 하이브리드 형태의 구조가 있다고 합니다. 자세한 내용은 아래 강의 노트를 참고해주시기 바랍니다! (노트 형식이기 때문에 어투가 변경될 수 있습니다.) 앞으로 배울 구체적인 내용은 아래와 같다. 3가지 데이터 팀의 조직 구조 ML 모델 개발시 기억할 점 데이터 조직의 일주일 살펴보기 데이터 일을 할 때 기억할 점 3가지 데이터 .. 더보기
데이터 직군의 이해 [새로 뜨는 기타 데이터 직군] 안녕하세요! 코딩교육자 헨리입니다. 오늘은 데이터 커리어 분야에서 새롭게 뜨고 있는 데이터 직군에 대해서 강의를 들었습니다. 데이터 엔지니어, 데이터 분석가, 데이터 과학자 이외에도 실제 서비스를 운영하면서 파생된 다양한 데이터 직군들이 있다는 것을 배우게 되었고, 제가 앞으로 나아가고 싶은 길은 왠지 데이터 엔지니어 혹은 ML 엔지니어가 아닐까 하는 생각을 하게 되었습니다. 아래부터는 강의 요약입니다. 블로그에 노트를 정리하면 쓴 글이므로, 어투가 변경될 수 있는 점 양해부탁드립니다.) 어떤 새로운 직군들 혹은 뜨는 서비스들이 있는가? # ML 엔지니어 (vs. 데이터 과학자 & 데이터 엔지니어) - 근데 JD로 보면, 데이터 과학자 기반 위에 데이터 엔지니어가 약간 더 들어가는 느낌이다.) # ML옵.. 더보기
데이터 직군의 이해 [데이터 분석가] 그리고 A/B 테스트! 안녕하세요 코딩교육자 헨리입니다. 오늘은 데이터 커리어 분야의 다양한 직군 중에 데이터를 활용하여 유의미한 서비스 모델을 개발하는 데이터 과학자를 배웠습니다. 이번 강의를 들으면서 멋진 머신러닝 모델을 만들기 위해서는 유의미한 데이터가 우선되어야 한다는 사실을 알게 되었습니다. 아무리 잘하는 데이터 과학자라도, 데이터가 제공되지 않는다면, 큰 힘을 발휘할 수 없다는 것이죠. 아래부터는 제가 노트 정리한 내용들입니다. (어투가 변경될 수 있으니, 양해 부탁드립니다.) 데이터 과학자의 역할 # 머신러닝의 형태로 사용자들의 경험을 개선 - 문제에 맞춰 가설을 세우고 데이터를 수집한 후에 예측 모델을 만들고 이를 테스트하는 역할 * 장시간이 필요하지만 이를 짧은 사이클로 단순하게 시작해서 고도화하는 것이 좋다 .. 더보기
[내가 보려고 만드는 기록] 우분투 프로세스 PID 조회하고 삭제하는 방법 #내가 보려고 만드는 기록 우분투에 EC2를 대여해서 스프링에 배포함. 그런데 nohup 명령어를 통해 ec2 접속을 종료해도, 꺼지지 않고, 데몬으로 실행하려고 하니, 이후에 백그라운드에 계속 프로세스가 살아있는 경우가 계속 발생했다. 그래서 백그라운드에 실행되고 있는 프로세스를 찾고, 강제종료해주는 방법을 찾아보았는데, sudo lsof -t -i:8080 더보기
데이터 엔지니어를 꿈꾸며(2022-01-29 개발일지) 안녕하세요 코딩교육자 헨리입니다. 2022년은 저에게 특별한 해입니다. 제가 데이터 엔지니어로의 길을 시작하려고 마음을 먹은 해이기 때문이죠. 앞으로 2022년에 제가 하고 싶은 일은 아래와 같습니다. 우선, 데이터 엔지니어 특강을 다 듣고, 실제로 제가 되고 싶은 모습이 무엇인지 명확하게 하려고 합니다. 최근 제가 자주 연락하고 있는 한 개발자 친구가 있는데, 그 친구와 카톡을 나누면서 데이터 엔지니어와 ML 엔지니어에 대해서 구분을 할 수 있게 되었습니다. 아직 이 분야에서는 문맹인지라 제대로 된 개념이 필요했는데, 친구에게 설명을 잘 받았습니다. 저는 데이터 인프라를 운영하면서, 한편으로는 ML 모델링로 도움을 주고 싶었습니다. 그래서 데이터 인프라와 데이터 모델링을 모두 할 수 있는 ML Ops에.. 더보기
데이터 직군의 이해 [데이터 분석가] 안녕하세요! 코딩교육자 헨리입니다. 오늘은 데이터 팀의 직군 중에서 데이터 분석가에 대해서 강의를 들었습니다. 데이터 분석가는 인프라가 갖추어진 환경에서 KPI / 지표를 정의하는 것과 이를 대시보드 형태로 시각화 서비스를 제공해주는 역할을 주로 맡게 됩니다. 회사 내 다른 팀들에게 데이터 관련 질문을 요구 받는 경우가 많습니다. ex) KPI 대비 현재 이런 상황이 나오는 이유가 무엇인가? 같은 질문들입니다. 그러면 강의를 들으면서 정리한 내용을 덧붙여보겠습니다. (강의에 대한 내용을 정리한 부분이여서, 음슴체가 사용될 수도 있습니다.) 데이터 분석가의 역할에 대해서 알아보자 1) 비지니스 인텔리전스를 책임진다. (*BI - Business Intelligence 이다) - 중요 지표를 정의하고 이를 .. 더보기