-
[비공개] 그때는 맞고 지금은 틀리다.
나쁜 습관이란 게 있다. 데이터 분석가 또는 과학자가 갖는 나쁜 습관에 관한 글을 적으려 몇 개 아이템으로 정리하려 했다. 표현의 뉘앙스가 실패했음을 보여준다. 성공했으면 이미 몇 주 전에 글을 공개했을 거다. 여러 가지가 떠올랐지만 과연 그게 나쁜 습관인 건가?라는 의심도 들었고, 아이템 간의 레벨 차가 컸고 또 포괄적이지 못했다. 그런 고민이 이어진 끝에 내로남불 수준의 제목에 이르렀다.문제와 데이터를 엄밀히 살펴보기 전에 알고리즘부터 생각한다라고 뽑았지만, 어쩌면 경험이 많은 전문가일수록 오히려 더 그러는 경향이 있고 처음 선택한 알고리즘이 답에 가까운 경우가 많다. 내가 이 문제를 딱 봤을 때 ‘이런 알고리즘을 적용하면 된다’라고 말하면 경험 많은 전문가의 소견이 되고, 주니어 개발자가 ‘이런 알고리즘을 적용하..추천 -
[비공개] 프로젝트L 회고
내용을 자세히 밝힌 순 없지만 최근 사이드 프로젝트로 오랜만에 데이터를 분석할 일이 있었다. 아직 완결한 건 아니지만 현재 상황으론 더 이상 진행은 어려워 보인다. 여전히 결과가 깔끔하지 못해서 미련이 남아서 더 해야 하는 또는 다른 시야로 봐야 하는 건 없는지 계속 되뇌지만 뚜렷한 실마리가 없다. 데이터 분석이라는 게 항상 원하던 결과를 얻는 건 아니다. 이런 찜찜/찝찝함도 분석가 과정의 일부다.세계 정세나 경제에 관심 있는 분들이라면 작년 연말에 미국 주요 항구에 수많은 화물선들이 하역을 기다리며 무기한 정박한 뉴스나 사진을 봤을 거다. 코로나 초기에 락다운 등으로 실업이 증가했는데, 상황이 호전된 후로도 트럭 기사들이 예전의 직장으로 돌아오지 않아서 물류 대란이 발생했고, 그와 함께 인플레이션도 심해졌다는 뉴스는..추천 -
[비공개] 데이터 분석의 비기술적 측면
회사에서 미션 중 하나는 팀 소속 주니어 분석가들의 역량을 강화하는 거다. 한동안 어떤 프로그램으로 어떻게 운영할지를 많이 고민했지만, 그들의 현재 상태를 파악하는 게 우선이었다. 그래서 공개된 데이터를 각자의 방식대로 분석한 결과를 정리해서 제출하게 했다. 30여 개의 결과 자료를 보면서 생각이 많아졌다. 여러 자료에서 공통된 부분도 있고, 나름 독특한 관점으로 데이터에 접근한 것도 있었다. 결론부터 말하면 기대치를 충분히 만족시킨 건 없었다. 기술적인 부분(technical skills)은 대부분 나보다 오히려 낫지만 분석이라는 게 기술만으로 완성되지 않는다. 이전 면접 과제 글에서도 적었듯이 데이터 과학자들의 모델 학습을 위한 분석은 정형화된 EDA 과정을 거치면 다소 해결되지만, 사람들을 위한 분석은 좀 더 입체적이다. 제출된 결과..추천 -
[비공개] 데이터 분석가를 위한 면접과제
이전 글 ‘면접과제의 기대와 현실 https://brunch.co.kr/@jejugrapher/258'은 엄밀히 말해서 데이터 과학자를 위한 면접과제를 설명한 거다. 데이터 분석과 데이터 과학이 다르다고 생각하지 않았는데, 최근 다른 일 때문에 찾아보니 데이터 분석은 그 자체로 완결된 태스크로써 데이터에서 인사이트를 찾아서 사람에게 전달하는 것인 반면 데이터 과학은 자동화를 위한 모델을 만드는 과정으로써 데이터 분석을 이용해서 결과물을 기계 (모델)에 전달하는 것으로 구분해서 사용하고 있었다. 그런 측면에서 ‘기대와 현실’ 글에선 EDA로 명시한 데이터 분석 과정이 매우 평면적이었고, 그 정도의 기초 역량만을 보면 됐다. 즉, 데이터를 불러와서 분포를 확인한다거나 결측치나 아웃라이어를 찾아서 제거 또는 치환하고 모델에 필요한 피쳐를 선택 (피쳐 셀렉션)하..추천 -
[비공개] 면접과제의 기대와 현실
데이터 분석가 또는 과학자를 위한 인터뷰 면접 과제를 주제로 다룬 지 벌써 1년 정도 지났다. (참고. https://brunch.co.kr/@jejugrapher/239) 그 사이에 면접관이 아닌 면접자의 입장에 놓였고 S로 이직했다. (역시 현실은 상상과 달랐다.) 신입 때는 영어 성적을 요구하는 직장이 싫었고 지금은 — 나름 개발 직군이지만 — 코딩 테스트를 보는 직장이 싫다. 다행히 늙은이에게 코테나 면접과제를 요하지는 않았다. 이직 후에 몇 명의 이력서는 검토했지만 면접에 직접 참여하지는 않아서 이제 감이 많이 떨어졌다. 이전 직장의 경험을 바탕으로 글을 적지만 영업 비밀(?)을 적나라하게 밝히는 건 상도덕에 어긋나니 적당한 선을 지켜서 글을 적는다.실 데이터를 기반으로 가공된 데이터를 지원자들에게 미리 전달한 후, 약 일주일 동안 CTR을 예측하는 프로그램을 구현..추천 -
[비공개] 데이터감(感)을 갖자
대기업의 연말은 임원 인사와 조직 개편으로 언제나 분주하다. 대화도 몇 번 못했지만 수년간 팀을 이끌던 전무님이 갑작스럽게 퇴사하시고 옆 랩의 랩장은 외국 주재원으로 발령이 나면서 팀 소속 두 개의 랩 간의 경계를 허물고 — 원래 같은 팀이었지만 — 하나의 팀으로 합쳐졌다. 그리고 남은 랩장이 새로운 팀장으로 내정되는 과정이 순식간에 지나갔다. 어느 이른 저녁에 신규 팀장님이 지나가다가 — 신생 팀에 주니어 분석가들이 많아서 — ‘B님, 데이터 분석 역량을 강화하려면 어떻게 해야 해요?’라는 물음을 남겼다. 짧은 시간이지만 생각했던 것들과 나름 정리한 커리큘럼은 기회가 되면 다음에 공유하고 오늘은 그사이 고민 중에 계속 꼬리에 꼬리를 문 생각인 데이터감에 관해서 적는다. 비슷한 용어가 있는지 모르겠으나 ‘데이터감(感)..추천 -
[비공개] AI, 그래프를 배우다 (Mastering GNN)
이전 포스팅에서 BDL을 푸는 방법을 간략히 정리했는데, 사실 이직 후에 처음 공부한 것은 Graph Neural Network (GNN)이었다. GNN도 카카오에서 마지막까지 남겨놨던 주제인데 운명의 장난처럼 이직하자마자 공부하기 시작했다. BDL과는 달리 GNN은 이미 많은 Survey 논문들이 있어서 체계를 잡는 데는 다소 쉬웠으나 처음 GNN이 어떻게 구성, 학습되는지를 이해하기까진 시간이 필요했다. 다행히 오래전에 배웠던 Message Passing 메커니즘으로 현재의 대부분 GNN을 설명할 수 있다는 걸 익힌 후론 진도가 빨라졌다. Signal processing의 filter 개념으로 시작해서 여러 수식들이 나올 때는 방황했는데 MP로 정리된 후로는 다소 쉬워졌다. 물론 지금도 필터로 설명한 논문은 잘 이해하기 어렵다. 그냥 익숙해질 뿐이다. 다른 분들이 나와 같은 우여곡절을 겪지 않도록 어떤 순서로 GNN..추천 -
[비공개] 비공식 베이지언 딥러닝 체계 **Unofficial**
이직 후로 아직 업무를 본격 시작하기 전이어서 몇 가지 공부하고 있다. 산학 과제 때문에 Bayesian Deep Learning (BDL)을 좀 공부했는데, 카카오에 있을 때부터 이걸 계속 뒤로 미룬 이유를 알 것 같다. 나는 기본적으로 Frequentist여서 Bayesian의 방식을 받아들이기가 너무 어렵다. 여러 강의 자료와 많은 논문을 읽으면서 나름 가장 기초적인 걸 깨우친 듯해서 정리하려 한다. 좀 이상한 점은 BDL이 꽤 많이 연구됐는데, 이를 다룬 Survey 논문을 찾기가 어렵다는 거다. 2~3편이 있긴 한데 분야의 폭과 깊이에 비해서 많이 부족하다. 보통 새로운 분야를 시작할 때 일단 여러 서베이 논문을 읽으면서 그 분야의 전체를 일단 조망하고 필요한 세부 기술을 익히는 방법을 주로 사용하는데, 그런 면에서도 BDL에 익숙해지는 것이 어려웠다. 여러 참고자료를 찾으며 계속 읽으..추천 -
[비공개] AI 네이티브 AlphaGo Kids
2006년에 처음 '딥러닝'이란 용어가 제프리 힌튼 교수의 논문에 등장했으니 벌써 15년이 지났다. 초기에는 당연히 이미지 처리 분야에서 회자됐을 테고, 이후 차츰 과학과 기술 전문 미디어에서 다루면서 내가 이 용어를 처음 접했던 것이 2012년으로 기억한다. 10년의 시간이 흘렀다. 본격적으로 개념과 방법론을 공부하고 트렌드를 팔로잉했던 때는 다음과 카카오가 합병한 직후인 2014년도 겨울이었다. 이때라도 좀 더 테크니컬 하게 깊게 파고 들어갔더라면 조금은 다른 길을 걷고 있었을 텐데란 생각도 든다. 어쨌든 대중들이 딥러닝 또는 인공지능을 각인한 것은 알파고가 등장한 2016년도다. 겨우 5년 전인데 까마득한 과거처럼 느껴진다.내가 경험한 위의 타임라인이 현대의 인공지능 또는 딥러닝의 확산 과정과 크게 벗어나지 않는다고 본다. 이미지나 ..추천 -
[비공개] 대체 데이터와 다크 데이터
** 주의. 소개하는 대체 데이터와 다크 데이터를 제대로 공부해서 개념을 완벽히 이해한 상태로 글을 적는 것이 아니고, 이런 개념을 소개한 유튜브 영상과 책을 소개하기 위해서적는다. 더자세한 내용은 직접 찾아보고 익히길 바란다. 주식하는 분들에게 유명한3프로TV에11월 1일에 두 개의 영상이 올라왔다. 명지대학교 박정호 특임교수의 라이브 영상을 2 편으로 쪼갠 것인데, 대체 데이터를 이용한 투자 사례를 다룬 것이다. 부끄러운 고백인데, 데이터 과학자란 업에 오래 몸담고 있지만 대체 데이터 (alternative data)란 용어를 처음 접했다. 그동안 업무/서비스와 관련된 직접적인 데이터들이 많았기 때문에 굳이 불확실성이 높은 데이터, 즉 대체 데이터에 관한 생각을 할 필요가 없었는지도 모르지만, 좀 더 폭넓은 시각으로 주변 세상을 더 면밀히 검토..추천