2023년 4분기 회고록

Memory

뒤늦은 회고

Author

Taemo Bang

Published

December 30, 2023

The illustration by Mary Amato

벌써 2023년이 저물어 간다. 바쁘다는 핑계로 미뤄놓은 월간 회고가 한 분기만큼 쌓였다. 개인적으로 쌓아두고 있는 주간 회고를 바탕으로 2023년 4분기를 회고한다. 빠른 시일 내에 2023년 연말 회고도 써야지.

로렌츠 곡선과 지니계수

아마 두 용어를 처음 들어보시는 분들이 많을거라 생각한다. 나 또한 그러했고. 한 줄로 요약하면 지니계수는:

0이면 완전 평등한 경제, 1이면 완전 불평등한 경제

를 나타내며, 이 지니계수는 로렌츠 곡선으로부터 계산된다. 이 블로그를 보면 이해하기 쉬울 것이다. 11월 초에 다음의 가설에 관한 빠른 검증이 필요한 상황이 있었고:

각 랭킹 모델에서 발생하는 매출이 스타 상품에 의해 좌우되는가?

로렌츠 곡선과 지니계수를 활용해 해당 가설을 검증해냈다. 물론, 내가 한 일은 아니고 동료 분석가 분께서 한 일이다. 당시 로렌츠 곡선과 지니계수도 처음 듣는 용어였는데, 개념을 이해하고 나니 경제 용어(?)를 활용한 꽤 재밌고 간단한 분석 사례라 생각되어 공유를 해본다.

A/B Test 스터디

이제 책(Kohavi, Tang, and Xu (2020))의 절반을 조금 넘게 마무리했다. 아마 내년 3월 즈음이면 책을 마무리 지을 수 있을 듯 하다. 책을 읽다보면 “아니 어런거 까지 고려해서 실험을 하고 있다고?” 라는 말이 나올정도로.. 눈에 보이지 않는 온라인 환경에서 실험 효과에 관한 정확한 측정을 위해 정말 변태같을 정도로 많은 노력을 기울인다. 책이 그리 친절하진 않다. 초심자라면 이해하기 어려운 대목들이 많을 것이다. 책의 뒷편에 수많은 References를 상세하게 기재해 놓은데에는 다 이유가 있다는 생각이 든다. 실무에서 A/B Test를 수행하고 있는 실무자라면 이 책을 읽으며 많은 반성을 할 수 있을 것이다.

Databricks에서도 고통받는 R유저

기존 하둡으로 운영되고 있던 전사 Data Lake를 Databricks로 이관하고 있는데, Databricks가 OT에서 이야기했던 내용과 달리 공유 클러스터에서는 R 사용이 불가능함을 확인했다. 관련해서 Databricks를 담당하고 있는 팀에 문의도 드려봤는데, R은 개인 클러스터에서만 사용이 가능하다고..😇 그런데, 또 개인 클러스터는 비용 이슈가 있어 아무나 만들어 주지도 않고.. 허가가 난다고 한들 굉장히 작은 자원만 제공을 해준다. 대한민국 산업계에서 R 쓰기 참 쉽지 않다. 그나마 다행스러운 점은 하둡 환경의 Data Lake의 경우 jdbc/odbc를 활용한 로컬에서의 접근이 완전히 막혀있었는데(운영망 정책상), Databricks의 경우 Azure 환경이라(?) jdbc/odbc를 활용한 로컬에서 운영망으로의 접근이 가능했다. 8-9시간의 삽질 끝에 성공했는데.. 아직 Transaction 관련 데이터가 넘어오지 않아 사용은 하지 않고 있다. 완전한 이관이 된다면, 로컬 Rstudio에서 쿼리를 날리고 메모리에 올릴 수 있는 만큼 테이블을 떼와서 심리스하게(?) 분석을 수행할 수 있을듯 한데.. 이 날만 기다리고 있다.

2023 전사 해커톤

매년 12월에 열리는 전사 해커톤에 처음으로 참가했고, 감사하게도 결선에 진출하여 Innovation 상을 수상했다. 결선에서 참 아이러니(?)한 상황을 겪었다. 우리 팀은 총 3명으로 그 중 2명이 나 포함 AI Product 팀이었는데, 우리팀의 해커톤 아이디어 및 프로토타입에는 그 어디에도 AI 얘기는 존재하지 않는다.😂 이 부분은 딱히 인지를 하지도 않았고, 신경도 쓰지 않고 있었는데 결선 리허설때 다른 팀들의 출품작들을 보니 오히려 AI 얘기를 안하는 곳을 찾기 힘들었다. 특히 GPT로 대두되는 언어 모델들..😇 아무튼! 행사는 성공적으로 끝이났고 첫 참가한 해커톤에서 입상까지 한 것도 참 감사한 결과다. 바쁜 업무 와중에도 열심히 행사를 준비해주신 해커톤 준비위 분들께 감사의 마음을 올린다.

실험 분석 대시보드

신뢰할 수 있는 A/B Test를 제공하고 고품질의 실험 기반 의사결정을 지원하고자… Streamlit으로 실험 분석 대시보드를 개발하고 있다. 올해 가장 많은 리소스를 투입해온 업무인데, 돌아보니 많은 성숙을 이루었다. 실험 적절성 검사(A/A Test, 각종 가드레일 지표), 정확한 분산 추정에 기반한 통계적 가설검정, 진단/디버그 지표 등.. 아직 갈길은 멀지만 올해 내내 실험 문화를 비롯해 분석 측면에서도 괄목할만한 성장을 이루어냈다. 대시보드를 개발하며 느낀 소회랄까.. 자세한 이야기는 연말 회고에 풀어보겠다.

개인

데이터야놀자 2023

10월에 열린 데이터야놀자 2023에 “당신의 A/B Test를 신뢰할 수 없는 이유”를 주제로 발표를 하고왔다. 발표자로 선정될 수 있을지.. 긴가민가하며 배짱있게 PPT 프로토타입 없이 초안과 개략적인 내용만 전달드렸는데 흔치 않은 주제라 그런지 운이 좋게도 발표자에 선정될 수 있다.😂 이런 유료 행사에서 발표를 해본 경험은 없었는데, 좋은 경험을 하나 쌓은 것 같다. 생각보다 많은 분들이 내 세션을 들으러 와주셔서 놀라기도 했고, A/B Test에 관심이 있는 사람들이 생각보다 많음을 실감할 수 있었다. 내 발표를 한 마디로 요약하면 다음과 같다:

신뢰할 수 있는 실험 결과를 얻고 싶다면 A/A Test 빡세게 하고, 지표의 정확한 분산 추정에 많은 주의를 기울여라.

사실 이것말고도 할 얘기가 정~말 많지만.. 놓치기 쉬운 가장 기본적인 2가지라 생각되어 위 내용을 중심으로 발표를 구성했다. 자세한 발표 후기는 링크드인에 작성해두었고, 자세한 발표 내용은 데이터야놀자 2023 유튜브에서 만나볼 수 있다. 아, 그리고 발표 후 3주 쯤 지난 무렵.. 사용자 단위 지표가 아닌 경우의 분산 추정 관련하여 잘못된 내용을 전달드렸던 부분을 깨달아서 황급히 링크드인에 공지를 드렸었는데 참 아찔했다.😨 유튜브 영상에도 댓글로 남겨두었고.. SNS를 안하시는 분들이 내용을 잘못 알고 계실듯 하여 참 걱정스럽다.

노션에서 옵시디언으로

할 일 관리, 디지털 노트 등 생산성 도구로서 노션을 쭉 이용해오고 있었는데, Obsidian으로 갈아탔다. 협업이 필요한 상황엔 노션이 어쩔 수 없는 선택지이나.. 무료 서비스인 개인 생산성 도구로는 옵시디언이 최고이지 않나 싶다. 옵시디언으로 옮겨간 몇 가지 개인적 이유를 적어보면 다음과 같다

  • 로컬 기반이라 속도가 노션과는 비할바가 안될정도로 빠름

    • 이게 관리하는 노트가 많아지고.. 또는 노션 서버가 불안정하고 이런 거를 겪다보면 사용성에 정말 지대한 영향을 미침
  • 노션 사용시 자꾸 쓸데없이 꾸미게 됨.. 난 이 부분을 시간낭비라 생각함

  • 옵시디언에서 제공하는 그래프뷰가 매우 매력적

  • 서지관리툴 Zotero와 옵시디언의 연동성

사실 생산성 도구에 한창 목마름이 생기기 시작했던 2021년 즈음 노션을 제껴두고 옵시디언에 입문을 했었는데, 당시엔 괜찮은 옵시디언 튜토리얼 자료가 많지 않아서 활용성이 떨어진다고 생각이 되어 다시 노션으로 갈아탔던 기억이 있다. 그렇게 약 2년간 노션을 이용해오다가 올해 중순쯤 부터 살살 옵시디언으로 옮겨가고 싶다는 입질이 왔다. 아래 재생목록을 불현듯 유튜브 알고리즘에 의해 마주하고 당장 옵시디언으로 넘어가야겠다는 생각을 했다.

옵시디언 입문자에게 최고의 영상들이라 생각한다. 다음의 니즈가 있는 사람이라면 옵시디언을 꼭 사용해보길 권한다. 사실, 위 재생목록의 영상을 한두개 정도 보다보면.. 아래와 같은 사람이라면 옵시디언을 사용해볼 수 밖에 없을 것이다.😂

  • 논문을 자주 들춰봐야해서 문헌 관리를 체계적으로 하고싶음

  • 생산성 도구를 통해 내 지식, 계획 등을 체계적으로 관리하여 쌓아나가고 싶음

아, 그리고 본인이 대학원생이다? 묻지도 따지지도 말고 우선 위 재생목록의 영상들 부터 보길 바란다. 옵시디언을 안쓸수가 없을 것이다. 연구자도 그럴 것이지만.. 이미 사용하시는 툴이 있을 가능성이 높으니.😀

References

Kohavi, Ron, Diane Tang, and Ya Xu. 2020. Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. https://experimentguide.com/.

Reuse

Citation

BibTeX citation:
@online{bang2023,
  author = {Bang, Taemo},
  title = {2023년 4분기 회고록},
  date = {2023-12-30},
  url = {https://taemobang.com/posts/2023-12-30-quarterly-memory-20234Q/},
  langid = {kr}
}
For attribution, please cite this work as:
Bang, Taemo. 2023. “2023년 4분기 회고록.” December 30, 2023. https://taemobang.com/posts/2023-12-30-quarterly-memory-20234Q/.

새 글이 발행되면 알려드려요.

포스팅을 독려해주실 수 있어요.