데이터 과학에 관해

Review

데이터 과학과 우리나라 데이터 과학 업계에 관한 생각

저자

방태모

공개

October 12, 2022

그림1. 데이터 과학 (Source: 유튜브 채널 <인과추론의 데이터과학>)

유튜브 채널 <인과추론의 데이터과학>의 2020년 6월 강의 영상을 지난 7월에 인과추론에 관심을 가지며 우연히 보게되었죠:

강의 연사는 UNGC의 박지용 교수님입니다. 해당 영상의 38분부터 약 10분 간 위 그림 1을 가지고 데이터 사이언스에 대한 생각과 우리나라 데이터 사이언스 업계에 관한 생각을 풀어내십니다. 너무나도 흥미로웠고 재밌었어요. 제가 오랜 시간 생각하고 고민했던 지점들과 일치하는 부분이 상당히 많아서 였을까요? 그래서, 영상 내용이 참 반갑기도 했습니다. 그래서, 영상에서 인상 깊었던 대목과 그 대목이 인상 깊었던 개인적 이유에 대해 써보려고 해요. 사실, 영상을 보자마자 기록해두고 싶은 맘이 있어 지난 7월 커리어리에 글을 썼었습니다. 좀 더 정제해서 그때 감정을 떠올려 글을 정리해보려고 합니다.

데이터 과학 붐

데이터 과학은 최근 몇년간 큰 붐이 일었다. 근데 내가 개인적으로 느끼는 아쉬운 점은 우리나라에서의 데이터 과학에 관한 유행은 한쪽으로(예측 방법론) 치우쳐져있지 않나 하는 개인적 우려를 가지고 있다.

저 또한 개인적으로 우리나라 데이터 사이언스 업계는 예측 모델링에 상당히 치우쳐 있다고 생각을 했었습니다. 2년 전의 영상인데도 같은 지점을 지적하고 계셨어요. 박지용 교수님이 2020년에 했던 개인적 우려는 2022년에도 여전한 듯 합니다. 올해 초 이직을 결심하며 우리나라 데이터 사이언스 업계의 수십개의 채용 공고를 들여다 보았는데요. “추론”이라는 키워드는 딱 한 번만 볼 수 있었습니다. 물론, 해당 포지션에서 풀고자 하는 문제에 추론은 정말로 필요없었을 수도 있습니다. 그러나, “Data Science를 구성하고 있는 대부분의 세부 분야들이 그렇듯이, 추론”과 “예측” 또한 두부 자르듯이 둘을 완전히 나눠서 볼 수 있는 것은 아닙니다. 그래서인지, 수십개의 채용공고 중에 “추론”이라는 키워드가 들어간 채용 공고는 제게 꽤나 특별하게 느껴졌습니다. 공교롭게도, 현재 저는 그 곳에서 일을 하고 있네요. 당시, 실제로 어떤 철학과 방식으로 인과추론 방법론을 활용해 예측 모델링에 들어갈 feature를 추출해내는지 매우 궁금한 상태로, 설레는 맘을 품고 서류를 지원하던 기억이 납니다.

데이터 과학이란?

“데이터 과학은 하나의 특정 학문이라기 보다는 굉장히 포괄적이라고 생각을 한다. 특정 현상이나 대상에 대해 데이터를 수집하고 또는 만들어내고, 그 데이터를 가지고 분석을 수행하여 의사결정에 도움이 되는 인사이트를 추출하는 과학적 접근법들을 통칭하는 것이 데이터 과학이라고 생각한다. 그래서, 어떤 특정 학문 분야가 데이터 과학을 한다기 보다는, 데이터 과학의 어떤 철학을 가지고 많은 분야에서 연구를 하고있다고 생각함.”

저는 “데이터 과학”이라는 것을 하고는 있지만, “데이터 과학”을 모르는 사람들에게 이 영역을 어떻게 정의할 수 있을까에 대한 고민을 가지고 있었습니다. 데이터 과학은 수학, 통계학 등 순수학문의 위에 실용학문이 얹어진 융합학문이라고 생각했었기에 더더욱 정의가 어려웠어요. 사실, 학문이라는 표현 또한 적절할 지는 모르겠습니다. 과연 “데이터 과학”을 학문이라 표현하는 것이 적절할까요? 개인적으로는 “도구”라는 단어가 더욱 적절하다고 생각합니다. 그래서, 박지용 교수님이 위와 같이 정의한 데이터 과학이 제가 생각했던 데이터 과학과 가장 가까웠던 것 같습니다.

데이터 과학과 마찬가지로 “빅데이터”에 대한 정의도 여전히 상당히 모호하다고 생각합니다. 단순히 크기가 큰 데이터? 오죽하면 아래와 같은 유명한 말이 있죠.

빅데이터는 십대의 섹스와 같다. 다들 그것에 대해 말하지만, 진짜로 어떻게 하는지는 아무도 모르고, 나만 빼고 모두가 하고 있을 거라 생각한다. 그래서 다들 자기도 하고 있다고 주장한다. - 댄 애리얼리 (Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, and everyone thinks everyone else is doing it, so everyone claims they are doing it. - Dan Ariely)

그래서, 저는 개인적으로 빅데이터라는 단어를 특별하게 의미를 담아 정의하는 것을 그렇게 좋아하지 않습니다. 빅데이터를 정의하는 데에는 단순히 크기가 큰 데이터 정도로 정의하는 것으로 충분하다고 생각하지만, 그 크기에 대한 기준에는 또 주관이 개입하기 마련이니까요. 또 다른 이들은 “빅데이터”라는 단어에 그 이상의 의미를 부여하기도 합니다. 그래서, “빅데이터 공부하기”, “빅데이터 이해하기”라는 말이 존재하는 것이 아닐까요?

통계, 머신러닝, 인과추론

“직접적인 데이터 과학 툴로써는 예측을 위한 머신러닝이나 인과추론을 위한 계량 경제학은 사실 각자의 목적을 가지고 독립적인 분야로 발전하고 있다. 그렇다고해서 통계가 중요하지 않은가? 절대 그렇지 않다. 사실 머신러닝이나 계량 경제는 기본적으로 통계에 이론적 바탕을 두고 있다. 그래서, 나는 통계라는 것을 데이터 과학이 떠있는 바다 그 자체라 표현하고 싶다. 그 바다가 없다면 사진 속 쌍끌이 배 자체가 항해를 할 수 없기 때문. 통계가 인과추론을 위해 반드시 필요하다고 생각하진 않으나, 데이터 분석에 관한 깊이 있는 이해를 위해서는 통계학은 필수적이다.”

학부, 대학원을 통계학으로 전공하며 회귀분석에 관심이 꽤 있었던 제게, 추론(inference)이라는 영역은 항상 예측(prediction)보다 더 매력적으로 다가왔습니다. 그래서, 추론(inference)이라는 영역은 데이터 과학을 이끌어가는 수많은 학문들 중 통계학만의 것이라고 생각했었는데, 계량 경제학이 인과추론을 이끌어가는 학문이였다는 것은 이 영상을 통해 알게되었습니다. 참 흥미로웠어요.😀추론적 관점의 모델링에 대한 관심은 회귀분석이 갖는 가치에 대해 생각해보며 시작되었어요. 제 입으로 말하기도 부끄럽지만, 통계학과 대학원에서 회귀분석 수업을 진행하시는 교수님이 “회귀분석은 구식이다.”라는 충격적인 말을 들은 때가 바로 이 생각의 계기였죠. 저는 결코 그렇지 않을 것이라 생각했기 때문이죠. 회귀분석이 가지는 가치에 대해 고찰하며, 책에서 찾아보기는 어려운 개인적인 궁금증이 생길 때면 지도교수님을 찾아가 질문을 던지기도 했습니다.

통계학에서는 회귀분석을 기본적으로 추론적 관점으로 접근합니다. 그래서, 잔차분석은 회귀분석의 꽃이라 불리기도 해요. 다중공선성에 관한 고민을 하는 이유도 바로 이 추론에 관심이 있기 때문이죠. 머신런이에서 지도학습 기법을 소개할 때에도 회귀분석 기법은 맨처음에 등장합니다. 이때에 회귀분석은 철저하게 예측 모델링 관점에서 소개되죠. 그래서, 다중공선성, 잔차분석에 관한 이야기는 나오지 않어요. 이러한 두 관점의 차이는 Ridge, Lasso와 같은 벌점 회귀(penalized regression) 방법론에 대한 모티베이션에서도 드러납니다. 통계학에서 벌점 회귀 방법론의 근본적 모티베이션은 다중공선성으로 인해 발생하는 회귀계수 추론의 어려움이지만, 머신러닝에서 벌점 회귀 방법론이 갖는 근본적 모티베이션은 Regularization1입니다. 다른 말로 하면, 선형 회귀에는 unobserved data set에 관한 성능을 조절할만한 모수가 없다는 것인데요. 과적합(overfitting)이 되는 것을 방지할 수 있는 장치가 없다는 이야기라고도 표현할 수 있겠네요.

물론, 통계학과에서 회귀분석을 가르칠 때 “추론적 모델링 관점”이라는 등의 설명은 따로 하지 않아요. 그러나, 저는 “회귀분석은 구식이다.”라는 충격적인 통계학과 교수님의 워딩을 듣고 회귀분석이 갖는 가치에 대한 고찰을 시작했고, 추론적 모델링의 관점과 예측 모델링의 관점에 따라 같은 방법론도 다른 방식으로 설명되고 이론 전개가 가능하다는 것을 이해할 수 있었습니다. 그래서, 그 충격적인 말을 해준 교수님께 지금은 참 감사한 마음이 듭니다. 물론, 이러한 고찰을 하지 않아도 다음 학기에 지도교수님과 고차원 데이터 분석을 공부하며 고도화된 형태의 벌점 항을 갖는 penalized regression model이 고차원 데이터(n<p)의 예측 모델링에서 갖는 가치를 알게 되긴 했지만요.2 이렇게 두 관점에 대한 이해가 어느정도 정립되고 난 뒤에 접한 인과추론 방법론은 내게 무척이나 흥미로울 수 밖에 없었습니다.

예측 방법론, 인과추론 방법론 둘 중 어느 것이 더 중요하다고 이야기 하고싶은 것이 절대 아닙니다. 데이터 과학을 이끌어가고 있는 다양한 세부 분야들이 그렇지만, 이 둘 또한 결코 두부 자르듯이 나눌 수 있는 방법론, 관점도 아니라고 생각합니다. 인과추론이 가지는 가치는 추론 모델링에서만 발휘되지 않습니다. 예측 모델링에서도 인과추론이 갖는 가치는 충분히 존재합니다. 실제로 인공지능, 머신러닝 분야의 최대 학회 중 하나인 NeurIPS에서도 Causal Inference Workshop이 열리고 있죠. 두 방법론과 관점 모두 데이터 과학에서 너무나도 중요합니다. 다만, 우리나라 데이터 과학 업계는 여전히 예측 방법론에 지나치게 치중되어 있다는 점을 이야기하고 싶습니다. 둘은 필히 균형을 맞추어 양립하여 가야한다고 생각합니다. 그래야, 데이터를 기반으로 바보같은 의사결정을 내리는 일을 피할 수 있게 해줄거라고 생각해요 글 문두에서 제시한 그림 속에서 통계라는 바다 위에 떠있는 데이터 과학을 이끌어가는 쌍끌이 배가 곧 인과추론 방법론과 예측 방법론이듯이 말이죠.

맺음말

너무나도 인상깊었던 영상이라 소감이 정말 길었네요.😂이 글에 풀어놓은 제 생각들이 여러분들이 데이터 과학을 바라보는 새로운 관점을 제시하는 계기가 되었으면 합니다. 좋은 영상을 이렇게 무료로 풀어주는 인과추론의 데이터 과학 유튜브 채널 운영진 님들께 정말 감사한 마음을 전합니다. 그리고, 인과추론 분야에 관한 수준 높은 강의를 무료로, 그것도 한국어로 제공해주시는 UNGC 박지용 교수님께도 큰 감사함을 전합니다.

각주

  1. 학습알고리즘(학십시킨 머신러닝 모형)의 training error가 아닌 generalization error를 줄일 목적으로, 해당 학습알고리즘에 어떤 수정(modification)을 가하는 모든 행위를 통한다. 여기서 generalization error란, 이전에 관측하지 않은 데이터(e.g. test data)에도 좋은 성능을 보여주는 능력을 말한다. 즉, generalization error = test error라고 볼 수도 있다.↩︎

  2. 앞서 통계학에서 회귀분석은 기본적으로 추론 관점에서 이론 전개를 해나간다고 했는데, 고차원 데이터에서 penalized regression의 벌점 항(penalized term)을 고도화 해나가며 이론 전개를 하는 것을 보면, 또 여기서는 예측 모델링 관점에서 모형 개선을 해나갑니다. 모형의 예측 성능은 조금씩 개선을 하면서, 최대한 변수를 줄인 가벼운 모형을 빌딩하도록 하면서요.↩︎

라이센스

인용

BibTeX 인용:
@online{방태모2022,
  author = {방태모},
  title = {데이터 과학에 관해},
  date = {2022-10-12},
  url = {https://taemobang.com/posts/2022-10-12-data-science/},
  langid = {kr}
}
인용방법
방태모. 2022. “데이터 과학에 관해.” October 12, 2022. https://taemobang.com/posts/2022-10-12-data-science/.

새 글이 발행되면 알려드려요.

포스팅을 독려해주실 수 있어요.