2014. 7. 30. 23:30
먹고살려고 하는 일
2011년 IBM은 지난 2년 동안 생산된 정보가 인류 탄생 이후 생산된 정보량보다 많다는 발표를 했다. 정보에 대한 정의를 어떻게 내리느냐에 따라 이견이 있을 수도 있겠지만, 데이터에 큰 관심을 가지고 있지 않은 사람들도 이미 스스로 혹은 자신도 모르게 자신의 정보를 여기저기 흘리고 있는 상황에서 해당 내용을 반발할 논리를 찾는 것이 더 힘들 정도이다.
기업 내에서도 특별한 목적을 가지고 설계하여 쌓아둔 데이터들보다 의도하지 않게 쌓이고 있는 데이터들이 점점 더 많아지고 있다. 게다가, 이미 잘 구조화 된 데이터라도 수 주는 돌려야 통계자료를 만들 수 있던 옛날과는 달리 발달한 기술 및 하드웨어 덕에 구조화 되어있지 않은 데이터를 가공해 넣는 시간까지 포함해도 하루 이틀이면 뚝딱 통계 자료가 나와버리니, 컨설팅 혹은 IT 서비스 업체들은 빅데이터 타이틀만 가지고 무조건 도입하라고 기업 문을 두드리는 현상이 발생하는 것도 이상하지는 않다.(무작정 넘어가면 안된다.)
그렇다면, 여기서 궁금해지는 것이 있는데, 데이터를 활용한 분석은 과학인가 하는 것이 그것이다. 비즈니스를 하는 사람들 중 데이터 분석에 대한 이야기에 대해 이렇게 반응하는 사람들도 꽤 있다.
'데이터 분석은 소용이 없어. 비즈니스는 과학이 아니란 말이야.’
아무리 과학적인 분석을 수행해도, 비즈니스적 경험을 통한 직관이 더 중요하고 성공 가능성이 높다는 이야기일 것이다. 그렇다면, 분석은 정말 과학일까?
분석은 물론 과학이다. 좀 더 상세히 이야기하면 분석하는 방법론 및 도구들이 모두 과학이라는 것이다. 하지만, 그 분석 도구를 통해 생산된 통계 데이터는 과학이 아니다. 데이터는 과학적인 것 처럼 보이지만, 그 데이터 필드를 채우는 실제 데이터들은 개인의 행동 패턴이나 상황 혹은 상태를 담고 있는 정보다. 이는 모두 개인화 된 정보들이며, 일반화 된 정보와는 성격이 전혀 다르다. 모든 로우 데이터들은 실제로 존재하는 누군가의 행동/성향과 1:1로 매핑이 되는 것이다.
개발자는 구구단 계산 프로그램을 만들기 위해 구구단을 일반화시킬 수 있는 공식을 생각해 내고, 이것을 프로그램으로 구현한다. 이것은 과학적 산출물이 된다. 하지만, 개발자가 한국어를 영어로 번역하는 프로그램을 만들어야 한다면 고민하는 시간이 길어질 수 밖에 없다. 번역에 대한 과학적 공식을 만들기 위해서 수많은 인문학, 언어학적인 고민이 수반되어야 하기 때문이다. 제대로 된 번역을 이행하기 위해서는 여러 실제 번역 정보들을 바탕으로 로직을 계속 업그레이드 해야 하는데, 관사만 예로 들어도 명사에 a/an 혹은 the를 사용하는 유형에 대한 공식을 일반화시키는 것은 쉬운 일이 아니다. 언어는 과학적 정리를 목적으로 탄생한 것이 아니라, 커뮤니케이션을 목적으로 만들어진 것이기 때문이다. 그렇다면, 어떻게 완벽한 번역 로직을 만들어낼 것인가? 아마 만들어낼 수 없을 것이다.
그래서 데이터를 활용하는 것이다. 사람이 사용하는 문장 경우의 수는 몇 개나 될까? 물론 셀 수도 없이 많겠지만 무식하게 한국어로 사람들이 번역을 원할 것 같은 문장을 만들고, 이를 자연스럽게 번역하여 데이터에 쌓아둘 수 있다고 상상해보자. 그게 가능하다면 번역 프로그램에서 사용자가 요청한 문장을 저장해 둔 문장 내에서 찾고 이와 매핑되어 있는 번역 문장을 넘겨줄 수 있다. 물론 데이터가 많이 쌓이기 전에는 해당 문장이 존재하지 않는 경우가 더 많을 것이다. 그 때는 처음에 만들었던 어설픈 번역 로직을 사용해서 수행한 번역을 보여주자. 그리고는 밑에 링크를 만들어두는 것을 잊지 않는다. ‘이 번역보다 나은 번역을 제안해 주시겠습니까?’ 그 링크를 클릭하여 접수된 번역은 다시 우리 데이터베이스에 추가되어 다음 번에 더 완벽한 번역을 제공할 수 있게 될 것이다. 이런 번역 알고리듬(물론 이보다는 훨씬 복잡한 알고리듬이 있다.)은 언어를 도해하여 공식을 만들어냈다고 보기는 힘들 수도 있지만, 가장 정확한 번역을 제공할 가능성이 높다.
말이 길어졌지만 하고 싶은 이야기는 데이터 기반의 분석이라는 것도 실제로 한 사람 한 사람의 개인 의지가 반영된 정보를 종합하여 보기 편한 형태로 요약한 것이라는 이야기이다. 분석 데이터 그 차제는 인문학적 트랜드를 담고 있는 가장 의미 있는 정보이고, 이 분석 데이터를 기반으로 미래를 예측하거나 비즈니스에 활용하는 것은 다음 단계의 일이다. 학자들은 데이터를 기반으로 구구단 공식을 만들어내듯 경제 예측 공식을 만들어낼 것이고, 비즈니스맨이라면 해당 데이터 기반에 자신의 비즈니스적 경험이나 직관을 활용하여 새로운 액션플랜을 만들어낼 수도 있다.
통계 및 분석자료를 들여다 보는 것은 ‘카드를 긁는 고객을 눈 앞에서 바라보는 작업'이라는 것을 잊지 말자.