머신러닝 비즈니스. 어디쯤 와 있는가

많은 사람들이 머신 러닝을 이야기하고 있습니다. 누군가는 알고리즘 구현에 힘을 쏟고, 누군가는 벌써 머신러닝을 사업에 활용하기도 합니다.

2017년. 05월. 대한민국의 머신 러닝 비즈니스 현주소를 짚어보고 앞으로 어떻게 흘러갈지 가늠해보고자 합니다. (철저히 개인적인 의견입니다.)

이제 위 그림과 같이 몇 가지 측면에서 현재의 상황과 향후 흐름을 살펴보고자 합니다.  전체적으로 보면 현재는 [탐색 시기]에서 [구현 시기]로 넘어가는 과도기라고 보여집니다. 특정 회사에 따라 혹은 특정 기술에 따라 이미 [상업화 시기]까지 진행된 경우도 있지만, 기술과 사업의 성숙도 전체를 보면 아직 본격적인 구현 시기라고 보기에는 무리가 있습니다.  조금 더 상세히 살펴보면…

Ideation 측면

머신 러닝을 활용한 다양한 아이디어가 나와 기술과 사업을 견인해야 하나, 아직은 기존에 개발되고 검증된 알고리즘에 의존하는 모습입니다. 즉, 알고리즘이 먼저 개발되고 공개되어 그 알고리즘을 활용한 제품/사업이 생겨나고 있다는 의미입니다. 대표적인 case로는 데이터를 학습하여 스팸인지 아닌지 구별하는 (알려진) 알고리즘을 활용한 emailing 서비스 등이 있습니다. 그러나 지속적으로 다양한 아이디어들이 나타날 것으로 예상되며 궁극적으로는 다양한 아이디어와 사업모델들이 cross-over되어 더욱 거대하고 견고한 아이디어들이 될 것으로 보입니다.

Data 측면

지금은 모두가 Data를 찾고 모으는데 혈안이 되어 있는 것 같습니다. 정부는 지속적으로 공공데이타, Open API를 제공하고 있으며 오랜 경험과 축적된 데이터를 보유한 업체들도 자신들의 데이터를 공개하기 시작했습니다. (솔트룩스, AI 기반 데이터 클라우드 공개…데이터 100억건 무료 개방http://www.bloter.net/archives/278085) 정부와 민간 기업들이 그 동안 꼭꼭 숨겨 두었던 데이터를 공개하여 더 큰 아이디어와 활용성을 찾고 있는 시기라 할 수 있겠습니다. 데이터가 충분히 확보되고 공개되면, 이후는 정제된 데이터를 만들기 위한 노력들이 많아질 필요가 있어 보입니다. 닷컴 시대가 도래하며 우후죽순 웹사이트가 생겨났지만, 이제는 훌륭한 디자인과 컨텐츠를 확보하기 위해 노력하는 것과 비슷하다고 할까요. 궁극적으로는 데이터를 확보하고 정제하여 사용 목적별로 제공하는 데이터 거래 기업 (Data Agency)이 출현도 예견해 볼 수 있습니다. 현재 불법적으로 성행하는 개인정보 거래와 같은 형태가 아니라 매우 다채롭고 방대한 데이터를 체계적으로 구축하여 거래하는 Data Market 역시 시도될 것으로 보입니다. (사실 일부 이미 있습니다. https://www.datastore.or.kr )

Model/Algorithm 측면

국내 머신러닝 기술과 사업은 아직 숙성되지 않아 대부분의 알고리즘, 분석 모델들은 외국의 것을 가져왔습니다.(제가 접한 방법론들이 대부분 해외에서 온것들이라… 혹여나 오류가 있다면 알려주세요.) 해외에서 만들어진 모델/알고리즘을 가지고 시도해 보는 중이라 할 수 있겠습니다. 사진 판독을 통해 개와 고양이를 구분한다던가, 판매 데이터를 가지고 예측을 하는데 사용하는 대부분은 이미 많이 알려진 수학/통계 모델인 경우가 많습니다. 특히 머신러닝 기법 중 “지도 학습(Supervised Learning)”의 경우는 대부분 같은 방식으로 학습시키고 데이터를 입력합니다. 그러나 시간이 지날수록 독자적인 분석 방법론들이 나올 것으로 예상됩니다. 새로운 아이디어를 구현하기 위해서는 새로운 방법론이 필요하기 때문입니다. 지금은 알고리즘에 사업이 종속적이나 새로운 아이디어/사업을 위한 새로운 분석 모델들이 나오고 서로 통합되어갈 것으로 예상됩니다.

running Platform 측면

아직 머신러닝 시장이 초기라 그런지 대부분의 커뮤니티에는 텐서플로우(tensorflow) 설치법이나 오류에 대한 질의응답이 많습니다. 즉 대부분 개인 PC와 소규모 서버 환경에서 시행착오를 겪고 있는 것으로 보입니다. 잘 알려진 서비스/기술로는 구글의 TensorFlow가 있고, 클라우드로는 IBM, Microsoft의 Azure Machine Learning , Amazon 등의 서비스가 있습니다. 그러나 독자적인 아이디어와 기술은 새로운 서비스들을 시장에 내 놓게 될 것이며 정부와 개별 기업들은 각자의 서비스를 제공하는 플랫폼들을 런칭할 것으로 보입니다. 그리고 궁극적으로는 머신러닝 기술과 Data를 통합적으로 제공하는 MLaaS (Machine Learning as a Service) 형태로 진화할 것으로 예상됩니다.

결론…

1959년, 아서 사무엘은 기계 학습을 “기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야“라고 정의하였습니다.(https://ko.wikipedia.org/wiki/기계_학습) 그 뒤로 세상에 알려진 많은 알고리즘을 지금은 열심히 따라하는 단계로 보이나 저변 확대와 폭발적인 기술의 발전 속도로 인해 곧 거대한 시장이 형성될 것입니다. 그 때부터는 아이디어가 기술을 따라가던 패턴이 바뀌고 아이디어를 구현하기 위한 기술들을 만들고 세상에 내 놓게 될 것입니다.

그 동안 경험하고 느낀 점들을 정리한 지극히 개인적인 주관임을 다시 한번 밝힙니다.