데이터 과학으로 답변할 수 있는 5가지 질문

머신러닝을 처음 접하는 초보자 혹은 머신러닝 비즈니스를 고민하는 사람에게도 매우 도움이 되는 내용이 있어 정리합니다.

원본은 Microsoft cloud Azure Machine Learning 안내 페이지 https://docs.microsoft.com/ko-kr/azure/machine-learning/machine-learning-data-science-for-beginners-the-5-questions-data-science-answers 에 있으며 모든 비디오와 이미지는 Microsoft 소유임을 밝혀둡니다.

데이터 과학으로 답변할 수 있는 5가지 질문

MS는 데이터 과학으로 답할 수 있는 질문은 의외로 아래 5가지 뿐이라고 한다.

  • 이것은 A인가요 B인가요?
  • 이것은 이상한가요?
  • 양 또는 개수는 얼마인가요?
  • 어떻게 구성되어 있나요?
  • 다음에는 어떻게 해야 하나요?

세부 사항들을 조금 더 살펴보면,

질문1. 이것은 A인가요 B인가요? >> 분류 알고리즘 사용

“5,000원 쿠폰과 25% 할인 중 어느 것이 고객을 더 끌어들일까요?” “이 타이어는 1000km를 더 갈 수 있을까요? 예? 아니오?” 등의 질문에 답할 수 있는 알고리즘들을 “클래스 분류(Classification Algorithms)”라고 합니다. 클래스 분류는 둘 중 하나일수도 있고, 수백 수천개 중 하나일 수도 있습니다.

질문2. 이것은 이상한가요? >> 변칙(이상징후, anomaly) 감지 알고리즘 사용

신용카드사는 이미 변칙 감지 방법론을 사용하고 있습니다. 경제 활동이나 인터넷 메시지 등 어떤 데이터를 모니터링 하다가 이상 징후가 발견되면 플래그를 발동합니다. 이러한 과정을 통해 어디서 문제점을 찾아야 하는지 알 수 있습니다.

질문3. 양 또는 개수는 얼마인가요? >> 회귀(Regression) 알고리즘 사용

다음 분기 매출을 예측하거나 점수, 기온 등을 예측하는데 사용됩니다.

질문4. 어떻게 구성되어 있나요? >> 클러스터링 알고리즘 (Clustering Algorithms) 사용

특정한 답이 없이 데이터의 구조를 이해하고 싶을 수 있습니다. “어떤 시청자들이 어떤 영화를 좋아하나요?” 혹은 “당신의 비즈니스는 어떤 유형입니까?” 등 데이터를 적절한 “그룹”으로 분류해주는 알고리즘입니다.

질문5. 이제 어떻게 해야 하나요? >> 강화 학습 알고리즘 (Reinforcement Learning Algorithms) 사용

일반적으로 강화 학습은 매 순간 작은 결정들을 끊임 없이 내려야 할 경우 사용합니다. “주택의 온도 제어 시스템이라면, 온도를 내려야 할까요?” “로봇 청소기라면 청소를 더 해야 할까요? 아니면 충전 스테이션으로 돌아가야 할까요? ” 등 사람의 지시 없이 매번 결정을 내리며 학습하여 더욱 강력해지는 알고리즘입니다.


그럼 이번에는 준비된 데이터를 한번 확인해 보도록 하죠.

이 비디오에서는 4가지의 데이터 기준에 대해 이야기를 하고 있습니다. (https://docs.microsoft.com/ko-kr/azure/machine-learning/machine-learning-data-science-for-beginners-is-your-data-ready-for-data-science)

기준1. 관련성 있는 데이터

좌측 데이터는 우유가격/야구팀의타율/혈중알콜농도를 가지고 있습니다. 전혀 연관성을 찾을 수 없어 활용 가치가 없는 경우입니다. 우측의 경우 몸무게/마가리타(술)양/혈중알콜농도 데이터입니다. 몸무게의 비율과 술의 양에 따라 혈중알콜농도를 예측해 볼 수 있습니다.

기준2. 연결된 데이터

한 눈에 보기에도 좌측 데이터는 누락(missing)된 값이 많아 정상적으로 사용하기 어렵습니다. 데이터가 활용 가치를 가지기 위해서는 누락된 값이 없거나 최소인 것이 좋습니다.

기준3. 정확한 데이터

데이터 자체에 오류가 있다면 아무리 훌륭한 알고리즘이라고 해도 원하는 결과를 얻기 어려운 것은 자명한 일입니다.

 

기준4. 충분한 데이터

기초적인 통계든 머신러닝이든 데이터의 양이 충분하지 않으면 원하는 결과를 도출하기 어렵습니다. 특히 머신러닝에서는 트레이닝 데이터와 검증 데이터를 구분하는 경우가 많기 때문에 더욱 더 데이터의 전체량은 매우 중요합니다.

 

적절한 질문이 유용한 답변을 유도할 수 있습니다.

“주식 가격이 어떻게 될까?” 라고 질문한다면 아마도 “변동될 것입니다” 라고 답할 수 있을 것입니다. 오히려 “다음주 월요일 내 주식 가격은 얼마일까?”와 같이 회귀 알고리즘을 염두해 두고 묻는 것이 나을 것입니다. 또는 “재무 관점에서 내 사업은 어떤 유형일까?” 라고 묻는다면, 클러스터링 알고리즘을 통해 적절한 분류 중 하나로 속하게 될 것입니다.

질문이 애매해서는 아무리 뛰어난 A.I.가 있더라도 원하는 답을 찾을 수 없습니다.

날카로운 질문 > 적절한 머신러닝 알고리즘 > 원하는 답변

 

데이터가 이왕 있으니, 이걸 어떻게 할까?… 하고 고민 중이신가요? 그렇다면 생각을 조금 바꿀 필요가 있습니다.
내 비즈니스에서 원하는 것이 무엇인지를 먼저 생각하고, 그 후에  어떤 데이터와 알고리즘이 필요한지를 생각하시는 것이 더욱 효율적입니다.