SAS 커스터머 인텔리전스 360(SAS Customer Intelligence 360): 블랙 박스 모델의 해석력 이해하기


지난 'SAS 커스터머 인텔리전스 360(SAS Customer Intelligence 360): 머신러닝의 블랙 박스 모델이란’ 블로그에서 머신러닝 모델은 다면적이고 계속 진화하는 주제라고 소개해드린 바 있는데요. 오늘은 머신러닝 모델의 해석력(Interpretability)에 대해 자세히 살펴보고자 합니다. 


머신러닝 모델은 놀라운 예측 능력을 제공하지만 매우 복잡하여 이해하기 쉽지 않습니다. 또한 머신러닝 모델은 예측한 결과에 대한 명확한 설명도 제공하지 않기 때문에 머신러닝을 실험하는 비즈니스들은 모델을 신뢰할 수 있는지, 그리고 모델을 통해 올바른 결정을 내릴 수 있는지 확인하고 싶어합니다. 


그렇다면 기업 마케팅 담당자와 소비자들은 머신러닝 해석력이 정말 필요할까요? 브랜드의 분석 수용 곡선에서 해석력이 필요할 때는 언제일까요?



머신러닝 모델의 해석력


해석력이란 분석가(Analyst)가 캠페인 담당자, 크리에이티브 디자이너, A/B 테스터 및 마케팅 기술전문가들에게 특정 결정이 내려진 이유를 설명할 수 있는 것을 의미합니다. 예를 들면 여정 전환 분석(Journey Conversion Analysis)의 관점에서 분석가는 알고리즘을 통해 전환 가능성이 높은 고객을 결정하고, 알고리즘으로 학습된 패턴과 규칙, 특징을 파악해 소비자의 결정을 설명하고, 결과에 이의를 제기하고 편견 없는 결정을 내릴 수 있도록 지원할 수 있습니다.




마케팅 담당자와 소비자들에게 머신러닝의 해석력이 정말 필요한가요?


마케팅 분석가는 정확도가 높은 추천 오퍼를 제공하고자 합니다. 또한 머신러닝 모델에 대한 이해를 통해 가장 적합한 알고리즘을 선택하고 싶어합니다. 최종 사용자 역시 머신러닝 모델이 왜 그러한 예측을 했고 그로 인해 자신이 어떠한 영향을 받게 될지 알고 싶어 하는데요. 


한편 소비자들은 공평하고 개인화된 오퍼를 받길 원합니다. 소비자는 인터넷 쇼핑을 하거나 광고를 클릭할 때 일정 수준의기대치가 있습니다. 때문에 부당하거나 불공평한 대우를 받는다면 경쟁업체로 넘어갈 수도 있죠. 


규제당국과 국회의원들은 공정하고 투명한 제도를 통해 소비자를 보호하는데요. 머신러닝 모델이 등장하면서 이로 인해 발생하는 결정에 대한 규제당국과 국회의원들의 우려는 점점 커지고 있습니다. 


앞서 언급한 모든 이해관계자들이 머신러닝 블랙 박스 모델을 통해 얻고자 하는 것은 공통적으로 비슷합니다. 바로 투명성(Transparent), 신뢰성(Trustworthy), 설명가능성(Explainable)인데요. 투명성은 시스템이 작동원리와 특정 예측을 제공하는 이유를 설명할 수 있어야 하는 것을 의미합니다. 신뢰성은 시스템이 지속적인 통제 없이 실생활에서 다양한 시나리오를 처리할 수 있어야 하며, 설명가능성은 시스템이 내부 작동방식, 학습 패턴 및 제공 결과에 대한 유용한 정보를 전달할 수 있어야 한다는 것을 뜻합니다. 


SAS는 디지털 마케팅 담당자가 분석 기술을 통해 효과적으로 일을 할 수 있도록 지원하고 있습니다. SAS 비주얼 데이터 마이닝 앤드 머신러닝(SAS Visual Data Mining and Machine Learning)을 활용한 통합 마케팅 솔루션 SAS 커스터머 인텔리전스 360(SAS Customer Intelligence 360)을 통해서라면 모델에 사용되는 데이터, 사용 모델, 모델 평가 및 활용 방법을 컨트롤할 수 있습니다.


▲SAS 커스터머 인텔리전스 360(SAS Customer Intelligence 360)과 SAS 비주얼 데이터 마이닝 앤드 머신러닝(SAS Visual Data Mining and Machine Learning) – 모델 스튜디오


분석 프로세스에서 해석력이 필요한 단계는 언제일까요? 모델이 매번 적용될 때마다 어떻게 예측을 하는지 꼭 이해할 필요는 없지만 해석의 정확성과 투명성의 중요성은 더욱 높아지고 있습니다. 따라서 어떤 것을 얻고자 하는지를 정확히 파악한 뒤 워크플로우 각 단계에 어떤 기술을 활용해야 할 지 알아야 합니다.


1단계(모델링 전): 머신러닝 모델을 구축하기 전 데이터셋을 이해하는 것은 매우 중요한데요. 이 과정에는 탐색 데이터 분석과 시각화 기법이 적용됩니다. 또한 주요 특징 요약, 한계점 파악, 데이터에서 연관된 특징 도출 등이 포함될 수 있습니다.

모델에 대한 전반적인 이해를 마쳤다면 그 다음 어떤 특징을 활용할 것인지 생각해야 하는데요. 만약 예측변수의 입출력 관계를 설명할 계획이라면 의미 있는 입력 값을 가지고 시작해야 합니다. 뛰어난 엔지니어링 기법은 머신러닝 모델의 정확성을 높일 수 있지만 이를 사용할 때 해석이 될 가능성도 있습니다. 


2단계(모델링 단계 과정): 일반적으로 화이트 박스 접근법은 평균 행동을 예측하는 데 초점이 맞춰져 있는데요. 이와 반대로 블랙 박스 접근법은 종종 모델링한 행동의 세밀한 디테일이나 제한적인 측면에 대해 보다 정확한 예측을 내리기도 합니다. 


어떤 의미에서 화이트 박스 모델은 데이터의 적합성을 계산하는 동안 분석가가 정확한 스토리를 추출할 수 있는 방법을 제시합니다. 블랙 박스 모델은 더욱 예리한 모델을 트레이닝할 수 있지만 분석가들은 대략적인 스토리만 표현할 수 있도록 제한됩니다.


화이트 박스 모델에 대한 전통적인 툴에는 의사결정트리(Decision Tree)와 회귀(Regression) 알고리즘이 있는데요. 이러한 툴은 예측변수가 적을 때 이해하기 쉽습니다. 해석 가능한 변환을 이용하고 작동 방식에 대한 전체적인 직관을 제공해 모델 어느 곳에서 어떤 일이 일어나는지 이해하는데 도움을 주기 때문이죠. 반면, 수백 개의 특징을 가진 매우 깊고 큰 의사결정 트리(decision tree)를 구축한다면 디지털 마케팅을 실행할 때 상황이 빠르게 복잡해 질 수 있습니다.


블랙 박스 모델로는 심층 신경망(Deep Neural Network)포리스트(Forest) 및 그래디언트 부스팅(Gradient Boosting)을 고려할 수 있는데요. 블랙 박스 모델은 무수히 많은 예측변수를 제공하고 복잡한 변환을 생성하며 훈련에서 제한적인 패턴을 감지함으로써 종합적인 해석을 까다롭게 만듭니다. 일반적으로 블랙 박스 모델 내부에서 무슨 일이 일어나고 있는지 시각화하고 이해하는 것은 어려운데요. 심지어 목표 관객과의 커뮤니케이션도 더욱 어려워집니다. 하지만 그에 반해 예측 정확도는 훨씬 개선될 수 있죠.  


3단계(모델링 후): 모델 예측에서 해석력은 입력 특징과 출력 예측 간의 관계를 파악하는데 도움을 주는데요. 이 단계에서 투명성을 더하면 모델에 가장 중요한 특징이 무엇인지, 이러한 특징이 예측에 어떤 영향을 미치는지, 또 모델이 일부 특징에 얼마나 민감한지 등을 이해하는데 도움이 될 수 있습니다.


다음 블로그에서는 이러한 해석을 바탕으로 SAS 커스터머 인텔리전스 360(SAS Customer Intelligence 360)과 SAS 바이야(SAS Viya) 내의 해석 기법과 프록시 방법(Proxy methods), 그리고 모델링 후의 진단법에 대한 내용을 소개해드리겠습니다!




저자

수닐 그로버(Suneel Grover) l SAS 자문 솔루션 아키텍트(Advisory Solutions Architect, SAS)


편집

박종필 수석 l 코리아 고객 인텔리전스 담당