자동화된 머신러닝 – 데이터과학자의 생산성을 높여주는 패러다임 @ Airbnb

원문 : https://medium.com/airbnb-engineering/automated-machine-learning-a-paradigm-shift-that-accelerates-data-scientist-productivity-airbnb-f1f8a10d61f8

Airbnb에서는 데이터 과학 작업의 플로우를 향상시킬 수있는 방법을 항상 모색 중입니다. 상당한 양의 데이터 과학 프로젝트는 머신러닝을 필요로하며,이 워크플로우의 많은 부분이 반복적입니다. 이러한 반복 작업에는 다음이 포함되지만 이에 국한되지는 않습니다.

탐색적 데이터 분석 : 모델링을 시작하기 전에 데이터를 시각화하는 것이 머신러닝의 중요한 단계입니다. 요약 통계를 계산할 뿐만 아니라 예상되는 대상 변수에 대해 모든 변수를 플로팅하는 것과 같은 작업을 자동화하면 많은 시간을 절약 할 수 있습니다.

피쳐 변환 (Feature Transformations) : 범주형 변수를 인코딩하고, 누락된 값을 입력하고, 시퀀스 및 텍스트를 인코딩하는 방법에는 여러 가지가 있습니다. 이러한 피쳐 변환 중 대부분이 많은 문제에 안정적으로 적용될 수있는 정규식입니다.

알고리즘 선택 및 하이퍼파라미터 튜닝 : 선택할 수 있는 현란한 알고리즘과 튜닝 할 수있는 관련 하이퍼파라미터가 있습니다. 이러한 작업은 자동화에 매우 적합합니다.

모델 진단 : Learning curve, partial dependence plot , feature importances, ROC 및 기타 진단은 자동으로 생성하는 데 매우 유용합니다.

자동 기계 학습 (AML) 입력

위에 요약된 작업은 물론 머신러닝 워크플로우의 일부인 다른 작업을 자동화하는 도구를 만드는 커뮤니티가 점차 커지고 있습니다. 이 아이디어를 캡슐화하는 패러다임은 자동화된 머신러닝이라고도 하며, AML이라고 약칭합니다.

보편적으로 동의한 AML의 범위는 없지만, 연례 ICML 회의에서 일상적으로 AML 워크샵을 조직하는 사람들은 위에서 정의한 모든 반복적인 작업을 자동화하는 것을 포함하여 웹사이트에서 합리적인 범위를 정의합니다.

그러나 AML의 범위는 야심적이지만 실제로 효과가 있을까요?  대답은 사용 방법에 따라 다릅니다. 대부분의 머신러닝 문제는 도메인 지식과 인간의 판단이 올바르게 설정되어야하기 때문에 데이터 과학자를 AML 프레임워크로 대체하는 것은 어렵다는 것이 우리의 견해입니다.

또한 AML 도구가 표 형식의 데이터 집합과 관련된 회귀(regression) 및 분류(classification) 문제에 가장 유용하지만, 이 분야의 상태가 빠르게 향상되고 있습니다. 요약하면 특정 사례에서 AML은 종종 데이터 과학자의 생산성을 대폭 증가시킬 수 있다고 믿습니다 .

Airbnb는 다음과 같은 방법으로 AML을 활용했습니다.

벤치마킹

  • 챌린저 모델에 대한 편견없는 발표 : AML은 당신의 기존 모델과 동일한 훈련 세트를 사용하여 많은 챌린저 모델을 신속하게 제시할 수 있습니다. 이는 데이터 과학자가 최고의 모델 군을 선택하는 데 도움이 될 수 있습니다.

진단 및 탐사

  • 타겟 누출 감지 : AML은 후보 모델을 자동화된 방식으로 매우 빠르게 생성하기 때문에 모델링 수명주기 이전에 데이터 누출을 감지할 수 있습니다 .

  • 진단 : 앞서 언급했듯이 학습 곡선, 부분 의존도, 피쳐 수입 등의 표준 진단을 자동으로 생성 할 수 있습니다.

오토메이션

  • 자동화된 머신러닝 프레임워크를 사용하여 탐색 데이터의 분석, 데이터 사전 처리, 하이퍼파라미터 튜닝, 모델 선택 및 모델을 생산에 투입하는 작업을 어느 정도 자동화할 수 있습니다.

자동화 된 기계 학습 도구

AML 패러다임을 다루는 다양한 상용 및 오픈소스 도구가 있습니다. 우리는 다음과 같은 도구로 실험했습니다

사례 연구 : 고객 평생 가치 모델을 사용한 경쟁 벤치마크

Airbnb에서는 머신러닝을 사용하여 고객 및 호스트용 고객 평생 가치 모델(LTV) 을 구축 합니다. 이러한 모델을 통해 의사 결정 및 커뮤니티와의 상호 작용을 매우 세분화된 수준 (사용자가 원하는 경우의 수준까지)으로 개선 할 수 있습니다.

LTV 모델은 고객을위한 표준 회귀 문제로 설정됩니다. 여기서 대상 변수는 각 고객의 시간별 지출입니다. 이 모델의 기능에는 웹 및 모바일 응용 프로그램의 인구 통계, 위치 및 활동 정보가 포함됩니다. 이 모델에는 공급과 수요 탄력성, 예상 비용 및 기타 변수를 설명하는 많은 변화되는 부분이 있습니다.

모델을 작성하는 과정에서 데이터 과학자는 자신의 알고리즘 선택과 관련하여 객관적인 자세를 유지하는 것이 중요합니다. 예를 들어, 복잡한 모델은 단순한 모델에 비해 점진적으로 작은 이점을 제공 할 수 있으며 이러한 상충 관계는 의도적으로 만들어 져야합니다. 예를 들어, LTV 모델을 구축하는 과정에서 우리가 좋아하는 알고리즘인 eXtreme gradient boosted trees(XGBoost)에 대해 편견이 바뀌었습니다.  :

  • 이 알고리즘은 밀접하게 관련된 문제에서 잘 수행되었습니다.

  • 모델 개발 중에 우리는 ad-hoc cross validation을했고, XGBoost가 최선을 다하는 것처럼 보였습니다.

  • 우리는 이 모델을 만드는 데 제한된 시간을 보냈으며, 대부분의 시간을 기능 엔지니어링, 데이터 정리 및 프로덕션 시스템에 붙이는 데 보냈습니다. 엄격한 알고리즘 선택과 튜닝을 위한 시간이 거의 없었습니다.

우리는 편견을 인식하면서, AML 플랫폼을 통해 원시 교육 데이터를 공급하는 동안 전수 검사를 수행하고 모델의 오류를 벤치 마크했습니다.

이러한 벤치 마크는 아래 차트에 나와 있습니다. 이 차트는 여러 모델의 RMSE (Root Mean Squared Error) 분포를 시간이 경과하지 않은 교차 ​​검증 폴드에 걸쳐 표시 합니다 . y 축은 알고리즘과 기능 엔지니어링 단계가 결합 된 고유한 “블루프린트”에 해당합니다. 이 블루프린트 각각의 세부 사항에 들어가는 것은 불가능하지만, 아래 차트는 현대 AML 시스템이 수행 할 수 있는 폭 넓은 탐험의 느낌을 보여줍니다.

 

AML을 사용하여, 우리는 신속하게 다른 관점을 갖게 되었습니다. 선형 모델(linear model)은이 문제에 대해 매우 경쟁력이 있습니다. AML 플랫폼은 수 많은 대체 기능 엔지니어링 단계를 테스트했으며 수동으로 탐색할 시간이 없었던 보다 엄격한 하이퍼파라미터 튜닝을 수행 한 것으로 밝혀졌습니다. 또한 이러한 결과를 통해 알고리즘을 변경하고 모델 오류를 5% 이상 줄일 수 있었고 이는 물질적 영향으로 이어졌습니다.

결론

AML은 모델 튜닝보다 나은 진단을 통해 모델 정확도를 향상시킬 뿐 아니라 빠른 데이터 탐색을 위한 강력한 기술 세트입니다. 위의 사례 연구는 모델 정확도를 향상시키는 AML의 기능을 강조하지만, AML에 대한 다른 이점도 실현했습니다. AML에 부합하는 문제가 있는 경우, 우리는 이 패러다임의 사용을 이미 훌륭한 모델 관리로 간주합니다. 이는 이미 훈련 데이터를 작성한 후에도 시도해 보는 것이 좋습니다. AML은 결과를 향상시킬 수 있다고 보장하지는 않지만 능숙하게 사용하면 그렇게 될 수 있습니다.