RuleFit – 정확성과 설명성을 모두 만족하는 모델

모델링의 투명성과 설명 가능성을 향한 추진은 막을 수 없는 것처럼 보입니다. 지금까지는 해석의 정확성을 희생 시켰습니다. 그러나 RuleFit으로 알려진 앙상블 방법은 설명력과 정확성을 모두 충족하거나 Random Forrest 이상의 답변일 수 있습니다.

모기지 금융이나 보험과 같이 규제가 엄격한 산업에서 모델을 개발할 때 일반화가 잘되는 가장 정확한 모델을 구축하는 것이 중요합니다. 그러나 다른 한편으로는 이때문에 고도로 규제된 산업에 속해 있는 경우 ‘투명성’이나 정확한 ‘설명 능력’이라고 불리는 것에 제약을 받게됩니다. 고객이 어떤 이자율이나 가격을 받는 이유에 대한 명확한 설명을 제공하는 알고리즘을 사용해야 한다는 요구입니다. 의학 연구에도 동일하게 적용됩니다. 본질적으로 이러한 산업은 GLM이나 간단한 의사 결정 나무에만 국한되어 있습니다.

실제로 설명력과 투명성에 대한 이러한 압력은 대중이 AI가 어떻게 자신의 삶에 영향을 미치는지에 대해 점점 더 많이 인식되고 있습니다. 그리고 우리 모두는 깊은 신경망이 ‘블랙 박스’에서 처럼 ‘블랙’에 새로운 의미를 부여한다는 것을 압니다.

Data Robot을 통한 정확도 상위 11위의 알고리즘입니다.

  • XG Boost 3.50

  • RuleFit 3.68

  • RandomForest 5.06

  • GLM 5.11

  • SVM 5.44

  • ExtraTrees 6.39

  • GBM 6.40

  • KNN 8.87

  • Vowpal Wabit 8.93

  • Tensorflow 9.71

  • Decision Tree 10.15

두번째 랭킹에 RuleFit이 있습니다. RF보다도 상위입니다. Bagging, Boosting, Stacking을 포함한 다양한 Ensemble 루틴에 우리는 익숙합니다 . Ensemble에 수십 또는 수백개의 의사 결정 트리(또는 여러 알고리즘)가 있는 것은 정확성을 높이는 것으로 잘 알려져 있습니다. 그것은 설명의 가능성과 정반대의 역할을합니다. 각 모델의 투표 방식을 떼어 내야 할뿐만 아니라 수십 또는 수백 개의 유사 변수가 될 수있는 상호 상관 관계를 이해할 방법이 없습니다.

RuleFit – 설명능력과 정확성의 완벽한 조화
설명력과 정확성의 완벽한 조화를 약속하는 RuleFit에 대해 더 깊이 생각해 보겠습니다.
RuleFit은 분류 또는 회귀를 위해 R 또는 Python을 사용하여 액세스할 수 있습니다. Random Forrest는 LASSO(최소 절대 축소 및 연산자 선택)를 충족시킵니다. 통합된 2단계 방법입니다. 먼저 eule generation phase(Randim Forrest)와 rule pruning phase(LASSO) 입니다.

 

 

Tags:

RuleFit

Random Forrest

LASSO