머신러닝 적용을 위한 간단한 3단계 방법론

머신러닝은 일반적인 규칙이 도메인의 특정 관측 데이터로부터 학습되는 유도의 문제입니다.

특정 문제에 대해 데이터로부터 가장 잘 학습하기 위해 어떤 구현이나 알고리즘을 사용 하는지를 알기는 불가능합니다. 문제가 무엇인지 모르는 경우에는 머신러닝이 필요하지 않습니다.

그렇다면 주어진 문제에 대해 어떤 알고리즘을 사용해야 하는가의 문제는 시행 착오나 최상의 표현, 학습 알고리즘 및 알고리즘 매개 변수를 찾는 문제입니다.

가장 해석하기 쉽고 유연한 모델로 시작하라.

덜 불투명한 단순한 모델을 점검하라.

보다 복잡한 모델의 성능에 근접하는 가장 간단한 모델을 사용하라.

위의 세개의 규칙을 일회성 모델을 찾는데 적용하하기 위한 세부 사항은 다음과 같습니다.

다음과 같은 복잡한 모델들을 조사하고 성능의 상한을 설정하라.

서포트 벡터 머신 (Support Vector Machine)

그라디언트 부스팅 (Gradient Boosting)

랜덤 포레스트 (Random Forrest)

Bagged 의사결정트리 (Bagged Decision Tree)

신경망 (Neural Network)

다음과 같이 보다 해석하기 쉬운 모델들을 조사하라.

일반화 선형 모델 (Generalized Linear Model, GLZ)

LASSO 및 Elastic-Net 정규화 선형 모델

Multivariate Adaptive Regression Spline, MARS

k- 최근접이웃 알고리즘 (k-Nearest Neighbor)

나이브 베이 즈 (Naive Bayes)

1항의 정확도에 가장 근접한 모델을 2항 중에서 선택하라.