Random Forest – Supervised classification machine learning algorithm

 

Random Forest 는 데이터의 무작위 서브셋으로 결정 트리 묶음을 만들기 위해 bagging 접근법을 통해 작동하는 머신러닝 알고리즘입니다. 이것은 거의 모든 예측 작업을 해결하는 가장 효과적인 알고리즘 중 하나이며, 분류와 회귀 문제 모두에 사용될 수 있습니다. 이는 각 트리가 Forest의 모든 트리에 대해 동일한 분포로 독립적으로 샘플링된 임의의 벡터 값에 의존하는 트리 예측자의 조합입니다.

Random Forest 알고리즘에 대한 의사 코드는 두 단계로 나눌 수 있습니다. 첫째, ‘n’개의 임의의 나무(Tree)가 만들어지며, 이것은 임의의 숲(Random Forest)을 형성합니다. 두 번째 단계에서는 모든 의사 결정 트리의 동일한 테스트 피처에 대한 결과가 결합됩니다. 그런 다음 최종 예측은 각 의사 결정 트리의 결과를 평가하거나 의사 결정 트리에서 가장 많이 나타나는 예측으로 진행됩니다.

Random Forest 머신러닝 알고리즘은 일관성없는 데이터가 있어도 사용하기 쉽고 정확성을 유지합니다. 또한 어떤 변수가 분류에 중요한지에 대한 추측을 제공합니다. 일반화 오차에 대한 내부 편 추정치를 생성하면서 대규모 데이터베이스에서 효율적으로 실행됩니다. 또한 클래스 불균형 데이터 집합의 오류 균형을 조정하는 방법을 제공하지만 이론적으로는 분석이 어렵고 많은 수의 트리가 형성되어 실시간 시스템을 처리하면서 예측 속도가 느려질 수도 있습니다. 또 다른 단점이 있습니다. 즉, 학습 데이터의 응답값 범위를 벗어나 예측하지 못합니다.

무작위 알고리즘은 특히 데이터 작성자가 입력 준비가 필요없고 스케일링이나 변형없이 수치 데이터와 범주적 기능을 처리 할 수 ​​있으므로 데이터 준비 시간을 절약하는 데 도움이됩니다. Random Forest는 일반적으로 R 패키지, Python으로 구협합니다. 의학, 주식 시장, 전자 상거래 및 은행 부문과 같은 다양한 응용 분야에서 사용됩니다.

원문
http://www.techleer.com/…/107-random-forest-supervised-cla…/

Random Forest 알고리즘의 작동 원리 유튜브 영상