머신러닝 인터뷰 FAQ

 

1) 귀납적(inductive) 머신러닝과 연역적(deductive) 머신러닝의 차이점은 무엇입니까?

귀납적 머신러닝에서 모델은 관측된 사례의 집합에서 예제로 학습하여 일반화된 결론을 도출하지만 연역적 학습에서는 모델이 먼저 결론을 도출한 다음 결론을 도출합니다. 예를 들어 화재로 인해 화상을 입을 수 있다고 설명해야하는 경우를 예로 들어 봅니다. 아이들에게 이것을 설명 할 수 있는 두 가지 방법이 있습니다. 화재로 인한 다양한 사고나 화상에 대한 이미지를 “위험한”것으로 표시하여 교육시킬 수 있습니다. 이 경우 아이들은 예를 통해 배우고 불을 피우지 않습니다. 이것은 귀납적 기계 학습이라고합니다. 다른 방법은 아이가 불을 가지고 놀고 무슨 일이 일어날 지 기다리는 것입니다. 아이가 화상을 입으면 불로 놀지 않는 것을 배우고 화재가 발생할 때 배우게 되고 아이들은 가까이 가지 않을 것입니다. 이를 연역적 학습이라고합니다.

2) 분류 문제에 대해 선택할 기계 학습 알고리즘을 어떻게 알 수 있습니까?

머신러닝 알고리즘을 결정할 때 정확성이 가장 중요한 고려 사항이라면 가장 좋은 방법은 서로 다른 두가지 파라미터를 테스트하고 교차 유효성 검사를 통해 최상의 알고리즘을 선택하는 것입니다. 엄밀히 말하자면 분류 문제에 대한 머신러닝 알고리즘을 선택하는 것은 훈련 세트의 크기에 따라 다릅니다. 훈련 세트가 작으면 Naive Bayes와 같은 낮은 분산/높은 바이어스 분류기를 사용하는 것이 k- 최근접 알고리즘과 같은 높은 분산/낮은 바이어스 분류기보다 유리하므로 모델을 더 잘 구현할 수 있습니다. 높은 분산/낮은 바이어스 분류기는 트레이닝 세트가 커질 때 우세한 경향이 있습니다.

3) Naive Bayes 머신러닝 알고리즘이 왜 단순합니까?

Naive Bayes 머신러닝 알고리즘은 단순함으로 간주되기 때문에 알고리즘이 가정한 사실상 실제 데이터에서 찾을 수 없습니다. 조건부 확률은 구성 요소의 개별 확률의 순수한 곱으로 계산됩니다. 이것은 알고리즘이 클래스 변수가 주어지면 클래스의 특정 기능의 존재 또는 부존재가 다른 기능(기능의 절대 독립성)의 유무와 관련이 없다고 가정합니다. 예를 들어, 과일은 길이가 약 5인치이며 길고 노란색인 경우 바나나로 간주 될 수 있습니다. 그러나 이러한 기능들이 서로 의존하거나 다른 기능의 존재를 기반으로하는 경우, 단순한 베이즈 분류자는 이러한 모든 특성이 이 과일이 바나나라는 확률에 독립적으로 기여한다고 가정합니다.

4) 일반인에게 기계 학습을 어떻게 설명 할 것입니까?

머신러닝은 성과 개선의 목적으로 과제에 대한 이전 경험에 근거한 의사 결정에 관한 것입니다. 일반인에게 머신러닝을 설명하기 위해 주어질 수 있는 여러 예제가 있습니다.

  • 자신의 손바닥을 찌르는 호기심 많은 아이를 상상해 보라.

  • 당신은 주변에서 뚱뚱한 사람들이 수시로 심장병에 걸리는 것을 관찰했다 그래서 당신은 가슴 질병으로 고통 받을지도 모른다는 걱정에 마르게 유지하는 것을 시도 할 것이다. 많은 양의 데이터를 관찰하고 일반적인 분류 규칙을 제안하여 결정을 내린다.

  • 당신은 블랙잭을 플레이하고 있는 카드의 순서에 따라 명중 여부를 결정한다. 이 경우 이전 정보를 바탕으로 어떤 일이 발생하는지 살펴 봄으로써 신속하게 결정을 내릴 수 있다.

5) 차원을 줄이는 몇 가지 중요한 방법을 나열하십시오.

  • 기능을 기능 공학과 결합하십시오.

  • ICA 나 PCA와 같은 알고리즘적으로 차원의 감소를 사용하십시오.

  • 차원 감소를 위해 공선(collinear) 특징을 제거하십시오.

6) 변수의 수 (p)가 관측 수 (n)보다 큰 데이터 세트가 제공됩니다 (p> n). 사용하는 가장 좋은 기법은 무엇이며 그 이유는 무엇입니까?

변수의 수가 관측수보다 많으면 높은 차원의 데이터 집합을 나타냅니다. 이러한 경우 고유한 최소 제곱 계수 추정(square coefficient estimate)을 계산할 수 없습니다. LARS, Lasso 또는 Ridge와 같은 처벌 회귀 분석(Penalized regression) 방법은 이러한 상황에서 계수를 축소시켜 분산을 줄이는 경향이 있으므로 잘 작동하는 것처럼 보입니다. 최소 자승 추정치(least square estimates)가 더 높은 분산을 가질 때마다 릿지 회귀 기법이 가장 잘 작동하는 것처럼 보입니다.

 7) “이것을 구입한 사람들은 또한 이것도 구입했습니다 …” Amazon에서의 권장 사항은 어떤 머신러닝 알고리즘의 결과입니까?

추천 시스템은 일반적으로 사용자에게 제품을 추천하기 위한 사용자 동작을 고려한 협업 필터링(collaborative filtering) 머신러닝 알고리즘을 구현합니다. 협업 필터링 머신러닝 알고리즘은 평점, 리뷰, 거래 내역, 검색 기록, 선택 및 구매 정보를 통해 사용자 및 제품의 행동을 이용합니다.

8) 차원 감소에 사용되는 일부 특징 추출 기법에는 무엇이 있습니까?

  • Independent Component Analysis (ICA, 독립 성분 분석)

  • Principal Component Analysis (PCA, 주성분 분석)

  • Kernel Based Principal Component Analysis (KPCA, 커널 기반 주성분 분석)

9) 분류 머신러닝 알고리즘을 사용할 수 있는 몇 가지 사례를 나열하십시오.

  • 자연어 처리 (가장 좋은 예는 음성 언어 이해입니다.)

  • 시장 세분화

  • 텍스트 분류 (스팸 필터링)

  • 생물 정보학 (기능에 따라 단백질 분류)

  • 사기 탐지

  • 얼굴 인식

10) 정규화(regularization)는 어떤 종류의 문제를 해결합니까?

정규화는 가중치 벡터 w의 L1 (LASSO) 또는 L2 (Ridge) 놈(norm)들을 추가하여 손실 함수(loss function)에 불이익을 줌으로써 과적합(overfitting) 문제를 해결하는 데 사용됩니다.

11) 교육, 검증 및 테스트 세트에 얼마나 많은 데이터를 할당합니까?

이 질문에 대한 답변은 없지만 교육, 검증 및 테스트 세트에 데이터를 할당 할 때는 균형 / 균형이 필요합니다.

트레이닝을 너무 작게 설정하면 실제 모델 매개 변수의 분산이 커질 수 있습니다. 또한 테스트 세트가 너무 작 으면 모델 성능에 대한 신뢰할 수없는 추정이 발생합니다. 따라야 할 일반적인 최선의 규칙은 80 : 20의 train / test를 사용하는 것입니다. 이 후에 훈련 세트를 검증 세트로 더 분할 할 수 있습니다.

12) 모델 정확도 또는 모델 성능 중 어느 것을 선택 하시겠습니까?

모델 정확도는 모델 성능의 하위 집합 일 뿐이지만 모델 성능의 전부는 아닙니다. 이 질문은 모델 정확도와 모델 성능 사이의 완벽한 균형을 얼마나 잘 잡을 수 있는지에 대한 지식을 테스트하도록 요청됩니다.

13) 분류 문제에 대한 모델 정확도를 평가하는 가장 빈번한 측정 기준은 무엇입니까?

PCC (Percent Correct Classification)는 작성한 오류의 종류와 관계없이 전체 정확도를 측정하며 모든 오류는 동일한 가중치로 간주됩니다.

14) 회귀에 대한 분류는 언제 사용합니까?

분류는 회귀 분석 기술이 응답을 예측하는 동안 그룹 구성원을 식별하는 것입니다. 두 기술 모두 예측과 관련이 있으며 분류에서는 클래스에 속하는 것으로 예측하고 회귀는 연속 집합의 값을 예측합니다. 모델의 결과가 데이터 세트의 데이터 요소의 소속을 특정하게 명시적 카테고리로 반환해야하는 경우 분류 기법이 회귀보다 선호됩니다. 예를 들어, 이름이 남성 또는 여성인지 여부를 알아내는 대신 남성 또는 여성 이름과 얼마나 상관 관계가 있는지 찾아야합니다.

15)  맨해튼 거리가 kNN 기계 학습 알고리즘에서 가장 가까운 이웃 간의 거리를 계산하는 데 사용되지 않는 이유는 무엇입니까?

맨하탄 거리는 치수에 제한이 있으며 수직 또는 수평으로 거리를 계산합니다. 유클리드 거리는 가장 가까운 이웃 사이의 거리를 계산하기 위해 kNN에서 더 좋은 옵션입니다. 데이터 포인트가 차원 제한없이 공간에서 나타낼 수 있기 때문입니다.

출처 : https://www.dezyre.com/article/top-machine-learning-interview-questions-and-answers-for-2017/357