클러스터링 방법을 사용한 PGA 플레이어 유형 분류

 

선수를 분류하는 것은 팀 스포츠를 위한 비교적 직관적인 작업입니다. 농구에서는 전통적인 포인트와 슈팅 가드, 작은 파워 포워드와 센터가 있습니다. 축구에서는 골키퍼, 수비수, 미드 필더 및 포워드가 있습니다.

그러나 골프와 같은 개인 스포츠는 어떻습니까? 지난 몇 년 동안의 PGA 투어는 신흥 선수들이 이전보다 훨씬 더 운동성과 민첩성이 높아짐을 보았습니다. Bubba Watson, Rickie Fowler, Rory Mcilroy와 같은 스타들은 300+ 야드 드라이브를 치며 게임을 혁명적으로 변화 시켰습니다. 단거리 아이언 접근 방식을 사용하고 점수를 매기는 기회를 늘릴 수 있었습니다.

즉, 베테랑들은 어디에도 가지 않을 것이라고 말했습니다. Jim Furyk, Ernie Els 및 Jimmy Walker는 젊은 선수들을 따라 잡기 위해 정확한 경기와 기민한 코스 관리를 활용합니다. 이것은 분명히 대조되는 스타일을 가진 선수들로 구성된 경쟁자 투어를 만듭니다.

이러한 다양한 스타일을 정량적으로 파악할 수 있습니까? 페어웨이와 러프, 스크램블링, 퍼팅 등의 접근 방법 을 다루는 pgatour.com의 49가지 측정 항목을 사용하여 K-Means Clustering 과 Hierarchical Clustering의 두 가지 클러스터링 방법을 사용하여 2014 PGA Tour 선수를 분류했습니다.

K-Means 클러스터링

K-means 클러스터링은 비지도학습 알고리즘의 한 유형으로 , 레이블이 없는 데이터에 대한 정보를 추론하는 방법입니다 . K-means 클러스터링은 데이터를 K 부분으로 분리하여 K 영역 내의 차이가 최소화되도록 합니다. 이 경우 각 플레이어가 어떤 스타일인지에 대한 데이터를 실제로 표시하지 않고 PGA 투어 플레이어를 자신의 플레이 스타일을 나타내는 지표에 따라 그룹으로 분리 합니다. 핵심 고려 사항은 클러스터(K)의 수를 결정하는 것입니다. 일반적으로 이것은 그룹 내 합계 제곱 (WSS)을 클러스터 수로 플로팅하여 수행됩니다. 클러스터 수가 증가하면 WSS가 감소합니다. 세분화가 밀접하게 편직된 영역을 만드는 경우 더 많은 양을 줄이고 그렇지 않은 경우 적은 양을 줄입니다. 결과적으로, 클러스터의 수를 K + 1로 확장하면 WSS에 중요한 변화가 없도록 K를 선택합니다. 그래픽적으로, 이것은 우리 플롯의 기울기가 일반적으로 더 평평 해지는 경우입니다. 아래 도표를 보면 K = 4에서 발생하므로 PGA 투어 플레이어를 네 그룹으로 그룹화했습니다.

 

 

히트맵은 우리가 K-Means를 사용하여 클러스터링 한 4개 그룹의 특성에 대한 개요를 제공합니다. 빨간색은 평균값 이하를 나타내고 파란색은 평균값보다 높음을 나타냅니다. 이 값들을 살펴보면 다음과 같이 4개의 그룹을 본질적으로 설명 할 수 있습니다.

 

 

  1. 엘리트 그룹 – 이들은 완벽한 경기를 펼친 선수들입니다. 이 선수들 대부분은 엘리트 숏게임(퍼팅과 스크램블링 통계는 대부분 파란색이 그룹) 뿐만 아니라 탁월한 파 5의 성능(진한 빨강)와 드라이브 거리 (진한 파란색)로 보여지는 놀라운 파워를 가지고 있습니다. 당연히이 그룹은 Bubba Watson, Rory Mcilroy, Adam Scott 및 Dustin Johnson으로 구성됩니다.

  2. 평균 그룹 – 이들은 모든 통계 카테고리에서 평범하고 안정적인 선수입니다. 드라이브 정확도와 연속 페어웨이의 흐름을 제외하고 전체에 극한의 색상이 없습니다. 이것은 그룹 내 선수들의 일관성을 보여주는 증거입니다. 선수의 예로는 Brandt Snedeker, Bo Van Pelt, Graeme McDowell 및 Henrik Stenson이 있습니다.

  3. “그린 플레이 특화”그룹 – 이들은 주로 드라이브와 접근 능력이 좋지 않은 (주로 드라이브 및 접근 방식 측정 항목 중 빨간색) 이유로 투어에서 너무 잘 수행하지 않는 플레이어입니다. 다행히도, 그들은 그린을 중심으로 자신의 능력을 발휘하고, 스크램블링과 퍼팅 플레이를 모두 파란색으로 장식합니다. 저명한 선수는 Ian Poulter, Lee Westwood 및 Ernie Els 입니다.

  4. “그린에서 취약한”그룹 – 이들은 페어웨이에서 잘하지만 그린에서는 잘하지 못하는 선수들입니다. 그들은 페어웨이에서 약간 빨간색이지만, 퍼팅과 스크램블링 (퍼트 / 라운드, 스크램블링, 퍼트 5/10 피트)의 경우, 이 선수들은 열악한 경기를 펼칩니다. Louis Oosthuizen, Martin Laird 및 Davis Love III는 2014 년에 이 그룹에 속합니다.

계층적 클러스터링

계층적 클러스터링은 최상에서 데이터 집합을 분리하는 대신 상향식 방식을 사용합니다. 단일 데이터 포인트는 인접한 데이터 포인트와 병합되어 클러스터를 형성한 다음 모든 데이터가 하나의 클러스터로 병합될 때까지 가장 가까운 클러스터와 병합을 계속합니다. 이렇게 하면 서로 다른 그룹이 함께 그룹화하는 방법을 매핑하는 트리가 만들어집니다. “가장 가까운”클러스터를 결정하는 여러 가지 방법이 있습니다. “Complete” 방법은 각 클러스터의 구성 요소 사이의 먼 거리를 측정합니다. “Ward” 방법은 두 클러스터 병합하는 제곱합의 증가를 측정한다. “Mcquitty” 방법은 클러스터 사전 병합 클러스터의 평균, 다른 클러스터에 새 클러스터의 거리를 지정합니다. Ward 방법이 우리에게 가장 흥미롭고 해석 가능한 결과를 주었습니다. K-means 클러스터링을 통해 발견 된 4개의 그룹과 일관성을 유지하기 위해 계층적 클러스터링 트리의 3개의 최상위 계층을 검사하여 각 계층적 클러스터링 방법에 대해 4 개의 하위 그룹을 얻었습니다.

Ward 방법

Ward 방법은 플레이어의 균형 잡힌 분할을 유도합니다. 즉, 아래 히트 맵의 녹색 그룹은 여전히 ​​많은 “뛰어난”기능이 없는 플레이어로 구성된 “잔여”그룹입니다. 다른 세 그룹은 다음과 같이 설명 할 수 있습니다.

 

 

  1. 블랙 그룹은 강력한 스크램블링 측정을 통해, 짧고 정확하게 공을 드라이브 그린 주위에 하드한 게임 플레이어에 대해 설명합니다. Lee Westwood, Luke Donald 및 Ian Poulter 가이 파티션에 속합니다.

  2. 파란색 그룹은 티샷 평균 이하, 그리고 그린에서 미숙한 그룹입니다. 실적이 저조한 선수들로 구성되어 있습니다. 그들은 부족한 스크램블링 비율을 가지고 있으며, 특히 10 피트 이내에서 넣고 있습니다. 이것은 “그린에서 취약한”그룹과 유사합니다.

  3. 빨간색 그룹은 매우 강력한 득점 실력의 엘리트 선수가 포함되어 있습니다. 특히, 그들의 게임은 아이언 샷으로 홀에 아주 가깝게 보냅니다. Rory Mcilroy, Jason Day , Jordan Spieth 같은 최고 선수들이 여기에 속합니다.

그렇다면 이러한 모든 클러스터링 결과는 무엇을 말할 수 있습니까?

이러한 그룹의 크기는 클러스터링 방법에 따라 다르지만 일관되게 식별되는 세 그룹의 플레이어가있는 것으로 보입니다.

  1. 엘리트 스타 – 강력한 티샷과 뛰어난 쇼트 게임을 결합하여 게임의 최상위에 자리 잡은 젊은 선수들.

  2. 일관된 선수 – 볼을 멀리 치지는 않았지만 잘 조율된 숏게임은 여전히 잘하는 베테랑입니다.

  3. 숏게임 루키 – 티샷을 잘 치는 선수들이지만 그린을 잘 다루지 못해 2014년에 성적이 미진한 선수.

이러한 클러스터가 2015년 시즌의 끝에서 동일하게 유지되는지 여부는 흥미로울 것입니다. 타이거 우즈(Tiger Woods)는 2014년 부상으로 인해 분석에 포함되지 않았다는 사실도 흥미롭습니다. 이것은 연말에 대답해야 할 질문입니다.

**스크램블링은 GIR 에 실패한 경우에도, 파 이상의 성적을 거두는 능력입니다.우리가 보통 숏게임(어프로치)이라고 말할 때 퍼팅을 제외한 바로 그 샷을 얼마나 잘하느냐를 보여주는 지표입니다.우리나라에서 “리커버리”라고 하기도 하고 위기 관리 능력 이라고 하기도 하며 벙커세이브도 “스크램블링” 능력 가운데 하나 입니다.

출처 : http://databuckets.blogspot.kr/2015/05/classifying-types-of-players-on-pga.html