머신러닝을 이용한 특허 분석 – Clustering, Classification, Spatial Concept Map

특허 분석과 관련된 가장 분명한 과제 중 하나는 문서를 구성하고 우선 순위를 매기는 머신러닝 방법을 사용하는 것입니다. 이 방법들이 많은 산업 분야에서 채택되어 사용되고 있지만, 특허 정보 공간에서의 채택은 드뭅니다. 특허 문서 내에서 사용되는 언어의 특성과 이러한 방법이 내재된 모호성을 어떻게 처리 할 수 ​​있는지, 시간이 많이 걸리는 검토 작업을 지원는 도구를 찾는 지금까지의 실무자 중에는 완전 자동화가 아님에도 머신러닝 방법에 반대하는 사람들이 있습니다. 이러한 방법의 가치에 대한 개인의 관점에 관계없이, 상당한 노력에 대한 댓가가 그들에게 지불되고 있습니다. 모든 특허 실무자들이 이러한 방법이 어떻게 작동하는지, 그리고 어떻게 이들이 특허에 적용되는지에 대한 기본적인 이해를 얻는 것이 가장 좋습니다. 이 게시물은 머신러닝 방법에 대한 배경 지식과 클러스터링, 분류 및 공간 개념 맵 작업에 어떻게 적용되는지 설명합니다. 특허 분석을 위한 머신러닝 방법 첫번째 게시글이 될 것입니다. 이 시리즈의 추가 게시물은 각 작업에 개별적으로 초점을 맞추고 특허 문서 분석에 적용하는 방법에 대한 실질적인 팁을 제공합니다.

대중적으로 클러스터링(군집화)와 분류라는 용어는 종종 같은 의미로 사용되지만 실제로는 서로 완전히 다릅니다. 클러스터링은 일반적으로 각 구성원 간의 유사성 비교를 기반으로 문서 수집을 구성하는 감독되지 않은 방법(비지도학습)과 관련됩니다. 초기에 고정된 수의 클러스터가 식별되면 임계값 유사성 구성 요소를 충족하는 문서 모음이 함께 그룹화됩니다. 이상적으로, 클러스터 내의 문서는 서로 유사해야하지만 다른 클러스터의 문서와는 다른 것이 좋습니다.

반면에 분류(Classification)는 일반적으로 “학습 집합”을 사용하여 범주의 문서 주요 특성을 식별하는 감독된 머시러닝 방법(지도학습)으로 수행됩니다 . “학습 집합”은 분석가가 생성한 각 하위 범주별로 하나씩 작은 하위 집합으로 각 클래스에 어떤 문서가 나타나야하는지 결정합니다. 새 문서는 학습된 컬렉션과 비교되고 이미 범주에 할당된 문서와의 유사성을 기반으로 클래스에 지정됩니다.

공간 개념 매핑(Spatial Concept Mapping)은 클러스터링이나 분류와 관련이 있습니다. 일반적으로 이러한 방법 중 하나에서 시작하지만 추가 범주로 생성된 범주간의 상대 유사성을 작업에 추가하기 때문입니다. 관련 도구는 문서 클러스터 또는 클래스를 가져와서 문서나 클러스터가 전체 모음에 대해 서로 유사하다는 점을 고려하여 2차원 공간에 정렬합니다. 공통 요소를 공유하는 문서는 공간적으로 더 가깝게 배치되지만, 유사성이 낮은 문서는 더 멀리 배치됩니다.

이제는 머신러닝 방법과 관련된 작업이 확인 되었으므로 이를 수행하는데 사용되는 알고리즘을 살펴 보겠습니다. 알고리즘에 대한 이해는 분석가가 사용하기로 결정한 도구를 이해하고 평가하는 데 도움이됩니다.

클러스터링에 관해서는 비지도학습 과제로 특허 분석 도구에서 가장 자주 사용되는 두가지 알고리즘은 k-means와 force directed placement입니다.

  • K- 평균 (K-means) : n개의 관측을 k개의 클러스터로 분할하는 것을 목표로 하는 클러스터 분석 방법. 각 관측치가 가장 가까운 평균을 갖는 클러스터에 속하며 클러스터의 프로토타입 역할을합니다. 각각의 관측치가 d차원의 실수 벡터인 관측 세트(x 1 , x 2 , …, x n )가 주어지면 k-means 클러스터링은 n개의 관측치를 k개의 세트 (k ≤ n)로 분할하는 것을 목표로 합니다. 클러스터 내 제곱합(WCSS)을 최소화하기 위해 S1 , S2 , …, Sk }를 생성합니다.

  • Force Directed Placement : 가장 기본적인 레벨에서의 알고리즘은 유사한 객체를 서로 가깝게 배치하고 서로 다른 객체를 멀리 배치하려고 시도합니다. 이 과정은 ‘시뮬레이트된 어닐링(simulated annealing)’과 유사한 기술을 통해 솔루션 공간 주위로 물체를 무작위로 이동시킴으로써 이루어집니다. 노드 이동에 대한 기준은 에너지의 최소화입니다.

두가지 방법은 비지도학습이므로 클러스터링이라고 하지만 문서 분류에 대한 접근 방식은 매우 다릅니다. K-means는 고정된 수의 클러스터를 생성하고 새로운 문서를 해당 클러스터의 다른 문서와 가장 유사한 클러스터로 이동시킵니다. Force Directed Placement는 그 자체로 클러스터를 생성하지는 않지만 추가적인 간섭이 컬렉션의 긴장감을 증가시키는 경우 “로컬”에너지 최소값을 찾습니다.

분류에 관해서는 지도학습 과제로 자주 사용되는 두개의 알고리즘으로는 인공 신경망(ANN)과 SVM (Support Vector Machine)이 있습니다.

  • 인공 신경망 – 컴퓨터 과학과 관련 분야에서 인공 신경망은 머신러닝에 패턴 인식이 가능한 동물 중추신경계(특히 뇌)에서 영감을 얻은 모델 입니다. 대개 네트워크를 통해 정보를 공급함으로써 입력값을 계산할 수있는 상호 연결된 “뉴런”의 시스템으로 제시됩니다.

  • Support Vector Machine – 분류와 회귀 분석에 사용되는 데이터를 분석하고 패턴을 인식하는 지도학습 알고리즘. 기본 SVM은 일련의 입력 데이터를 가져와서 각 주어진 입력에 대해 가능한 두개의 클래스 중 어느 것이 출력을 형성하는지 예측하여 비확률 이진 선형 분류자를 만듭니다. 주어진 훈련 예제 세트는 두가지 범주 중 하나에 속하는 것으로 표시됩니다. SVM 학습 알고리즘은 하나의 범주 또는 다른 범주에 새로운 예제를 할당하는 모델을 구축합니다.

    원문

https://patinformatics.com/machine-learning-in-patent-analytics-part-1-clustering-classification-and-spatial-concept-maps-oh-my/