SMTM : 토픽 모델링을 통한 레이블 데이터가 없는 텍스트 분류

수동으로 문서에 레이블을 지정하는 작업은 지루하고 비용이 많이 들지만 기존 텍스트 분류기를 학습하는 데 필수적입니다. 최근에는 이 문제를 해결하기 위해 몇가지 데이터없는 텍스트 분류 기술이 제안되었습니다. 그러나 기존 연구는 주로 단일 레이블 분류 문제를 중심으로 합니다. 즉, 각 문서는 단일 범주에 속하는 것으로 제한됩니다.

본 논문에서는 SMTM이라는 새로운 Seed-guided Multi-label 토픽 모델을 제안합니다. 각 카테고리와 관련된 몇가지 시드 단어를 사용하여 SMTM은 레이블이 없는 문서 모음에 대해 다중 레이블 분류를 수행합니다. SMTM에서 각 카테고리는 범주의 의미를 다루는 단일 카테고리-토픽과 연관됩니다. 다중 레이블 문서를 수용하기 위해, 우리는 명시적으로 SMTM에서 spike, slab prior, weak smoothing prior를 사용하여 카테고리 희박성을 모델링합니다. 즉, 임계값 튜닝을 사용하지 않고 SMTM은 각 문서에 대한 관련 카테고리를 자동으로 선택합니다. 시드 단어의 감독을 통합하기 위해 우리는 SMTM의 주제 추론을 안내하는 seed-guided biased GPU(예: generalized Polya urn) 샘플링 절차를 제안합니다.

두 개의 공용 데이터세트에 대한 실험 결과에 따르면 SMTM은 다른 대안보다 더 우수한 분류 정확도를 달성하고 일부 시나리오에서는 지도학습 방법보다 우수한 성능을 보입니다.

Tags:

SMTM

토픽모델링

텍스트분류

라벨링