중화사전망 - 중국어 사전 - 파이썬은 tfidf 계산에서 가중치를 어떻게 정렬합니까

파이썬은 tfidf 계산에서 가중치를 어떻게 정렬합니까

1. python+selenium 으로 DOM 구조를 분석하고 바이두 | 대화형 백과사전의 텍스트 요약 정보를 캡처합니다.

2. 제패말더듬어 분사를 이용하여 중국어 텍스트를 분사하고 키워드에 관한 사전을 삽입한다.

3.scikit-learn 은 텍스트 내용의 tfidf 를 계산하고 N*M 행렬 (n 개 문서, m 개 특징어) 을 구성합니다.

4. 그런 다음 K-means 를 사용하여 텍스트 클러스터링을 수행합니다 (특징어 차원 축소 생략).

5. 마지막으로 클러스터 결과에 대한 간단한 텍스트 처리를 수행하고 클래스 클러스터로 분류하며 P/R/F 피쳐 값을 계산할 수 있습니다.

6. 이 글의 부족과 K-means 및 지식지도의 일부 내용을 요약했다.