중화사전망 - 자전 검색 - 파이썬 데이터 마이닝-텍스트 분석

파이썬 데이터 마이닝-텍스트 분석

저자 | 주열 65

출처 | 군천 측정

텍스트 마이닝: 대량의 텍스트 데이터에서 귀중한 지식을 추출하여 정보를 재구성하는 프로세스입니다.

첫째, 코퍼스 (Corpus)

코퍼스는 우리가 분석하고자 하는 모든 문서의 집합이다.

둘째, 중국어 분사

2. 1 개념:

중국어 분사: 한자 시퀀스를 단일 단어로 나눕니다.

제 고향은 광동성 잔장시 (Zhanjiang 시) 입니다. 내/내/고향/예/광동성/잔장시

중지 단어 (중지 단어):

데이터를 처리할 때 일부 단어나 구를 필터링해야 합니다.

√ 웹, 웹 사이트 등과 같은 오버플로우 단어.

√ 모달 보조 단어, 부사, 전치사, 접속사 등. , 예: "독일", "독일";

2.2 디바 분사 패키지 설치:

가장 쉬운 방법은 CMD 를 사용하여 직접 설치하는 것입니다. pip install jieba 를 입력하지만 내 컴퓨터에 없는 것 같습니다.

나중에 https://pypi.org/project/jieba/# files 에서 jieba0.39 를 다운로드하여 Python36Libsite-packages 에 압축을 풉니다 왜 그런지 모르겠어요.

그리고 저는 anaconda 환경에 jieba 를 설치했습니다. 먼저 jieba0.39 의 압축을 푼 파일을 Anaconda3Lib 의 디렉토리에 넣은 다음 Anaconda propt 아래에 다음과 같이 pip install jieba 를 입력합니다.

2.3 코드 실전:

패권을 푸는 주요 방법은 절단법이다.

Jieba.cut 메서드는 다음과 같은 두 가지 입력 매개 변수를 허용합니다.

1) 첫 번째 인수는 세그먼트화할 문자열입니다.

2)2)cut _ all 매개변수는 전체 모드 사용 여부를 제어합니다.

Jieba.cut_for_search 메서드에는 분사가 필요한 문자열이라는 매개 변수가 있습니다. 이 방법은 검색 엔진이 역색인을 하는 분사에 적용되며, 세분성이 비교적 가늘다.

참고: 세그먼트화할 문자열은 gbk 문자열, UTF-8 문자열 또는 유니코드일 수 있습니다.

Jieba.cut 및 jieba.cut_for_search 에서 반환되는 구조는 모두 반복 생성기입니다. For 루프를 사용하여 분사 후의 각 단어 (유니코드) 를 얻거나 list(jieba. cut (...)) 를 사용하여 목록 코드 예 (분사) 로 변환할 수 있습니다.

결과는: 나는 사랑한다.

컴퓨터 프로그래밍 언어

산업 정보처

여장교

매달 너는 반드시 부하 부서를 직접 검사해야 한다.

넘겨주다

24 포트 스위치와 같은 기술 장치를 설치합니다

분사 기능은 전문적인 시나리오에 사용됩니다.

그리고 진무 7 절진과 천호북두진을 몇 글자로 나누었다. 이 현상을 개선하기 위해 우리는 어고를 도입하는 방법을 채택했다.

그러나 가져올 단어가 많은 경우 jieba.add_word () 와 같은 어휘를 추가하는 방법은 비효율적입니다.

우리는 패권을 푸는 방법을 사용할 수 있다. Load _ userdict ('d: PDM 2.2 김용 쿵푸 트릭. Txt') 는 한 번에 전체 동의어 사전을 가져오며 txt 파일에는 각 행의 특정 단어가 포함되어 있습니다.

2.3. 1 대량 문장 세그먼트

먼저 코퍼스 구축:

분사 후, 우리는 정보를 처리해야 한다, 즉 분사가 어느 문장 출신인지.

넷째, 단어 빈도 통계

3. 1 $ Term 주파수:

이 문서에서 한 단어가 나타나는 횟수입니다.

3.2 파이썬을 이용한 단어 빈도 통계

3.2. 1 정지어를 제거하는 또 다른 방법, if 판단.

코드에 사용되는 몇 가지 일반적인 방법은 다음과 같습니다.

그룹 통계:

데이터 프레임의 열 값에 배열의 값이 포함되어 있는지 여부를 결정합니다.

반전: (부울 값)

넷째, 문자 구름

단어 구름: 텍스트의 단어 빈도가 높은 분사로, 시각적으로 두드러져' 키워드 렌더링' 을 형성하여 대량의 텍스트 정보를 잃어버리고, 브라우져는 한눈에 텍스트의 취지를 엿볼 수 있다.

4. 1 Word 클라우드 키트 설치

이 주소는 https://www.lfd.uci.edu/~ gohlke/pythonlibs/입니다. 거의 모든 파이썬 라이브러리를 찾아 시스템과 파이썬 버전에 따라 다운로드할 수 있습니다.

파이썬 아래에 설치하는 것은 편리하지만, anaconda 에 설치하는 데는 약간의 노력이 필요하다. 마지막으로 성공적으로 설치하기 전에 C:UsersAdministrator 디렉토리에 cry cloud 파일을 배치합니다.

다섯째, 단어 구름을 아름답게합니다 (단어 구름은 그림 이미지가됩니다)

여섯째, 키워드 추출

결과는 다음과 같습니다.

7, 키워드 추출.

$ Term 빈도: 지정된 단어가 문서에 나타나는 횟수를 나타냅니다.

계산 공식: TF = 문서에 나타나는 횟수.

역문서 빈도): IDF 는 한 단어의 일반적인 정도에 반비례하는 각 단어의 가중치입니다.

계산 공식: IDF = log (총 문서 수/(해당 단어를 포함하는 문서 수-1))

TF-IDF($ TERM 빈도-역문서 빈도): 분사가 키워드인지 여부를 측정하는 지표입니다. 가치가 클수록 키워드가 될 가능성이 크다.

계산 공식: TF-IDF = TF * IDF

7. 1 문서 벡터화

7.2 코드 실전