중화사전망 - 중국어 사전 - 파이썬은 아름다운 구름 글자를 그렸다.

파이썬은 아름다운 구름 글자를 그렸다.

단어 구름 이미지는 데이터 분석에 일반적으로 사용되는 시각화 방법입니다. 텍스트 클라우드라고도 하는 단어 클라우드는 텍스트에 빈도가 높은 키워드를 시각적으로 표현한 것입니다. 단어가 많이 나타날수록 단어 구름 이미지에 더 눈에 띈다. 문자 운도는 대량의 저주파 저질의 문자 정보를 걸러내어, 글자만 훑어봐도 문장 취지를 느낄 수 있다.

예를 들면 뭐죠? 위 그림에서 보면 신화망 뉴스임에 틀림없다는 것을 알 수 있다.

단어 구름 이미지를 생성하는 주요 단계는 무엇입니까? 파이썬 (Python) 은 3 단계로 이루어집니다.

첫 번째는' 말더듬' 이 설치된 한자' 말더듬' 이다.

영어 텍스트의 경우 word_cloud 는 텍스트 소스의 단어 구름 이미지를 직접 생성합니다. 하지만 중국어에 대한 지원은 그리 강하지 않기 때문에, 먼저 지바를 사용하여 중국어 텍스트를 분할하고, 문장 () 를 문자로 바꾼 다음, 문자 운도를 생성해야 한다. 예를 들면 다음과 같습니다.

Jieba.cut 분사: 이 메서드는 세 개의 입력 매개변수를 받아들이고 문장에는 분사 문자열이 필요합니다. Cut_all 은 전체 모드 사용 여부를 제어합니다. HMM 은 HMM 모델을 사용할지 여부를 제어합니다.

Jieba.cut_for_search 분사: 이 메서드는 두 개의 인수를 받아들이고 문장에는 분사 문자열이 필요합니다. HMM 모델을 사용할지 여부입니다. 이 방법은 검색 엔진에서 역순 색인의 분사에 적용되며 입도가 비교적 가늘다.

Jieba.analyse.TextRank 는 TextRank 알고리즘을 사용하여 문장에서 키워드를 추출합니다.

그런 다음 단어 클라우드 갤러리를 설치합니다.

위 명령을 실행한 후 성공이 표시되면 축하합니다. 설치가 성공했습니다.

나는 서운조륜 실패의 잘못을 만났다. 그래서 Xcode 를 설치합니다. 먼저 선택한 다음 wordcloud 를 설치합니다 (xcode 를 설치하지 않음).

WordCloud 라이브러리는 word cloud 를 단어 구름 객체로 간주하고 wordcloud 는 단어 구름 객체로 취급합니다. WordCloud () 는 텍스트에 해당하는 단어 구름을 나타냅니다. 문자가 나타나는 빈도 등의 매개변수에 따라 단어 구름을 그리고 단어 구름의 모양, 크기 및 색상을 그릴 수 있습니다.

1. 먼저 텍스트 데이터를 가져오고 간단한 텍스트 처리를 수행합니다.

2. 분사

3. 마스크를 설정합니다

참고:

1. 기본 글꼴은 중국어를 지원하지 않습니다. 중국어를 표시해야 하는 경우 중국어 글꼴을 설정해야 합니다. 그렇지 않으면 깨질 수 있습니다.

2. 마스크를 설정하면 그림의 흰색이 아닌 부분이 자동으로 채워지고 그림이 선명할수록 실행 속도가 빨라집니다.

여기서 WordCloud 는 운사도에서 가장 중요한 객체이며, 주요 매개변수는 다음과 같습니다.

효과는 다음과 같습니다.

최종 요약은 문장 내용을 모두 문자로 나누고 문자를 모두 출력하는 것이지만, 많은 경우 우리는 더 많은 수요가 있다. 예를 들면 다음과 같습니다.

1, 처음 100 개 키워드면 충분합니다.

2. 알록달록한 글은 필요 없고 마스크팩 그림의 색깔과 일치해야 합니다.

100 개의 키워드, 분사할 때 우리는 TextRank 알고리즘을 사용하여 문장에서 키워드를 추출한다.

WordCloud 의 color_func 속성을 설정하여 마스크 색상을 설정할 수 있습니다.

최종 효과는 다음과 같습니다.