중화사전망 - 영어 사전 - Scikit-learn 의 countvectorizer 는 중국어를 사용할 수 있습니까?

Scikit-learn 의 countvectorizer 는 중국어를 사용할 수 있습니까?

Classsklearn.feature _ extraction.text.countvectorizer (input = u' content', encoding = u' utorizer) Lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=u U)\b\w\w+\b', ngram_range=( 1, 1), analyzer = u.

기능: 텍스트 문서 컬렉션을 token counts 행렬 (TF) 로 변환합니다. 결과는 scipy.sparse.coo_matrix 스파스 (sparse) 로 표시됩니다.

매개변수를 검토하여 CountVectorizer 가 TF 를 추출할 때 수행하는 작업을 확인합니다.

Strip _ Accents: {'ascii',' 유니코드', none}: "음조" 를 삭제하시겠습니까? "조정" 이 뭔지 모르겠어요? 봐:/? Reqp =1& Reqr=nzcdYz9hqaSbYaOvrt==

Lowercase: Boolean, 기본값 true: TF 를 계산하기 전에 모든 문자를 소문자로 변환합니다. 이 매개 변수는 일반적으로 사실입니다.

사전 처리기: 호출 가능 또는 없음 (기본값): 사전 처리 (문자열 변환) 단계를 재정의하지만 표시 및 N 메타 구문 생성 단계는 유지합니다. 이 매개 변수는 스스로 쓸 수 있다.

Tokenizer: Callable 또는 None (기본값): 문자열 태그 지정 단계를 무시하지만 사전 처리 및 n 메타 구문 생성 단계는 유지합니다. 이 매개 변수는 스스로 쓸 수 있다.

Stop _ words: string {'English'}, list 또는 none (기본값):' English' 인 경우 내장 영어를 사용하여 어휘를 비활성화합니다. 목록인 경우 목록의 모든 비활성화 단어는 마지막 태그에서 삭제됩니다. 없음인 경우 일시 중지 단어는 처리되지 않습니다. 그러나 매개변수 max_df 를 [0.7, 1.0] 사이로 설정한 다음 단어의 코퍼스 내 문서 빈도 (df) 를 기준으로 필터 비활성화 단어를 자동으로 감지할 수 있습니다. 이 매개 변수는 자신의 필요에 맞게 조정해야 한다.

Token_pattern: string: 정규식. 기본적으로 필터 길이가 2 보다 크거나 같은 2 자 이상의 영숫자 문자의 선택 표시가 필터링됩니다. 매개변수 분석기가 word 로 설정된 경우에만 유효합니다.

Ngram _ range: tuple (min _ n, max _ n):n 값의 상한 및 하한. 기본값은 ngram_range=( 1, 1) 이며 범위 내 모든 n 메타 피쳐가 추출됩니다! 이 매개 변수는 자신의 필요에 맞게 조정해야 한다.

Analyzer: string, {'word',' char',' char _ WB'} 또는 callable: 특성이 단어 n-grams 를 기반으로 하는지 문자 n-grams 를 기반으로 하는지 여부. 호출 가능한 경우 원래의 처리되지 않은 입력에서 피쳐를 추출하는 자체 복제 함수입니다.

Max_df: [0.0, 1.0] 또는 int 범위 내에서 부동, 기본값 = 1.0:

Min_df: float in range [0.0, 1.0] 또는 int, default = 1: max_df 를 초과하는 df 삭제 또는 유효한 전제 조건은 vocal 매개 변수가 Node 로 설정되어 있다는 것입니다.

Max_features: int 또는 none, default = none: TF 가 가장 큰 Max_features 를 선택합니다. 유효한 전제 조건은 vocal 매개 변수가 Node 로 설정되어 있다는 것입니다.

용어집: 맵 또는 iterable, 선택 사항: 사용자 정의 기능 토큰. None 이 아니면 vocal 에 있는 단어의 TF 만 계산됩니다. None 으로 설정하는 것은 여전히 신뢰할 수 있습니다.

Binary: boolean, default=False: True 인 경우 TF 의 값은 0 과 1 밖에 없으므로 발생 및 나타나지 않으며 정수 수가 아닌 이진 이벤트를 모델링하는 불연속 확률 모델에 유용합니다.

Dtype: type, 선택 사항: fit_transform () 또는 transform () 이 반환하는 행렬 유형. 。

결론:

CountVectorizer 는 TF 추출에서 음조 제거, 소문자 전환, 정지어 제거, word 를 기준으로 ngram_range 범위 내의 모든 특징 추출 (문자 아님, 매개 변수 선택), "max_df" 준수 삭제 등의 작업을 수행했습니다. 물론 TF 를 이진수로 선택할 수도 있습니다.

이런 식으로 CountVectorizer 처리의 결과가 원하는 것임을 확신할 수 있어야 합니다. 。 。 。 와하하.

마지막으로 두 가지 함수를 살펴 보겠습니다.

Fit(raw_documents[, y]) 는 원본 문서에 있는 모든 태그의 어휘 사전을 배웁니다.

Fit_transform(raw_documents[, y]) 은 어휘 사전을 배우고 용어-문서 행렬을 반환합니다.

Fit(raw_documents, y=None)[source]?

원본 문서에 표시된 모든 어휘 사전을 배웁니다.

매개 변수:

Raw_documents: 반복 가능

문자열, 유니코드 또는 파일 객체를 생성하는 iterable 입니다.

반품:

자기:

Fit_transform(raw_documents, y = None)[ 출처]

어휘 사전을 배우고 용어-문서 행렬을 반환합니다.

이는 fit 뒤에 transform 이 오는 것과 같지만 구현하는 것이 더 효과적입니다.

매개 변수:

Raw_documents: 반복 가능

문자열, 유니코드 또는 파일 객체를 생성하는 iterable 입니다.

반품:

X: 배열, [n 개의 샘플, n 개의 특징]

문서 용어 매트릭스.