중화사전망 - 영어 사전 - Scikit-learn 의 countvectorizer 는 중국어를 사용할 수 있습니까?
Scikit-learn 의 countvectorizer 는 중국어를 사용할 수 있습니까?
기능: 텍스트 문서 컬렉션을 token counts 행렬 (TF) 로 변환합니다. 결과는 scipy.sparse.coo_matrix 스파스 (sparse) 로 표시됩니다.
매개변수를 검토하여 CountVectorizer 가 TF 를 추출할 때 수행하는 작업을 확인합니다.
Strip _ Accents: {'ascii',' 유니코드', none}: "음조" 를 삭제하시겠습니까? "조정" 이 뭔지 모르겠어요? 봐:/? Reqp =1& Reqr=nzcdYz9hqaSbYaOvrt==
Lowercase: Boolean, 기본값 true: TF 를 계산하기 전에 모든 문자를 소문자로 변환합니다. 이 매개 변수는 일반적으로 사실입니다.
사전 처리기: 호출 가능 또는 없음 (기본값): 사전 처리 (문자열 변환) 단계를 재정의하지만 표시 및 N 메타 구문 생성 단계는 유지합니다. 이 매개 변수는 스스로 쓸 수 있다.
Tokenizer: Callable 또는 None (기본값): 문자열 태그 지정 단계를 무시하지만 사전 처리 및 n 메타 구문 생성 단계는 유지합니다. 이 매개 변수는 스스로 쓸 수 있다.
Stop _ words: string {'English'}, list 또는 none (기본값):' English' 인 경우 내장 영어를 사용하여 어휘를 비활성화합니다. 목록인 경우 목록의 모든 비활성화 단어는 마지막 태그에서 삭제됩니다. 없음인 경우 일시 중지 단어는 처리되지 않습니다. 그러나 매개변수 max_df 를 [0.7, 1.0] 사이로 설정한 다음 단어의 코퍼스 내 문서 빈도 (df) 를 기준으로 필터 비활성화 단어를 자동으로 감지할 수 있습니다. 이 매개 변수는 자신의 필요에 맞게 조정해야 한다.
Token_pattern: string: 정규식. 기본적으로 필터 길이가 2 보다 크거나 같은 2 자 이상의 영숫자 문자의 선택 표시가 필터링됩니다. 매개변수 분석기가 word 로 설정된 경우에만 유효합니다.
Ngram _ range: tuple (min _ n, max _ n):n 값의 상한 및 하한. 기본값은 ngram_range=( 1, 1) 이며 범위 내 모든 n 메타 피쳐가 추출됩니다! 이 매개 변수는 자신의 필요에 맞게 조정해야 한다.
Analyzer: string, {'word',' char',' char _ WB'} 또는 callable: 특성이 단어 n-grams 를 기반으로 하는지 문자 n-grams 를 기반으로 하는지 여부. 호출 가능한 경우 원래의 처리되지 않은 입력에서 피쳐를 추출하는 자체 복제 함수입니다.
Max_df: [0.0, 1.0] 또는 int 범위 내에서 부동, 기본값 = 1.0:
Min_df: float in range [0.0, 1.0] 또는 int, default = 1: max_df 를 초과하는 df 삭제 또는 유효한 전제 조건은 vocal 매개 변수가 Node 로 설정되어 있다는 것입니다.
Max_features: int 또는 none, default = none: TF 가 가장 큰 Max_features 를 선택합니다. 유효한 전제 조건은 vocal 매개 변수가 Node 로 설정되어 있다는 것입니다.
용어집: 맵 또는 iterable, 선택 사항: 사용자 정의 기능 토큰. None 이 아니면 vocal 에 있는 단어의 TF 만 계산됩니다. None 으로 설정하는 것은 여전히 신뢰할 수 있습니다.
Binary: boolean, default=False: True 인 경우 TF 의 값은 0 과 1 밖에 없으므로 발생 및 나타나지 않으며 정수 수가 아닌 이진 이벤트를 모델링하는 불연속 확률 모델에 유용합니다.
Dtype: type, 선택 사항: fit_transform () 또는 transform () 이 반환하는 행렬 유형. 。
결론:
CountVectorizer 는 TF 추출에서 음조 제거, 소문자 전환, 정지어 제거, word 를 기준으로 ngram_range 범위 내의 모든 특징 추출 (문자 아님, 매개 변수 선택), "max_df" 준수 삭제 등의 작업을 수행했습니다. 물론 TF 를 이진수로 선택할 수도 있습니다.
이런 식으로 CountVectorizer 처리의 결과가 원하는 것임을 확신할 수 있어야 합니다. 。 。 。 와하하.
마지막으로 두 가지 함수를 살펴 보겠습니다.
Fit(raw_documents[, y]) 는 원본 문서에 있는 모든 태그의 어휘 사전을 배웁니다.
Fit_transform(raw_documents[, y]) 은 어휘 사전을 배우고 용어-문서 행렬을 반환합니다.
Fit(raw_documents, y=None)[source]?
원본 문서에 표시된 모든 어휘 사전을 배웁니다.
매개 변수:
Raw_documents: 반복 가능
문자열, 유니코드 또는 파일 객체를 생성하는 iterable 입니다.
반품:
자기:
Fit_transform(raw_documents, y = None)[ 출처]
어휘 사전을 배우고 용어-문서 행렬을 반환합니다.
이는 fit 뒤에 transform 이 오는 것과 같지만 구현하는 것이 더 효과적입니다.
매개 변수:
Raw_documents: 반복 가능
문자열, 유니코드 또는 파일 객체를 생성하는 iterable 입니다.
반품:
X: 배열, [n 개의 샘플, n 개의 특징]
문서 용어 매트릭스.
- 관련 기사
- 공용 표지판 번역의 분류 [공용 표지판의 영어 번역]
- 혼동하기 쉬운 성어, 4 자 단어, 문장을 묘사하다.
- 이세민의 시' 분서' 는 어느 두 철학자가 싸우고 있는지, 누가 결국 이겼는지 설명해 준다.
- 관용어 이야기 "Like a fish in water" 소개
- 분석의 관용구는 무엇입니까?
- 북경에는 어디에서 최고의 못집이 있습니까? 당신이 그것을 움직일 때, 환상이 나타나고, 물 입방체가 그것 때문에 움직일까요?
- 중국의 살인 사전은 무엇입니까?
- 이런 상황에 대한 시구는 무엇입니까?
- 딕이라는 단어는 어떻게 발음합니까? 오필은 왜 못 쳐? 10 신화사전에서 이 단어를 찾지 못했나요?
- 지칠 줄 모르고 가르치는 반의어.