중화사전망 - 자전 검색 - Python 에서, 이미 모든 단어가 포함된 사전을 얻었다. 사전의 단어가 각 문장에 나타나는 횟수를 어떻게 통계합니까?

Python 에서, 이미 모든 단어가 포함된 사전을 얻었다. 사전의 단어가 각 문장에 나타나는 횟수를 어떻게 통계합니까?

영어는 단어 기반이고, 단어는 공백으로 구분되며, 중국어는 단어 기반이며, 한 문장의 모든 단어는 연결되어 의미를 설명할 수 있다는 것은 잘 알려져 있다. 예를 들어, 영어 문장' 나는 학생이다' 는 중국어에서는' 나는 학생이다' 이다. 컴퓨터는 공백을 통해 student 가 단어라는 것을 쉽게 알 수 있지만 단어 "Xue" 와 "Sheng" 이 함께 단어를 나타내는 것을 쉽게 이해할 수는 없습니다. 한자 시퀀스를 의미 있는 단어로 자르는 것은 중국어 분사이며, 어떤 사람들은 이를 분사라고 부른다. 나는 학생이고 분사의 결과는: 나는 학생이다.

중국어 분사 기술은 자연어 처리 기술의 범주에 속한다. 문장의 경우, 사람들은 자신의 지식을 통해 어떤 단어가 어떤 단어인지 이해할 수 있지만, 컴퓨터는 어떻게 그것을 이해할 수 있습니까? 그 처리 과정은 분사 알고리즘이다.

기존 분사 알고리즘은 문자열 일치 기반 분사, 이해 기반 분사 및 통계 기반 분사의 세 가지 범주로 나눌 수 있습니다.

1, 문자열 일치를 기반으로 한 분사 방법

기계 분사라고도 하는 이 방법은 어떤 전략에 따라 분석할 중국어 문자열을' 충분히 큰' 기계 사전의 항목과 일치시킵니다. 사전에서 문자열을 찾으면 일치가 성공합니다 (단어가 인식됨). 스캔 방향에 따라 문자열 일치 분사 방법을 정방향 일치와 역방향 일치로 나눌 수 있습니다. 길이가 다른 우선 순위 일치에 따라 최대 (가장 긴) 일치와 최소 (가장 짧은) 일치로 나눌 수 있습니다. 품사성 표기 과정과 결합되는지 여부에 따라 간단한 분사 방법과 분사 표기법 일체화 방법으로 나눌 수 있다. 몇 가지 일반적인 기계 분사 방법은 다음과 같습니다.

1) 양의 최대 일치 방법 (왼쪽에서 오른쪽으로 방향);

2) 역 최대 매칭 방법 (오른쪽에서 왼쪽으로);

3) 최소 분할 (말마다 잘라낸 글자 수를 최소화함).

위의 방법은 서로 결합할 수도 있습니다. 예를 들어 순방향 최대 일치 방법과 역방향 최대 일치 방법을 결합하여 양방향 일치 방법을 형성할 수 있습니다. 중국어 어휘의 특징으로 인해 정방향 최소 일치와 역방향 최소 일치는 거의 사용되지 않습니다. 일반적으로 역방향 일치의 분할 정밀도는 정방향 일치보다 약간 높으며 발생하는 모호성이 적습니다. 통계 결과에 따르면 정방향 최대 일치만 사용하는 오류율은 1/ 169 이고 역방향 최대 일치만 사용하는 오류율은 1/245 입니다. 그러나 이 정확도는 실제 수요를 충족시키는 것과는 거리가 멀다. 실제 분사 시스템에서는 기계 분사를 초기 분사의 방법으로 사용하며, 각종 기타 언어 정보를 이용하여 분사의 정확성을 더욱 높여야 한다.

한 가지 방법은 피쳐 스캔 또는 마커 분할이라고 하는 스캔 방법을 개선하는 것입니다. 먼저 분석할 문자열에서 뚜렷한 특징을 가진 단어를 식별하고 나눕니다. 이러한 단어를 중단점으로 사용하면 원래 문자열을 더 작은 문자열로 나눈 다음 기계적으로 분할하여 일치 오류율을 줄일 수 있습니다. 또 다른 방법은 분사와 품사성 표시를 결합하여 풍부한 품사성 정보를 이용하여 분사 결정을 돕고, 표기 과정에서 분사 결과를 거꾸로 검사하고 조정하여 분사의 정확성을 크게 높이는 것이다.

기계 분사 방법의 경우, 이 방면의 전문 학술 논문이 있는 범용 모델을 만들 수 있는데, 여기서는 상세히 논의하지 않는다.

2. 이해를 바탕으로 한 분사 방법.

이런 분사 방법은 컴퓨터가 문장에 대한 이해를 시뮬레이션하여 단어를 인식하는 효과를 얻을 수 있게 하는 것이다. 그 기본 사상은 분사와 동시에 구문과 의미 분석을 하고 구문과 의미 정보를 이용하여 모호성을 처리하는 것이다. 일반적으로 분사 하위 시스템, 구문 의미 하위 시스템 및 일반 제어 섹션의 세 부분으로 구성됩니다. 총통제부의 조율 하에 분사 하위 시스템은 단어와 문장에 대한 구문과 의미 정보를 얻어 분사의 모호성을 판단할 수 있다. 즉, 인간이 문장을 이해하는 과정을 흉내낸다. 이런 분사 방법은 대량의 언어 지식과 정보를 필요로 한다. 중국어 지식의 개괄성과 복잡성으로 인해 다양한 언어 정보를 기계가 직접 읽을 수 있는 형식으로 구성하기가 어렵기 때문에, 현재 이해를 바탕으로 한 분사 시스템은 여전히 실험 단계에 있다.

통계에 근거한 단어 세분화 방법.

형식적으로 볼 때 한 단어는 여러 단어의 안정적인 조합이므로 문맥에서는 인접한 단어가 동시에 더 많이 나타날수록 한 단어를 구성할 가능성이 커진다. 따라서 단어와 인접한 빈도나 확률은 구사법의 신뢰성을 더 잘 반영한다. 우리는 코퍼스에서 인접한 단어 조합의 빈도를 집계하고 그들의 동시 발생 정보를 계산할 수 있다. 두 한자의 동시 발생 정보를 정의하고 두 한자 X 와 Y 의 인접 * * * 발생 확률을 계산합니다. 공현 정보는 한자 간 조합의 긴밀한 정도를 반영한다. 촘촘함이 특정 임계값보다 높을 때 해당 단어 그룹이 단어를 구성할 수 있다고 생각할 수 있습니다. 이 방법은 사전을 나누지 않고 통계구가 코퍼스에 나타나는 빈도만 있으면 되므로 사전분사 또는 통계어 검색 방법이라고도 합니다. 그러나이 방법에는 "이것", "하나", "당신", "내", "많은" 등과 같은 몇 가지 한계가 있습니다. 종종 단어 대신 고주파 공통 단어를 추출하고 공통 단어의 인식 정확도가 떨어지며 시간과 공간 비용이 많이 듭니다. 실용적인 통계 분사 시스템은 모두 기본 분사 사전 (공통 단어 사전) 을 사용하여 문자열 일치 분사를 수행하고, 통계 방법을 사용하여 문자열 빈도 통계와 문자열 일치를 결합한 새로운 단어를 식별하며, 빠르고 효율적인 일치 분사의 특징을 충분히 발휘하고, 사전 없는 분사와 컨텍스트를 결합하여 새로운 단어를 인식하고 모호성을 자동으로 제거합니다.

현재, 어떤 분사 알고리즘이 더 정확한지는 아직 정설이 없다. 어떤 성숙한 분사 시스템의 경우, 어떤 알고리즘에만 의존할 수 없으며, 서로 다른 알고리즘을 융합해야 한다. 필자는 대량 과학 기술의 분사 알고리즘이' 복합분사법' 을 채택한다는 것을 알게 되었다. 복법 () 이란 한의사의 복방 개념, 즉 다른 약물을 사용하여 질병을 치료하는 것과 같다. 마찬가지로, 중국어 단어를 인식하려면 여러 가지 알고리즘이 필요하다.