중화사전망 - 중국어 사전 - 규칙 기반 분사 시스템과 통계 기반 분사 시스템의 장단점은 무엇입니까?
규칙 기반 분사 시스템과 통계 기반 분사 시스템의 장단점은 무엇입니까?
중국어 분사 기술은 자연어 처리 기술의 범주에 속한다. 문장의 경우, 사람은 자신의 지식을 통해 어떤 것이 단어인지, 어떤 것이 단어가 아닌지 이해할 수 있지만, 컴퓨터는 어떻게 이해할 수 있을까? 그 처리 과정은 분사 알고리즘이다.
기존 분사 알고리즘은 문자열 일치 기반 분사, 이해 기반 분사 및 통계 기반 분사의 세 가지 범주로 나눌 수 있습니다.
1, 문자열 일치를 기반으로 한 분사 방법
기계 분사라고도 하는 이 방법은 분석할 중국어 문자열을 일정한 전략에 따라' 충분히 크다' 는 기계 사전의 항목과 일치시키는 것이다. 사전에서 문자열을 찾으면 일치가 성공합니다 (단어 인식). 스캔 방향에 따라 문자열 일치 분사 방법을 정방향 일치와 역방향 일치로 나눌 수 있습니다. 길이가 다른 우선 순위에 따라 최대 (가장 긴) 일치와 최소 (가장 짧은) 일치로 나눌 수 있습니다. 품사성 표기 과정과 결합되는지 여부에 따라 간단한 분사 방법과 분사와 마크업을 결합한 종합 방법으로 나눌 수 있다. 몇 가지 일반적인 기계 분사 방법은 다음과 같습니다.
1) 양의 최대 일치 방법 (왼쪽에서 오른쪽으로 방향);
2) 역 최대 매칭 방법 (오른쪽에서 왼쪽으로);
3) 최소 세분화 (모든 문장에서 잘린 단어 수를 최소화하십시오).
이러한 방법은 서로 결합될 수도 있습니다. 예를 들어 정방향 최대 일치 방법과 역방향 최대 일치 방법을 결합하여 양방향 일치 방법을 형성할 수 있습니다. 중국어 어휘의 특징으로 인해 정방향 최소 일치와 역방향 최소 일치는 거의 사용되지 않는다. 일반적으로 역방향 일치의 분할 정밀도는 정방향 일치보다 약간 높으며 발생하는 모호성이 적습니다. 통계 결과에 따르면 정방향 최대 일치만 사용하는 오류율은 1/ 169 이고 역방향 최대 일치만 사용하는 오류율은 1/245 입니다. 그러나 이 정확도는 실제 요구를 충족시키는 것과는 거리가 멀다. 실제 분사 시스템에서는 기계 분사를 초기 분할 방법으로 사용하며, 분할의 정확도는 다른 다양한 언어 정보를 이용하여 더욱 향상되어야 한다.
한 가지 방법은 피쳐 스캔 또는 마커 분할이라고 하는 스캔 방법을 개선하는 것입니다. 먼저 분석할 문자열에서 뚜렷한 특징을 가진 단어를 식별하고 나눕니다. 이러한 단어를 중단점으로 사용하면 원래 문자열을 더 작은 문자열로 분할한 다음 기계적으로 분할하여 일치 오류율을 낮출 수 있습니다. 또 다른 방법은 분사와 품사성 표시를 결합하여 풍부한 품사성 정보를 이용하여 분사 결정을 돕고, 표기 과정에서 분사 결과를 거꾸로 검사하고 조정하여 분사의 정확도를 크게 높이는 것이다.
기계 분사 방법의 경우, 이 방면의 전문 학술 논문이 있는 범용 모델을 만들 수 있는데, 여기서는 상세한 토론을 하지 않는다.
2. 이해를 바탕으로 한 분사 방법.
이런 분사 방법은 컴퓨터가 문장에 대한 이해를 시뮬레이션하여 단어를 인식하는 효과를 얻을 수 있게 하는 것이다. 그 기본 사상은 분사와 동시에 구문과 의미 분석을 하고 구문과 의미 정보를 이용하여 모호성을 처리하는 것이다. 일반적으로 분사 하위 시스템, 구문 의미 하위 시스템 및 일반 제어 섹션의 세 부분으로 구성됩니다. 총통제부의 조율 하에 분사 하위 시스템은 단어와 문장에 대한 구문과 의미 정보를 얻어 분사의 모호성을 판단할 수 있다. 즉, 사람들이 문장을 이해하는 과정을 흉내낸다. 이런 분사 방법은 대량의 언어 지식과 정보를 필요로 한다. 중국어 지식의 개괄성과 복잡성으로 인해 다양한 언어 정보를 기계가 직접 읽을 수 있는 형식으로 구성하기가 어렵기 때문에, 현재 이해를 바탕으로 한 분사 시스템은 아직 실험 단계에 있다.
통계에 근거한 단어 세분화 방법.
형식상 한 단어는 단어의 안정된 조합이기 때문에 문맥에서는 인접한 단어가 동시에 더 많이 나타날수록 한 단어를 구성할 가능성이 더 높다. 따라서 단어와 인접한 빈도나 확률은 구사법의 신뢰성을 더 잘 반영한다. 우리는 코퍼스에서 인접한 단어 조합의 빈도를 집계하고 그들의 동시 발생 정보를 계산할 수 있다. 두 한자의 동시 발생 정보를 정의하고, 두 한자 X 와 Y 의 인접 * * * 발생 확률을 계산하며, 동시 발생 정보는 한자 간 조합의 긴밀한 정도를 반영한다. 촘촘함이 특정 임계값보다 높을 때, 이 단어 그룹이 한 단어를 구성할 수 있다고 생각할 수 있다. 이 방법은 사전을 나누지 않고 통계구가 코퍼스에 나타나는 빈도만 있으면 되므로 사전 분사 또는 통계 단어 검색 방법이라고도 합니다. 그러나이 방법에는 "이것", "하나", "당신", "내", "많은" 등과 같은 몇 가지 한계가 있으며, 종종 단어 대신 고주파 공통 단어를 추출하며, 공통 단어 인식 정확도가 떨어지고 시간과 공간 비용이 많이 듭니다. 실용적인 통계 분사 시스템은 모두 기본적인 분사 사전 (상용어 사전) 을 이용하여 꼬치 분사를 하고, 동시에 통계적 방법을 이용하여 몇 가지 새로운 단어를 식별하는데, 즉, 즉, 꼬치 통계와 꼬치 일치를 결합하면, 일치하는 분사의 빠르고 효율적인 특징을 충분히 발휘할 뿐만 아니라, 무사전 분사를 이용하여 문맥에 따라 새로운 단어를 인식하여 자동으로 모호성을 제거한다.
어떤 분사 알고리즘이 더 정확한지는 아직 정론이 없다. 어떤 성숙한 분사 시스템에서든, 어떤 알고리즘만으로는 불가능하며, 다른 알고리즘을 융합해야 한다. 필자는 대량 과학 기술의 분사 알고리즘이' 복합분사법' 을 채택한다는 것을 알게 되었다. 복법 () 이란 한의사의 복방 개념을 사용하는 것과 맞먹는다. 바로 다른 약으로 질병을 치료하는 것이다. 마찬가지로, 한자를 인식하는 데는 여러 가지 알고리즘이 필요하다.