중화사전망 - 중국어 사전 - 중국어 분사의 기본 정보
중국어 분사의 기본 정보
1. 영어로 대표되는 라틴어에 비해 영어는 공백을 자연구분 기호로 하고 중국어는 고대 중국어의 전통을 이어받아 단어와 단어 사이에 구분 기호가 없다. 고대 중국어에서 문자는 접속사와 인명 지명을 제외하고는 보통 한자로 되어 있어서 문자로 글을 쓸 필요가 없었다. 현대 중국어에서는 두 개 이상의 단어가 많으며, 한 단어는 더 이상 한 단어와 같지 않다.
2. 중국어에서' 단어' 와' 구' 의 경계는 모호하다.
현대 중국어의 기본 표현 단위는' 단어' 이고, 이중자나 다자가 많지만, 사람들의 인식 수준이 다르기 때문에 단어와 구의 경계를 구분하기가 어렵다.
예를 들어, "아무데나 침을 뱉는 처벌", "아무데나 침을 뱉는 것", "아무데나 침을 뱉는 것", "바다", "와이너리" 등 사람마다 다른 기준이 있을 수 있습니다. 같은 사람이라도 다른 판단을 내릴 수 있다. 만약 중국어가 정말로 문자로 써야 한다면, 필연적으로 혼란을 초래하고 난이도가 매우 클 것이다.
사실, 중국어 분사는 중국어 응용에 국한되지 않으며, 필기 인식과 같은 영어 처리에도 적용될 수 있습니다. 단어 사이의 공백은 분명하지 않습니다. 중국어 분사는 영어 단어의 경계를 구분하는 데 도움이 된다. 중국어 분사는 텍스트 마이닝의 기초입니다. 입력한 중국어의 경우, 성공적인 중국어 분사는 컴퓨터가 문장의 의미를 자동으로 인식하는 효과를 얻을 수 있다.
중국어 분사 기술은 자연어 처리 기술의 범주에 속한다. 문장의 경우, 사람은 자신의 지식을 통해 어떤 것이 단어인지, 어떤 것이 단어가 아닌지 이해할 수 있지만, 컴퓨터는 어떻게 이해할 수 있을까? 그 처리 과정은 분사 알고리즘이다. 기계 분사라고도 하는 이 방법은 분석할 중국어 문자열을 일정한 전략에 따라' 충분히 크다' 는 기계 사전의 항목과 일치시키는 것이다. 사전에서 문자열을 찾으면 일치가 성공합니다 (단어 인식). 스캔 방향에 따라 문자열 일치 분사 방법을 정방향 일치와 역방향 일치로 나눌 수 있습니다. 길이가 다른 우선 순위에 따라 최대 (가장 긴) 일치와 최소 (가장 짧은) 일치로 나눌 수 있습니다. 몇 가지 일반적인 기계 분사 방법은 다음과 같습니다.
1) 양의 최대 일치 방법 (왼쪽에서 오른쪽으로 방향);
2) 역 최대 매칭 방법 (오른쪽에서 왼쪽으로);
3) 최소 세분화 (모든 문장에서 잘린 단어 수를 최소화하십시오);
4) 양방향 최대 일치 방법 (왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 두 번 스캔)
이러한 방법은 서로 결합될 수도 있습니다. 예를 들어 정방향 최대 일치 방법과 역방향 최대 일치 방법을 결합하여 양방향 일치 방법을 형성할 수 있습니다. 중국어 어휘의 특징으로 인해 정방향 최소 일치와 역방향 최소 일치는 거의 사용되지 않는다. 일반적으로 역방향 일치의 분할 정밀도는 정방향 일치보다 약간 높으며 발생하는 모호성이 적습니다. 통계 결과에 따르면 정방향 최대 일치만 사용하는 오류율은 1/ 169 이고 역방향 최대 일치만 사용하는 오류율은 1/245 입니다. 그러나 이 정확도는 실제 요구를 충족시키는 것과는 거리가 멀다. 실제 분사 시스템에서는 기계 분사를 초기 분할 방법으로 사용하며, 분할의 정확도는 다른 다양한 언어 정보를 이용하여 더욱 향상되어야 한다.
한 가지 방법은 피쳐 스캔 또는 마커 분할이라고 하는 스캔 방법을 개선하는 것입니다. 먼저 분석할 문자열에서 뚜렷한 특징을 가진 단어를 식별하고 나눕니다. 이러한 단어를 중단점으로 사용하면 원래 문자열을 더 작은 문자열로 분할한 다음 기계적으로 분할하여 일치 오류율을 낮출 수 있습니다. 또 다른 방법은 분사와 품사성 표시를 결합하여 풍부한 품사성 정보를 이용하여 분사 결정을 돕고, 표기 과정에서 분사 결과를 거꾸로 검사하고 조정하여 분사의 정확성을 크게 높이는 것이다.
기계 분사 방법의 경우, 이 방면의 전문 학술 논문이 있는 범용 모델을 만들 수 있는데, 여기서는 상세한 토론을 하지 않는다. 형식상 한 단어는 단어의 안정된 조합이기 때문에 문맥에서는 인접한 단어가 동시에 더 많이 나타날수록 한 단어를 구성할 가능성이 더 높다. 따라서 단어와 인접한 빈도나 확률은 구사법의 신뢰성을 더 잘 반영한다. 우리는 코퍼스에서 인접한 단어 조합의 빈도를 집계하고 그들의 동시 발생 정보를 계산할 수 있다. 두 한자의 동시 발생 정보를 정의하고, 두 한자 X 와 Y 의 인접 * * * 발생 확률을 계산하며, 동시 발생 정보는 한자 간 조합의 긴밀한 정도를 반영한다. 촘촘함이 특정 임계값보다 높을 때, 이 단어 그룹이 한 단어를 구성할 수 있다고 생각할 수 있다. 이 방법은 사전을 나누지 않고 통계구가 코퍼스에 나타나는 빈도만 있으면 되므로 사전 분사 또는 통계 단어 검색 방법이라고도 합니다. 그러나이 방법에는 "이것", "하나", "당신", "내", "많은" 등과 같은 몇 가지 한계가 있으며, 종종 단어 대신 고주파 공통 단어를 추출하며, 공통 단어 인식 정확도가 떨어지고 시간과 공간 비용이 많이 듭니다. 실용적인 통계 분사 시스템은 모두 기본적인 분사 사전 (상용어 사전) 을 이용하여 꼬치 분사를 하고, 동시에 통계적 방법을 이용하여 몇 가지 새로운 단어를 식별하는데, 즉, 즉, 꼬치 통계와 꼬치 일치를 결합하면, 일치하는 분사의 빠르고 효율적인 특징을 충분히 발휘할 뿐만 아니라, 무사전 분사를 이용하여 문맥에 따라 새로운 단어를 인식하여 자동으로 모호성을 제거한다.
다른 하나는 통계 기계 학습을 기반으로 하는 방법이다. 먼저 대량의 분할 텍스트를 제공하고, 통계 기계 학습 모델을 통해 분사 규칙 (훈련이라고 함) 을 학습하여 알 수 없는 텍스트를 분할할 수 있습니다. 우리 모두 알고 있듯이, 중국어의 각 단어는 서로 다른 독립 성어 능력을 가지고 있다. 또한 어떤 단어는 접두사로 자주 나타나고, 어떤 단어는 접미사 ("서", "줄") 로 자주 나타난다. 두 단어가 임시어인지 아닌지에 대한 정보를 결합함으로써 우리는 분사와 관련된 많은 지식을 얻었다. 이런 방법은 바로 중국어의 구사 법칙을 충분히 이용하여 분사하는 것이다. 이 방법의 가장 큰 단점은 많은 사전 분류어가 지지를 받아야 한다는 점이다. 훈련 과정에서 시공비용이 매우 높다는 것이다.
어떤 분사 알고리즘이 더 정확한지는 아직 정론이 없다. 어떤 성숙한 분사 시스템에서든, 어떤 알고리즘만으로는 불가능하며, 다른 알고리즘을 융합해야 한다. 예를 들어, 대량 기술의 분사 알고리즘은' 복합분사법' 을 사용한다. 복합분사란 중양의가 결합되는 것처럼 기계방법과 지식방법을 종합적으로 운용하는 것이다. 성숙한 중국어 분사 시스템의 경우 여러 가지 알고리즘이 있어야 문제를 종합적으로 처리할 수 있다.