중화사전망 - 사전 온라인 - 유사성을 계산하는 방법, 어떤 방법으로?

유사성을 계산하는 방법, 어떤 방법으로?

문장의 의미 유사성을 계산하는 방법, 벡터 공간 모델 (VSM) 과 편집 거리법 (예: A:' 우리 아빠는 이강' 과 B:' 내 아들은 이강', VSM 법 A (나, 아빠, 네, 이강) B (나 편집 거리가 더 좋습니다. 아빠' 와' 아들' 을 각각 교체하고 d (a, b) = replace _ cost;

이것은 비교적 밋밋한 두 가지 방법으로, 기준선의 기준선에 속한다. 두 가지 예를 보면 A: "어떻게 건물을 짓나요?" " B: "골프는 어떻게 치나요? 클릭합니다 C: "집은 어떻게 지었습니까? 클릭합니다 VSM 으로 계산하면 BC 가 AC 보다 더 비슷하다는 것이 분명합니다. B 와 C 는 같은 단어 "어떻게" 이기 때문입니다. 편집 거리는 같습니다.

이 문제를 해결하는 것은 결코 어렵지 않다. 모든 문장을 동의어 사전을 통해 펼치기만 하면' 어떻게',' 어떻게',' 건물',' 집' 은 모두 동의어나 동의어이며, 펼친 후 VSM 을 사용하거나 거리를 편집하면 문제를 해결할 수 있다. 이 방법은 리콜 속도가 낮은 문제를 어느 정도 해결했지만 확장 후 불가피하게 소음이 발생합니다. 특히 원문에' 간장',' 스웨터' 와 같은 다의어가 포함되어 있다면 한자의 일부 단어는 상당히 많은 뜻을 나타냈다. 이런 한자는 동진동 선생의' 지망' 에서 좋은 의미관계 해석이 있어, 지망에서 단어부터 의소까지 트리 구조를 통해 입도의 유사성을 측정할 수 있다.

이 문제는 여기서 좋은 대답을 받은 것 같지만, 실천에서는 아직 충분치 않다. VSM 의 방법은 문장 중의 단어를 독립적인 특징으로 하고, 문장 순서 관계와 위치 관계가 문장 의미에 미치는 영향을 무시한다. 편집 거리는 문장에서 단어의 순서 관계를 고려하지만, 이 관계는 기계의 대체, 이동, 삭제 및 추가이다. 사실, 각 단어가 표현하는 정보의 양은 다르며, 같은 단어가 서로 다른 단어 조합에서 표현하는 정보나 의미 정보는 다르다. 구문 트리가 문장에서 단어의 위치를 잘 묘사하기 때문에 이 방법은 이전 두 방법보다 더 안정적입니다. 실제 효과는 실험을 통해 입증해야 한다.

참, 또 한 가지 방법, 번역 모델, 이것은 IBM 이 기계 번역 분야에서 창작한 것이다. 이상적인 번역 결과를 얻으려면 대량의 코퍼스가 훈련을 받아야 한다. 물론 중간 단어 정렬 결과를 포함합니다. 네트워크 리소스를 사용하여 고품질의 코퍼스를 구축하고 EM 반복을 통해 비슷한 문장 쌍을 정렬할 수 있다면 문장 유사성은 단어 정렬에서 발생합니다. 이것은 좋은 방법이다!