중화사전망 - 영어 사전 - 바이두 분사가 뭔가요? 바이두 분사 기술은 무엇입니까?

바이두 분사가 뭔가요? 바이두 분사 기술은 무엇입니까?

먼저 전용 사전 (인명, 일부 지명등) 을 조회한다. ), 고유 명사를 자르고 나머지는 양방향 일치 분사 전략을 사용합니다.

분할 결과가 같으면 모호함이 없고 분할 결과가 직접 출력됩니다.

그렇지 않은 경우 최단 경로 결과를 출력합니다.

길이가 같으면. 단어가 적은 분할 결과 세트를 선택합니다. 단어가 같으면 정방향 분할 결과를 선택합니다.

바이두가 우세하다면 유일한 장점은 대형 전용 사전이다.

이 특별한 사전에는 인명이 기록되어 있다 (예: 대장금). 칭호 (예: 노부인). 일부 지명 (예: 아랍에미리트).

사전 등록되지 않은 단어를 코퍼스에서 지속적으로 인식합니다. 이 전문 사전을 점진적으로 확장하다. 맞춤법 검사기 (바이두 사전) 맞춤법 오류 힌트 (병음 힌트 기능 포함), 맞춤법 오류 힌트는 검색 엔진에서만 사용할 수 있는 기능입니다. 즉, 사용자가 검색 엔진에 질의를 제출하면 검색 엔진은 사용자가 입력한 철자가 잘못되었는지 확인합니다.

중국 사용자의 경우, 흔히 볼 수 있는 실수는 입력기 때문에 생긴 잘못이다.

그럼 바이두가 어떻게 이 기능을 실현했는지 분석해 봅시다.

우리는 맞춤법 검사 시스템을 분석하고 다음과 같은 문제에주의를 기울입니다.

(1) 시스템에서 사용자가 잘못된 질의를 입력했는지 어떻게 알 수 있습니까?

그럼 바이두는 어떻게 한 건가요? 바이두는 사용자 입력이 잘못되었는지 판단하는 기준입니다.

나는 사전을 조사해야 한다고 생각한다. 사전에 이 단어가 없는 것을 발견하면, 입력 오류일 가능성이 높다. 이 시점에서 오류 프롬프트 기능을 시작하면 쉽게 확인할 수 있습니다.

왜냐하면 정상적인 단어라면 바이두는 일반적으로 잘못된 힌트를 가지고 있지 않기 때문이다. 그리고 당신은 의도적으로 소위 사전에 수록할 수 없는 단어를 입력한다.

이때 바이두는 일반적으로 너에게 정확한 어휘를 검색하라고 프롬프트한다.

바이두는 어떻게 정확한 어휘를 제시합니까?

분명히, 나는 병음을 통해 바이두에 조회' 보라색 재료' 를 입력했다.

바이두가 제공하는 힌트 어휘는' 김' 이다.

동음자입니다. 그래서 바이두는 반드시 동음자사전을 유지해야 한다. 동음 이의어 정보를 유지합니다.

예를 들어, "재료 보라색 재료" 라는 항목이 포함될 수 있습니다.

병음 표기 프로그램도 있습니다.

지금 볼 수 있는 기본 프로세스는 사용자가' 보라색' 을 입력하고 사전을 찾는 것이다. 이 단어가 없는 것을 발견하고 주음 프로그램을 시작하다. "보라색 재료" 를 병음 "지재" 로 표기하다. 그런 다음 동음자사전을 찾아 동음자' 김' 을 찾은 다음 사용자에게 정확한 철자를 묻는 메시지를 표시합니다.

하지만 아직도 남아 있는 작은 문제들이 있다. 예를 들어, 용어집의 동음 이의어는 모두 사용자의 힌트 정보입니까?

예를 들어, 병음에는 10 개의 동음어가 있습니다. 모두 출력인가요?

바이두가 전부 내보낼 것 같니? 바이두는 모든 동음자를 출력하는 것이 아니라 일정한 심사 기준을 선택했다. 몇 개의 출력을 선택하여 이를 어떻게 증명할 수 있습니까?

병음' 유리' 의 해음을 다시 한 번 보세요. 써우거우 병음 입력기 힌트는' 류이류 유창' 과 같은 n 개의 동음 글자가 있다.

여기에 사전에는 없는 단어가 하나 있는데, 이렇게 바이두의 맞춤법 검사가 작용하기 시작했다. 바이두는 네가' 건달' 을 찾고 있는지 없는지 알려 주었다. 우리는 입력을' 걷기' 로 바꿨다.

바이두의 조회를 보고,

"불량배" 를 찾고 있는지 묻지 않았다. 당신은 내가 두 단어를 연주 사이의 차이를 참조 하십시오. 그게 무슨 뜻이에요?

설명은 모든 동음문자에 힌트가 있는 것이 아니라 선택의 표현이다. 그렇다면 선택의 기준은 무엇일까?

돌이켜 보면, 첫 번째와 두 번째로 입력한' 자아를 위해 가다' 와' 아내를 위해 가다' 는 것은 절대적인 차이가 있다.

처음 입력한' 건달' 이라는 단어는 건달의 건달이다. 그래서 바이두는 네가 건달을 찾겠다는 힌트를 주었다. (윌리엄 셰익스피어, 건달, 건달, 건달, 건달, 건달, 건달)

바이두에 가면 한 가지가 옳다. 한 마디가 옳다. 바이두도 너에게 불량배를 줄 것이다.

또 다른 작은 질문: 동음자사전에 한 글자가 포함되어 있습니까? 2 개의 단어와 3 개의 단어가 포함되어 있는데, 그럼 4 개의 단어와 더 긴 단어가 포함되어 있나요?

이곳의 단어는 대답하기 좋다. 테스트 없이 확실히 수록되지 않았다는 것을 알 수 있다. 왜냐하면 네가 단어를 입력했기 때문에, 누가 그것이 틀린 것인지 누가 알겠는가? (윌리엄 셰익스피어, 햄릿, 언어명언)

어차피 한자라면 어휘에서도 찾을 수 있어 판단 근거가 없다.

두 단어가 포함되어 있는데, 위에 예가 있다.

이 세 글자도 포함되어 있나요?

우리는' 중성약' 바이두의 잘못된 힌트' 중성약' 을 조회해 보자.

조회를' 성충약' 으로 수정하다.

그럼 바이두라는 네 글자로 어떻게 처리하는지 봅시다. 바이두가 또 우리에게 힌트를 줄까요?

입력: 경화 연운

소리 없는 연기 구름을 입력하다

경화 안현을 입력하다

그럼 비교적 긴 단어 바이두도 힌트가 있나요?

우리는 지금 진입한다:' 낙화계에 풍군이 있다'. 이 조회는 무슨 뜻입니까? 고시를 읽은 사람은 모두 알고 있을 것이다. 바이두의 힌트를 보세요.

그게 무슨 뜻이에요?

설명 동음자사전에는 길이가 다른 동음자 정보가 포함되어 있다.

또한 바이두의 가장 핵심 중국어 처리 기술도 설명했다. 바로 그 사전이 정말 크다는 것이다.

더 중요한 문제가 있습니다. 한자가 다음자인데 어떡하죠? 바이두가 게으르다. 다음자를 전혀 처리하지 않는다.

바이두가 병음을 표기한 실수를 살펴봅시다. 이 실수를 보기 전에, 먼저 바이두가 어떻게 다음자를 잘못 알려주는지 봅시다.

바이두는' 감독' 을 제시했다! ! 거창' 에는 여러 가지 철자가 있다. 무슨 소리야? 두 종류의' 장불/극장'

보시다시피, 다음자라면 몇 가지 상황을 제시해 주세요.

이제 잘못된 상황을 살펴 보겠습니다. 조회 "거리 길이" 를 입력하고 결과를 살펴 보겠습니다.

바이두는' 감독' 을 제시하는데 당연히 설명하기 좋다. 해음이기 때문이다.

그런데 왜' 감독' 에게 힌트를 줄까요? 이것은 바이두의 동음자사전이 틀렸다는 것을 보여준다.

설명어' 거장' 에는 잘못된 동음자' 주임' 이 포함되어 있다.

우리는 흔적을 따라갔다. 이 실수는 무엇을 의미합니까?

바이두 동음자사전이 자동으로 생성된다는 것을 설명하다. 그리고 수동 교정도 없다. 또한 바이두가 동음자사전을 자동으로 생성하는 과정에서 문장 한 편에 병음을 표기한 다음 어휘와 해당 병음 정보를 추출하여 얻은 것이 아니라는 점도 설명한다. 대신, 사전에 있는 단어에 따라 음절을 정확히 표기하여 다음자로 인한 오류를 식별할 수 없다. (존 F. 케네디, 언어명언)

문자가 병음으로 표시된 경우 쉽게 찾을 수 있는 이러한 잘못된 마크업이 나타나지 않을 수 있습니다. 물론 또 다른 설명은' 감독' 이 바이두의 고의적인 힌트로, 정확한 힌트어로 사용될 수 있다는 것이다.

남방 사람들이' zh' 와' ch' 전후의 콧소리를 분간할 수 없다는 점을 감안하기 때문이다.

이것이 어떤 상황인지 계속 테스트해 봅시다.

바이두가 잘못됐나요, 아니면 바이두의 고급 알고리즘인가요?

우리는 조회' 상' 을 입력하고 일부러' 상' 으로 잘못 입력했다.

오류 메시지가 없습니다. 이런 상황을 설명하는 것은 정말 고려하지 않고, 코소리도 고려하지 않는다.

위의 추론에 따르면, 우리는 다음과 같은 결론을 도출할 수 있다.

바이두는 병음 표기 프로그램을 이용하여 분사 사전의 각 단어를 병음으로 표기한 다음 동음자사전을 형성한다.

그래서 두 사전은 같은 크기이고, 이 사전도 분사 사전이 커짐에 따라 커진다.

표기 과정의 다음자에 관해서는 바이두가 고려하지 않았다. 다음자의 경우 여러 발음 조합으로 표시됩니다.

이렇게 하면 동음자사전이 형성된다. 이런 동음자사전은 분명히 많은 착오를 포함하고 있다.

마지막 질문: Baidu 는 영어 철자를 확인합니까? "중국" 에 대한 질의를 입력해보죠.

모두들 말해 봐, 무슨 일이야?

중국어 검색을 위주로 하는 바이두도 영어를 검색할 수 있다.

정말 깜짝 놀랐어요. 조회 "chini" 를 변경합니다.

그럼 병음 검색과 중국어 검사가 같은 동음자사전을 잘못 썼나요? 실험을 해보고' 영기' 를 검색해 봅시다.

마지막으로 Baidu 의 맞춤법 검사 시스템을 요약해 보겠습니다.

바이두의 백그라운드 작업입니다.

(1) 우리가 전에 말했듯이 바이두분사에 사용된 사전은 적어도 두 개의 사전이 포함되어 있는데, 하나는 공통사전이고, 하나는 전용사전 (고유 이름 등) 이다. ).

마지막으로 Baidu 의 맞춤법 검사 시스템을 요약해 보겠습니다.

바이두는 병음 표기 프로그램을 사용하여 모든 사전의 각 항목을 차례로 스캔한다.

그런 다음 병음을 표기하고, 다음자라면 모든 음을 표기한다. 예를 들면' 성장' 하면' 장다/성장' 이라고 표기한다.

(2) 표기된 단어를 통해 동음자사전을 건립한다. 예를 들면 위의' 성장' 과 같이, 두 개의 단어가 있을 것이다. 장대두가 크면 늘 커진다.

(3) 사용자가 로그를 조회하는 빈도 정보를 사용하여 각 중국어 항목에 가중치를 부여합니다. 일지, 이게 뭔지 알아? 기능

(4) 동음 이의어 사전을 만들었습니다. 물론 분사사전이 커지면서 동음자사전도 동시에 확대되었다.

맞춤법 검사:

(1) 사용자가 입력한 질의가 둘 이상의 하위 문자열인 경우 맞춤법 검사가 수행되지 않습니다.

(2) 사용자의 질의에 대해서는 먼저 단어 사전을 찾아보고, 단어 단어를 찾으면 철자를 검사하지 않는다.

(3) 사전에 사용자 질의가 포함되어 있지 않은 경우 맞춤법 검사 시스템을 시작합니다.

첫째, 병음 치수기입 프로그램은 사용자 입력을 치수화하는 데 사용됩니다.

(4) 동음자사전에서 표기된 병음을 스캔하고,

찾지 못하면 어떤 힌트도 주지 마라.

(5) 항목이 발견되면 가중치가 큰 힌트 결과 몇 개를 차례로 출력합니다.

루비 힌트:

(1) 사용자가 입력한 병음을 동음자사전에서 스캔합니다. 아무 힌트도 없이 찾을 수 없는 경우

(2) 항목이 발견되면 가중치가 큰 힌트 결과 몇 개를 차례로 출력합니다.

바이두의 분사 알고리즘을 더 분석하는데, 위에서 설명한 바와 같이 바이두의 분사 시스템은 양방향 최대 일치 분사를 채택한다.

그러나 나중에 추리 과정에 허점이 있다는 것을 알게 되었는데, 파생된 바이두 분사 알고리즘 단계는 여전히 너무 번거롭다. 그래서 앞의 유도가 틀렸는지 좀 더 분석해 보자.

그렇다면 이전 분석에는 어떤 허점이 있었을까요?

우리는 바이두가' 북경화 연운' 에 대한 분사를' 북/경화 연운' 으로 추정해 바이두분사에 역최대 일치가 있는 것으로 추정한다. 여기서 역최대 일치를 채택한 것 같다. 정면의 최대 일치 결과는' 베이징/중국/암운' 이어야 하기 때문에 바이두가 양방향 최대 일치를 채택했다고 추정하는 것은 너무 경솔하다.

우리가 전에 말했듯이 바이두에는 두 개의 사전, 공통사전과 독점사전이 있다.

그리고 독점 사전의 어휘는 먼저 나누고, 나머지 단편은 일반 사전에 나누어 준다.

위의' 북경화 담뱃구름' 은' 북/경화 담뱃구름' 으로 나뉜다.

또 다른 가능성은' 베이징의 구름' 이라는 단어가 독점 사전에 저장되어 있다는 것이다.

그래서 첫 번째 분석,' 베이징 연운' 을' 북방' 에서 벗어나게 하는 것은 별 구분이 없다. 그래서 드러난 것이다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언)

이것은 단지 가설일 뿐인데, 그렇다면' 베이징 연운' 이 독점 사전에서 사실인가?

또 다른 예로' 산 동북의 베이징 연운' 이 있습니다.

만약' 베이징 연운' 이 일반 사전에 있다면, 만약 반대로 나누면, 그 결과는, 만약 바로 분리되면, 반드시, 어차피 분리할 수 없을 것이다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 북경명언) 그게 무슨 뜻이에요? "경화 암운" 이 독점 사전에 있다고 설명한다.

따라서 먼저' 베이징 연운' 을 분할한 다음 나머지' 산동북동' 을 일반 사전으로 나누는 것은 분명 가장 큰 일치 결과다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언)

물론, 우리가 앞서 언급한 알고리즘에 따르면,' 동북산' 의 분할에서 결론을 내릴 것이다.

그러나 정방향 최대 일치보다 몇 가지 판단 단계가 더 많습니다. 효과가 같기 때문에 또 다른 더 간단한 방법도 통하기 때문에 당연히 간단한 방법을 선택했다. 따라서 Baidu 가 긍정적 인 최대 일치를 취한 예비 판단.

우리는 어떤 분사 알고리즘을 사용하는지 계속 테스트합니다.

독점 사전의 첫 번째 분사의 영향을 줄이기 위해 상대적으로 특별한 단어는 질의에 나타날 수 없다.

천재능급' 을 확인해 봅시다.

여기에는 전업사전 단어가 나오지 않았을 것이다. 바이두는 천재/에너지/등급으로 나뉜다.

가장 큰 일치의 결과인 것 같다.

또한 모든 검색어가 독점 사전에 나타나면 어떤 방법을 사용합니까?

이렇게 하려면 먼저 모든 단어가 독점 사전에 나타나게 해야 한다. 우리는 어떻게 이 점을 보장할 수 있습니까? 우리는' 산둥 수도' 를 조회하는데, 바이두는 그것을' 산둥/수도' 로 나누는데, 이는' 도쿄' 가 일반 사전에 있다는 것을 알 수 있다. 구조 조회 "진효동 경화 연운",

앞의 분석을 통해 우리는 이 두 단어가 모두 독점 사전에 있는 것을 볼 수 있다. 바이두는 진효동/경화 암운으로 나뉜다.

설명 전용 사전 어휘도 양수 최대 일치 또는 양방향 최대 일치를 사용합니다.

그래서 당신은 역방향 최대 일치를 사용 했습니까? "천샤오 동방불패" 쿼리 예제를 구성합니다.

우선, 우리는' 진효동' 과' 동방불패' 가 모두 독점 사전에 나타난다고 확신한다.

진효동/방/무패를 앞으로 쪼개면.

역분할이라면 천샤오/동방불패여야 합니다.

바이두의 분할이 있는지 없는지, 즉 가장 큰 일치를 채택한다는 것을 알 수 있다.

분석을 통해 바이두의 사전에는' 무패' 라는 단어가 없다. 그래서 사실 바이두의 분할은 우리의 이전 알고리즘과 분명히 모순되기 때문에 이전의 분석 알고리즘에는 문제가 있었기 때문에 바이두가 정방향 최대 일치 알고리즘을 채택했다는 결론을 내렸습니다.

Baidu 의 분사 시스템을 요약하십시오: 먼저 독점 사전을 사용하여 최대 양의 일치 분사를 통해 일부 결과를 분할한 다음 나머지 부분을 일반 사전에 전달하고 최대 일치 분사를 사용하여 결과를 출력합니다.

또한 구글은 정방향 최대 일치 분사 알고리즘을 사용합니다.

하지만 전문 사전이 없는 것 같아서 많은 고유 명사들이 잘게 다졌다.