중화사전망 - 서예자전 - 특허 문헌 검색 도구 (system) 는 특허 문헌의 번역 시스템을 자동으로 번역할 수 있다.
특허 문헌 검색 도구 (system) 는 특허 문헌의 번역 시스템을 자동으로 번역할 수 있다.
특허 문헌 번역의 특징
일반 텍스트의 번역에 비해 특허 문헌의 번역은 다음과 같은 특징을 가지고 있다.
● 전문 분야가 많다. 특허 문헌은 강력한 분야 특성을 가지고 있어 기존 범용 번역 소프트웨어를 직접 사용하면 이상적인 번역 결과를 얻기가 어렵다. 그러나 특허 문헌 분야는 국제 특허 분류번호로 나눌 수 있어 비교적 명확하다. 동시에 수년간의 축적 끝에 특정 분야의 이중 언어 병렬 코퍼스를 비교적 쉽게 얻을 수 있어 기계 번역의 어료 수집 및 영역 구분이 용이합니다.
● 많은 기술 용어와 법률 용어를 사용한다. 특허 문헌에는 대량의 기술 용어와 법률 용어가 포함되어 있어 번역자의 종합적인 자질에 대한 요구가 높다. 이에 따라 특허 번역에 대한 보수도 높다. 예를 들어 외국에서 모국어를 외국어로 번역하는 번역비는 100 원어당 약 30 ~ 50 달러입니다. 일부 희귀 언어의 경우 번역 서비스의 가격이 더 높을 것이다. 따라서 자동 번역 또는 보조 번역을 사용하여 기술 용어 및 법률 용어의 번역 문제를 해결하면 특허 번역 비용을 크게 절감할 수 있습니다.
● 번역이 많은 언어. 특허 문헌은 일정한 민족적 특색을 가지고 있기 때문에 특허 문헌은 종종 서로 다른 언어 간에 번역해야 한다. 각 언어 번역 방향에 번역 시스템이 구축되어 있다면 개발 비용이 많이 들 것입니다. 따라서 언어와 무관한 번역 기술을 사용하는 것은 합리적인 선택이다.
● 문서 형식 규범, 언어 엄밀함. 특허 문헌은 법률 문헌의 어떤 특징을 가지고 있기 때문에 뉴스나 구두 번역에 비해 문자의 형식은 비교적 고정되어 있고 언어는 비교적 규범적이다. 특허 문헌에는 "본 발명의 목적은 X", "권리 요구 사항 N 에 설명된 X 가 Y 를 특징으로 한다" 와 같은 "문장집" 이라고 하는 고정 문장이 포함되는 경우가 많습니다. 여기서 X 와 Y 는 임의의 단어나 문장이 될 수 있고, N 은 임의의 숫자 조합입니다. 이 문장 패턴 템플릿은 기계 자동 번역에 적합합니다.
특허 문헌의 이러한 특징을 분석해 보면 형식 규범, 분야 명확한 특허 번역에 기계 번역 방법을 사용하면 더 나은 번역 효과를 얻을 수 있다는 것을 알 수 있다. 특히 최근 빠르게 발전한 통계기계 번역 기술은 언어 독립성, 분야 이식성, 지식 습득 편의성, 개발주기 단축 등의 특징을 갖추고 있어 특허 문헌 번역 시스템 구축에 적합하다.
중과원은 다국어 상호 작용 기술 연구소를 계산해 다년간의 기계 번역 연구 경험을 가지고 있으며, 최근 몇 년 동안 통계 기계 번역 연구 방면에서 좋은 성적을 거두었다. 북경 동방영방패기술유한공사는 특허 문헌 번역에 대한 수요가 매우 커서 자동번역 소프트웨어를 이용하여 번역의 질과 효율성을 더욱 높이고자 합니다. 오리엔탈 링 방패 기술 유한 (Eastern Ling Technology Co., Ltd.) 의 의뢰로 컴퓨팅 연구원들은 다국어 상호 작용 연구소에서 축적한 통계 기계 번역 기술을 특허 문헌 번역의 특징과 결합하여 특정 분야의 중영 특허 문헌 번역 시스템을 설계하고 구현했습니다. 현재 이 시스템의 번역 분야는 한의학 특허 문헌이다. 통계 기계 번역 기술이 채택됨에 따라 이 시스템은 다른 기술 분야의 특허 번역에 쉽게 이식될 수 있습니다.
시스템 전체 설계
대규모, 다중 사용자, 동시 작업의 요구를 충족하기 위해 이 시스템은 서버/클라이언트 네트워크 서비스 모델과 멀티 스레드 스케줄링을 사용합니다. 시스템의 물리적 구조와 논리적 프로세스는 다음과 같습니다.
1. 물리적 구조
한영 특허 문헌 기계 번역 시스템의 물리적 구조는 다음과 같은 두 부분으로 구성되어 있습니다.
● 번역 엔진 서버: 번역 서비스 제공 및 번역 리소스 관리를 담당합니다.
● 클라이언트: 사용자에게 번역 결과를 제공하고, 보조 번역 도구를 제공하고, 서버에 사용자 요청을 제출하는 역할을 담당합니다.
여기서 서버는 주로 번역 코어 디코더와 구문 목록, 언어 모델, 템플릿 라이브러리, 사전, 메모리 등 필요한 다양한 리소스를 저장합니다. 서버는 이러한 자원을 통일적으로 관리하고 합리적으로 스케줄링합니다. 또한 서버는 각 사용자 스레드의 일정 및 슬라이스 할당을 책임지고 각 사용자가 작업을 제출하는 우선 순위를 조정합니다.
클라이언트는 일반 사용자 클라이언트와 관리자 사용자 클라이언트로 나뉘며 사용자마다 다른 권한을 갖습니다. 클라이언트는 사용자에게 편리한 편집 및 수정 인터페이스를 제공하는 동시에 사용자에게 작업 상태 및 서버 상태를 볼 수 있는 기능을 제공하여 서버의 일부 리소스에 실시간으로 액세스하고 수정할 수 있습니다. 클라이언트를 통해 사용자는 번역을 위해 파일을 쉽게 대량 업로드할 수 있으며, 반환된 결과를 수정하고, 번역을 다시 제출하고, 번역 결과를 대량으로 내보낼 수 있습니다.
서버와 클라이언트는 독립적으로 실행할 수 있는 프로세스이며 네트워크를 통해 서로 연결됩니다.
2. 논리 프로세스
시스템의 논리적 구조는 데이터 입력, 시스템 내부 처리를 통한 예상 결과, 최종 출력에 이르는 전체 프로세스를 설명하는 시스템의 전체 비즈니스 프레임워크입니다 (이 시스템의 논리적 프로세스 참조 다이어그램은 그림 1 참조).
특히 시스템의 주요 프로세스는 다음과 같습니다.
● 번역 서비스: 사용자가 제출한 문장이나 텍스트 파일을 번역하고 번역 결과를 출력한다. 번역 과정에서 메모리 관리자, 사전 관리자, 템플릿 라이브러리 관리자를 호출하여 통계 번역 모델 라이브러리에 액세스합니다.
● 메모리 관리: 메모리 구성 및 관리, 질의, 추가, 수정, 삭제, 번역 샘플 내보내기 등의 작업을 담당합니다. 사용자 또는 번역사가 메모리 작업 요청을 제출하면 메모리 관리 모듈이 메모리에 액세스하여 적절한 작업을 수행하고 결과를 피드백합니다.
● 사전 관리: 관리 시스템의 모든 사전을 구성하고 사전 조회, 추가, 삭제, 대량 가져오기 내보내기 등의 작업을 수행합니다. 사용자 또는 번역사가 사전 작업 요청을 제출하면 사전 관리 모듈은 시스템 사전 라이브러리에 액세스하여 적절한 작업을 수행하고 결과를 피드백합니다.
● 템플릿 라이브러리 관리: 템플릿 라이브러리 구성 및 관리, 템플릿 쿼리, 추가, 수정, 삭제, 가져오기, 내보내기 등을 담당합니다. 사용자 또는 번역사가 템플릿 작업 요청을 제출하면 템플릿 관리 모듈이 템플릿 라이브러리에 액세스하여 적절한 작업을 수행하고 결과를 피드백합니다.
● 사용자 관리: 사용자 추가, 삭제, 권한 설정 등의 작업을 수신 및 수행합니다.
시스템에 사용되는 주요 번역 기술
이 시스템은 주로 템플릿 기반 번역 방법과 메모리 기반 번역 방법을 결합한 통계 번역 기술을 기반으로 합니다.
1. 통계 기반 번역
통계 기계 번역 기술은 현재 국제적으로 선도적인 기계 번역 기술로 기존의 규칙 기반 번역 방법의 주요 단점을 극복합니다. 전통적인 규칙 기반 기계 번역 방법에서 번역 지식은 주로 사전과 규칙에 반영되며, 사전과 규칙은 주로 인간 전문가가 작성한다. 이 접근법의 주요 문제점은 인간 전문가가 언어 지식을 작성하는 데 많은 인력, 물력, 시간이 걸린다는 것이다. 서면 지식으로는 실제 번역 환경의 다양한 문제를 다루기가 어렵다. 서면 언어 지식은 충돌에 직면할 때 좋은 해결책이 없다. 서면 언어 지식은 다른 언어와 영역으로 이식하기가 쉽지 않다. 통계 기계 번역에서 모든 번역 지식은 실제 병렬 코퍼스에서 나온 것으로, 통계 모델링을 통해 병렬 코퍼스의 번역 지식을 자동으로 학습하여 인간 전문가가 지식을 어셈블할 때 직면하는 주요 문제를 극복합니다. 요약하면, 통계 기계 번역은 다음과 같은 장점을 가지고 있습니다.
(1) 다른 지식 영역으로 쉽게 마이그레이션할 수 있습니다. 새로운 분야의 이중 언어 병렬 코퍼스를 얻으면 해당 분야에 적합한 번역 시스템을 신속하게 구축할 수 있습니다. 특허에는 다양한 분야의 특허 번역 텍스트를 쉽게 얻을 수 있는 규범적인 도메인 분할 체계가 있어 통계 기계 번역의 이 기능은 특허 번역 시스템에 특히 적합하다.
(2) 다른 언어로 이식하기 쉽다. 통계 기계 번역은 언어 독립성이 가장 크므로, 아주 적은 언어 처리만으로 새로운 언어 쌍의 번역 시스템을 구축할 수 있다. 이로 인해 여러 언어로 번역해야 하는 특허의 시스템 개발 비용이 크게 절감됩니다.
(3) 규칙을 수동으로 작성할 필요가 없습니다. 모든 번역 지식은 이중 언어 병렬 코퍼스에서 자동으로 얻어지므로 시스템 개발에 필요한 인력, 물력 및 시간을 크게 줄일 수 있습니다. 통계 번역 시스템은 통계 모델을 기반으로 하며 지식의 충돌을 극복할 수 있는 합리적인 솔루션도 있습니다.
(4) 시스템의 번역 품질은 교육 데이터의 증가에 따라 점차 향상될 수 있다. 특허 번역 시스템이 사용됨에 따라 점점 더 많은 이중 언어 병렬 코퍼스를 생성할 수 있으며, 사용 과정에서 시스템의 번역 성능을 더욱 향상시키고 번역 품질을 향상시킬 수 있습니다.
시스템 구현에서 연구원들은 구 기반 통계 기계 번역 모델을 채택했다. 이 모델은 구를 기본 번역 단위로 사용하여 이중 언어 코퍼스에서 모든 구문 번역을 자동으로 가져오고 구문 간 번역 확률, 즉 번역 모델을 가져옵니다. 게다가, 우리는 훈련 단계에서 목표 언어 모델을 얻었다. 번역 과정에서 번역 모듈은 잘 훈련된 번역 모델과 언어 모델에 따라 특정 디코딩 알고리즘을 통해 전체 문장의 번역 결과로 가장 가능성이 높은 후보 구문 번역 조합을 선택합니다.
2. 템플릿 기반 번역
템플릿 기반 접근 방식을 사용하면 시스템 번역 패턴이 비슷한 문장을 쉽게 번역할 수 있습니다. 특정 분야의 특허 문헌에는 종종 일정한 문장형이 포함되어 있다. 예를 들어, 다음은 한의학 분야의 몇 가지 특허의 제목입니다.
류머티즘 심장병을 치료하는 한약.
뼈 증식을 치료하는 약봉지.
안신작용을 하는 무설탕 한약 복합물과 그 제비 방법.
다이어트 작용을 하는 젤라틴 보건식품과 그 제비 방법.
이 제목들은 문장식에서 큰 유사점을 가지고 있으며' X 의 A Y 치료' 와' X 기능이 있는 A Y 및 그 제비 방법' 이라는 두 가지 템플릿으로 요약할 수 있다는 것을 알 수 있다. 번역 시스템에서 전체 번역 템플릿은 "템플릿의 소스 언어 부분" 과 "템플릿의 대상 언어 부분" 으로 구성되며, 각 섹션은 "템플릿의 상수 부분" 과 "템플릿의 가변 부분" 으로 나뉩니다. 예를 들어 위의 두 템플릿은 번역 시스템에서 다음과 같이 표시됩니다.
# # 2 {...} 치료 # #1{...}
= => 1 ##2 치료 ## 1
# #1{...} 기능을 갖춘 # # 2 {...} 및 그 제조 방법
= => # 1 효과가 있는 #2 및 그 제조 방법
여기서 "##N" 은 템플릿의 변수 부분이고 "n" 은 대상 언어에서 서로 다른 변수의 대응 관계를 구별하는 데 사용됩니다. 변수 뒤의 "{...}" 에서 일치 문자열의 길이, 일치 방법 (절 시작 또는 절 끝 일치), 변수에 포함되거나 포함되지 않아야 하는 단어 등과 같은 제약 조건을 추가하여 템플릿의 표현 능력을 높일 수 있습니다. 이곳의 템플릿은 전체 문장과 절을 일치시킬 수 있다.
템플릿이 일치하면 위의 예가 다음과 같이 번역됩니다.
류머티즘 심장병을 치료하는 한약.
뼈 증식을 치료하는 약봉지.
안신작용을 하는 무설탕 한약 복합물과 그 제비 방법.
다이어트 작용을 하는 젤라틴 건강식품과 그 제비 방법.
문장 패턴 템플릿 매칭을 통해 일부 고정 문장 패턴을 잘 번역할 수 있을 뿐만 아니라 장거리 문장 정렬도 할 수 있어 구 기반 통계 번역 방법의 장거리 정렬 부족을 보완할 수 있다는 것을 알 수 있다. 둘째, 템플릿이 일치하면 템플릿의 일부 상수가 올바르게 번역되고 통계 번역 디코더는 나머지 어구만 번역하면 통계 디코더의 부담을 어느 정도 줄일 수 있습니다.
이 시스템에서 정의한 문장 패턴 템플릿은 직관적이며 언어 작업자가 쉽게 이해할 수 있습니다. 사용자는 번역 할 텍스트의 문장 패턴 특성에 따라 번역 템플릿을 추가 할 수 있으므로 시스템의 유연성이 크게 향상됩니다.
3. 메모리 기반 번역
시스템을 사용하는 동안 사용자는 번역이 정확한 문장을 대량으로 메모리에 추가할 수 있다. 번역 중 메모리에 같은 문장이 있으면 시스템은 정확한 번역을 빠르게 검색할 수 있다. 메모리가 일정 규모로 축적되면 훈련 어료에 가입하여 시스템의 자동 번역 품질을 더욱 향상시킬 수 있다.
또한 번역 시스템을 통해 필요에 따라 도메인 번역 사전과 사용자 번역 사전을 추가할 수 있어 시스템에 대한 사용자의 통제력이 향상됩니다.
그림 2 는 중국어 텍스트의 번역을 예로 들어 시스템의 주요 번역 프로세스를 보여 줍니다. 이를 통해 독자들은 번역 과정 전반에 걸쳐 이러한 번역 기술의 역할과 지위를 알 수 있습니다. 입력한 중국어 텍스트의 경우 먼저 메모리 관리 모듈을 통해 번역 메모리를 검색하고 번역 결과가 이미 있는 경우 직접 반환합니다. 그렇지 않으면 시스템은 분사 도구를 호출하여 중국어 분사를 수행하고 분사 결과를 사후 처리한 다음 템플릿 일치 모듈을 호출하여 텍스트를 템플릿 일치시키고 마지막으로 통계 기반 번역을 수행합니다. 통계 번역은 통계 번역 모델 라이브러리, 즉 번역 모델과 언어 모델을 호출해야 합니다.
시스템의 주요 기능 및 성능
사용자는 시스템에서 제공하는 사용자 인터페이스를 통해 수정된 파일을 쉽게 열고 번역 용어 및 번역 템플릿을 동적으로 추가하여 번역 결과를 안내할 수 있습니다. 동시에, 그들은 사전에서 수정 중인 산간자를 즉시 찾아 수정된 정확한 결과를 메모리에 대량으로 추가할 수 있다. 수정하면서 사용자는 여전히 서버에 번역 작업을 대량으로 제출하여 대기할 수 있으며, 작업 번역이 완료되면 번역 결과 파일을 다운로드하라는 메시지가 표시됩니다. 이 시스템은 클라이언트의 다른 비번역 작업 실행에 영향을 주지 않고 서버 백그라운드에서 대량 번역 작업을 처리하는 다중 사용자 멀티 태스킹의 동시 실행을 충분히 고려하도록 설계되었습니다.
1. 번역 품질
이 시스템은 동양방패기술유한공사가 제공하는 한의학 분야 8 만 쌍의 문장 (평균 문장 길이 3 1 자) 을 사용하여 훈련을 진행한다. 번역 품질 평가는 국제적으로 통용되는 평가 지표인 Bleu 와 통용되는 평가 도구인 MTeval-V 1 1b.pl 을 사용합니다
2006 년 국제적으로 유명한 NIST 기계 번역 중국어-영어 번역 대규모 데이터 세트 평가에서 NIST 하위 세트 (한 문장에 네 개의 참고 답안이 있음) 의 최고 성적은 0.3393, Gale Gale 하위 세트 (각 문장에는 1 개의 참고 답안이 있음) 입니다. NIST 기계 번역 평가에 사용되는 교육 데이터와 테스트 데이터는 모두 뉴스 분야에서 나온 것으로, 이 특허 번역 시스템에서 사용하는 데이터보다 교육 데이터 규모가 훨씬 큽니다. 이 두 가지가 직접적인 비교가능성은 없지만 특허 분야에서의 번역 수준은 세계 최고의 뉴스 분야에 비해 소량의 훈련 어료만 사용하는 번역 수준에 이르거나 능가하고 있다는 것을 알 수 있다. (윌리엄 셰익스피어, 윈스턴, 독서명언) (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마)
2. 번역 속도
번역 속도는 시간당 얼마나 많은 단어를 번역하느냐에 따라 측정됩니다. 현재 이 시스템의 번역 속도는 시간당 654.38+0.4 만 자입니다. 특허 제목당 평균 20 단어, 특허 요약당 200 단어, 시스템 작업 12 시간 후 84,000 개의 제목이나 8400 편의 요약을 자동으로 번역할 수 있습니다. 이러한 번역 속도는 일상적인 보조 번역 작업의 요구를 충분히 충족시킬 수 있다.
요약하자면, 이 시스템은 세계 최고의 통계 번역 기술을 채택하고 템플릿과 메모리 기반 번역 방법을 결합하여 실용적인 한영 특허 문헌 번역 시스템을 구현했습니다. 이 시스템은 자동 번역 기능뿐 아니라 편리한 보조 번역 기능도 제공합니다. 사용자는 자동 번역의 결과를 수정하고, 사전과 템플릿을 동적으로 추가하여 번역을 안내하며, 수정된 결과를 대량으로 메모리에 추가할 수 있습니다. 현재 이 시스템은 시범 단계에 접어들었으며 번역 품질과 속도가 사용자의 기본 요구 사항을 충족합니다.
(저자 푸레, 호, 중국과학원 계산기술연구소 대학원생)