중화사전망 - 중국어 사전 - 러시아 언어학의 언어학 공학
러시아 언어학의 언어학 공학
공학언어학의 연구 성과는 주로 기계번역, 자동정보검색, 언어식별, 프로그램 교육, 자동번역 등 인간-컴퓨터 대화 및 자연어 정보처리 분야에서 널리 활용되어 왔다. 도서 및 신문 정리 시스템, 자동 제어 시스템, 국제 통신 네트워크 및 기타 분야. (참조: Wang Dechun, 1997: 411-415)
위에서 언급했듯이 러시아 공학 언어학의 가장 실용적인 연구 목표 중 하나는 언어 자동 장치를 설계하고 구축하는 것입니다. 여기서는 주로 언어 이론과 기술에 대해 논의할 것입니다. 오토마타 건설과 관련된 기술적 문제.
1. 언어 오토마타 구축을 위한 정보 기호학 원리와 언어 전략
(1) 언어 오토마타 구축을 위한 정보 기호학 원리
Piotrovsky 그리고 다른 사람들은 언어적 오토마타를 인간의 언어적 사고 활동의 실제 작동 모델로 이해했습니다. 이는 컴퓨팅 수단과 프로그램 수단의 합성입니다. 주요 구성 요소는 다음과 같습니다: 1) 매우 강력한 특수 컴퓨터 또는 범용 컴퓨터 2) 대용량 어휘 및 필요한 문법 정보를 다루는 언어 지식 기반(лингвистическаяинформационнаябазаданных, ЛИБД) 3) 언어 프로그램 보호(лингвистическое прог) раммноеобеспе- чение, ЛПО); 4) 응용 시스템 및 서비스 수단, ЛИБД 및 ЛПО 운영 절차를 지원합니다. (Пиотровскийидр., 1993: 125)
Piotrovsky와 다른 사람들은 텍스트 생성, 변형 및 인식을 위한 특정 기호학적 스키마를 탐구하고 확립하는 것이 언어 자동 장치 개념 형성의 이론적 기초라고 믿습니다. 또한 공학 언어학 모듈을 구축하는 초석이기도 합니다. 언어학, 심리언어학, 인지과학 분야의 연구 결과는 인간-컴퓨터 통신 모델에 필요한 이론적 지원을 제공합니다. 기존 이론 이론에 대한 심층적인 연구와 포괄적인 분석을 통해 러시아 학자들은 언어 자동 장치 구축을 위한 심리언어학적 기호 스키마가 된 확장된 소쉬르주의 언어 기호 모델을 제안했습니다. (Piотровский, 1984: 22-23; Шингарева, 1987: 6-29) 이 도식은 객관적 현실을 반영하는 명시적 의미(Dn1)에서 시작하여 주제 지시 대상 수준을 거쳐 담론의 어휘-문법적 부호화와 철자-음운적 부호화. 담론의 발전은 의사소통-화용적 연산자(коммуникативно-прагматическийоператор, КПО)의 통제하에 수행됩니다(Piotrowski, 1990: 108). 이 연산자는 어휘(тезаурус, θ)와 언어 능력(лингви стическ)을 보장합니다. аякомпетенция, ЛК) 구성 요소를 사용하여 담화 생성 과정에서 레벨 변환을 자동으로 조정합니다.
담화 인식 및 해독에 관한 연구와 관련하여 СтР 연구 그룹은 주로 다음 두 가지 도식에 의존합니다.
첫 번째 가설 도식에 따르면, 담화에 의해 수신되는 소리 또는 해독은 다음과 같습니다. 사용자는 시각적(이미지) 신호를 ЛК 구성 요소에 배치된 감각 패턴(음성 또는 텍스트)과 비교합니다. 이 비교가 긍정적인 결과를 낳는 경우, 문장과 그 구성 부분(구 및 어휘 사용)에 대한 표면 수준의 어휘-문법적 분석이 포함되어야 합니다. 그 후, 백과사전, ЛК 및 문맥 분석에서 얻은 의미-구문 정보를 주로 기반으로 하는 지시 의미 수준에서 심층적인 주제 운율 분석이 수행됩니다. 마지막으로 명시적 참조(денотат) 수준에서는 각 수준의 담화 정보에 대한 일반적인 설명을 제공한다. 위에서 언급한 조작은 개인의 화용론, 전제, 맥락에 대한 선이해를 통해 사용자가 담화의 명시적 정보를 얻을 수 있게 해준다(Dn2). Dn1=Dn2라는 방정식은 사용자가 수신한 정보가 메시지 발신자의 원래 의도와 완전히 일치함을 보여줍니다. Dn1≠Dn2의 경우 사용자의 담화 정보 해독은 메시지 발신자가 제공한 의미와 일치하지 않습니다. .
두 번째 가설 스키마에 따르면 사용자는 담화 정보의 지각적 복호와 어휘-문법적 복호 과정에서 이미 Dn2에 대한 검색을 시작했습니다. 검색이 시작될 때 문장의 주요 기호(개별 스키마, 구문, 간단한 의미-구문 스키마)가 전면에 나타납니다. 검색 자체는 수신된 발화의 의미에 대한 가정을 형성하는 참조 환경의 참조 및 전제를 포함하여 개인의 실용적인 의도 및 기대를 기반으로 사용자가 수행합니다. 다음으로 사용자의 화용의도와 전제를 바탕으로 필요에 따라 어휘-문법적 분석을 수행하고, 획득된 정보를 θ, ЛК에 등록된 의미-구문적 프레임 정보와 비교하여 해당 단어를 선택한다. 담론의 명시적 참조(이미지를 의미) 가장 적절한 가설. 텍스트 인식의 모든 작업은 КПО의 통제하에 구현됩니다.
(2) 언어 오토마타 구축을 위한 언어 전략
언어 오토마타 구축에는 두 가지 주요 언어 전략이 있습니다.
첫 번째 전략은 선택을 의미합니다. 언어 자동 장치에 대한 일반 알고리즘을 개발할 때 어휘 우선 순위와 문법 우선 순위(лексическаяилиграмматическаяприоритетность) 사이. 이 문제를 해결하기 위해 СтР 연구 그룹은 다음 두 가지 고려 사항을 기반으로 합니다. 1) 어휘는 텍스트에 포함된 대부분의 정보를 전달하기 때문에 텍스트 연구를 위한 정보 인덱스로 어휘를 사용하고 2) 단일의 기계 학습을 약화시킵니다. 어휘 단위 입력 문장의 구문 분석 역할과 출력 문장의 구문 구조를 생성하는 역할을 분석 및 종합하는 일반적인 관행과 달리, 언어 자동 장치를 구축하는 것은 문법 알고리즘의 개발에서 시작되는 것이 아니라, 어휘의 구성입니다. 언어 자동화 및 텍스트 어휘 편집이 먼저 수행됩니다.
두 번째 전략은 촘스키의 엄격한 연역 모델과 확률적 기능적 언어 문법 중에서 선택하는 것입니다. 연역적 패턴은 정부 및 바인딩 문법(Chomsky, 1982), 트리 인접 문법(Joshi, 1987) 및 구 구조 문법(GPSG)(Ristad, 1990)과 같은 현대 기계 번역 시스템에서 사용되는 형식 문법에 여전히 영향을 미칩니다. ). 실제로, 확률론적 기능 문법의 기본 개념은 1960년대 초 Greenberg(Гринберг, 1970), Filmer(Филлмор, 1981) 및 Halliday(Halliday, 1984)의 저작에 반영되었습니다.
간단히 말하면, 언어 자동 장치에서 텍스트의 분석 및 합성 과정을 시뮬레이션하기 위해 СтР 연구 그룹이 채택한 언어 전략은 일반적인 상황의 원자가 모델(프레임워크)을 기반으로 하는 기능적 언어를 지향합니다. 학습, 모호성 해결을 위한 확률적 패턴, 이미지를 의미하는 텍스트에 대한 형태 인식 등이 포함됩니다. (Пиотровскийидр., 1993: 127)
2. 언어 오토마타의 기본 구조와 표현 스키마
(1) 언어 오토마타의 구조적 원리
에서 언어 오토마타의 아키텍처를 설명하려면 위의 언어 전략에 따라 두 가지 기본 원칙을 공식화해야 합니다.
1) 개방형 계층적(모듈 수준) 조직을 구축합니다. 언어자동화 모듈을 추가하거나 뺄 수 있는 가능성은 담화 생성 및 인식의 특정 수준에 대한 각 모듈의 관련성을 보여줍니다.
2) 언어 자동 구성 준비의 전체 과정에서, 운영과 개선, 인간 기계와의 지속적인 상호작용. 이는 기계 사전과 기계 문법을 컴파일하고 언어 오토마타에 자가 학습 기능을 부여할 때 자연어 전통에 대한 "인간" 지식을 활용해야 할 뿐만 아니라 다양한 장르의 대규모 실제 텍스트에 대한 광범위한 기계 조사가 필요함을 의미합니다. 필수. 각 가상 텍스트 라이브러리(корпусвиртуальныхтекстов, КВТ)는 특정 스타일의 기능적 기계 문법을 확립할 수 있는 지식 기반으로 간주되어야 합니다.
(2) 언어 자동자의 표현 방식
언어 자동자는 복잡한 시스템으로 그 다차원적 표현은 컴퓨터 하드웨어(하드웨어), 시스템-서비스 소프트웨어(소프트웨어)를 기반으로 한다. ) ) 및 모델과 스키마를 기반으로 하는 언어 프로그램 보증 구성 요소(링웨어)입니다. 언어 자동장치를 표현하는 데 사용되는 두 가지 스키마, 즉 구조-기능 스키마와 관할권-결정 스키마가 아래에 소개됩니다.
1. 구조-기능 스키마(структурно-функциональнаясхема)
이 스키마는 다음 네 가지 수준을 포함하는 계층적 시스템입니다.
1) 하위 수준은 다음을 참조합니다. 입력 및 출력 어휘 매뉴얼, 형태소 목록 및 기타 문법 항목 목록을 포함하여 인간 언어 사고의 어휘 라이브러리 및 언어 능력 구성 요소와 유사하게 기능하는 언어 정보 데이터베이스에 적용됩니다.
2) 중간 계층은 다수의 기능 모듈을 포함하며 각 모듈은 특정 언어 작업을 완료하고 인간의 언어적 사고 활동의 특정 기능을 시뮬레이션합니다.
이러한 기능 모듈은 다음 두 가지 하위 집합으로 더 나뉩니다.
첫 번째 하위 집합에는 10개의 분석 모듈(анализирушиемодули)이 포함됩니다.
—텍스트 디코딩 모듈(d ),
—텍스트 교정 모듈(c),
—텍스트의 핵심 어휘 단위에 대한 어휘 분석 모듈(lk),
—텍스트 어휘 분석 텍스트의 모든 어휘 단위에 대한 모듈(l),
—텍스트의 어휘 사용에 대한 자동 어휘 분석 모듈(q),
—핵심 어휘 단위의 어휘-형태학적 분석 텍스트 분석 모듈(λk),
—텍스트의 모든 어휘 단위에 대한 어휘-어휘 분석 모듈(λ),
—텍스트의 표면 구조 분석 모듈(g) text,
—텍스트(s1)의 심층(주제-운율) 구조 분석 모듈,
—텍스트(s2)의 의미-실용적 분석 모듈.
두 번째 하위 집합에는 8개의 포괄적인 모듈(синтезирушиемодули)이 포함됩니다.
—텍스트 또는 음성 표현(인코딩) 모듈(k),
—텍스트 교정 모듈( c),
—어휘 합성 모듈(l'),
—자동 어휘 합성 모듈(q'),
—어휘 어휘-어휘 합성 모듈 (λ') 사용법 및 문구,
—출력 텍스트의 표면 구조 합성 모듈(g'),
—출력 텍스트의 테마-rhem 구조 합성 모듈(s1) '),
—텍스트의 의미-실용적 합성 모듈(s2').
3) 상위 계층은 중간 계층의 기능 모듈과 언어 정보 중 어휘(L), 문법(G) 정보를 처리하는 통합 프로그램-기능 복합체(F)로 구성된다. 데이터 베이스.
러시아 학자들은 위의 모든 모듈을 포함하는 완전한 언어 자동 장치를 구축하는 데 아직 성공하지 못했다고 인정하지만, 텍스트 교정 및 편집, 예비용으로 사용할 수 있는 작은 언어 자동 장치의 구축에는 성공했습니다. 어휘 - 어휘 분석, 텍스트의 "대략적인" 번역 등
4) 높은 수준은 인간-컴퓨터 상호작용의 형태로 반영되며, 이 상호작용은 조건적으로 인간의 언어적 사고 도식에서의 동기 및 КПО와 부분적으로 유사하다고 볼 수 있다.
2. 관할권 결정 스키마(схемауправленияирешения)
인간의 언어적 사고 활동과 유사하게 자동 텍스트 처리 시스템은 종종 불확실한 인식 작업과 연관되어 있습니다. 이러한 불확실성은 기계사전과 기계문법에 객관식 형태로 담겨 있는데, 이에 대해서는 인공지능 특성을 지닌 언어자동장치가 올바른 판단을 내려야 한다.
언어 오토마타의 의사 결정 스키마는 세 가지 수준으로 나눌 수 있습니다.
1) 자기 조직화 계층은 일반적으로 인간-컴퓨터 상호 작용을 통해 전체 작업을 완료하기 위한 최적의 전략을 선택하고 필요한 하위 전략을 결정합니다. -이 전략에 기반한 시스템.
2) 언어 오토마타 텍스트 처리의 적응 계층은 주로 언어적 문제를 해결하며 그 기능은 어휘 단위의 모호성, 형태학적 문제와 같은 불확실한 요소를 제거하는 것입니다.
3) 결정된 작업의 솔루션 선택 계층은 특정 작업에 대한 다양한 개발 계획을 공식화합니다. 기술 경로, 특정 알고리즘, 구현 단계 및 기타 여러 측면을 포함한 언어 엔지니어링 프로젝트.
제5부: 러시아 공학 언어학의 두 주요 학술 센터와 그 대표자 및 주요 업적
학과의 학문적 역사를 살펴보면 다음과 같은 점을 찾는 것이 어렵지 않습니다. 러시아 공학 언어학 연구는 거의 반세기에 걸친 발전을 거쳐 눈부신 학문적 성과를 거두었으며 상트페테르부르크 센터와 모스크바 센터라는 두 개의 주요 학술 센터를 형성했습니다. 러시아 공학 언어학은 고유한 학문적 특성을 가질 뿐만 아니라 세계 학문 발전의 전반적인 배경과도 분리될 수 없다는 점에 유의해야 합니다. 초기 기계번역 실험과 서구의 형식언어학 이론은 구소련과 붕괴 이후 러시아의 응용언어학 관련 학문 연구에 중요한 영향을 미쳤다.
1. 상트페테르부르크 학술센터
상트페테르부르크 학술센터 대표는 먼저 피오트로프스키를 '구소련 전산언어학의 창시자'로 추천한다. 연합" . 그가 이끄는 СтР 연구그룹은 국제학술단체로 성장하여 폭넓은 저술 활동을 펼쳤으며, 특히 공학언어학의 기초이론 연구와 응용개발 분야에서 괄목할 만한 성과를 거두었으며, 특히 국제 학계의 주목을 받고 있다. 그의 논문(Пиотровский, 1979)은 여전히 많은 러시아 대학의 중국어 전공 교육 참고서로 등재되어 있으며, 그의 학문적 아이디어는 유명한 러시아 기계 번역 회사의 소프트웨어 개발에 성공적으로 사용되었습니다. ПРОМТ. 이 책의 서문에서 우리는 공학 언어학 주제에 대한 대략적인 개요와 언어 오토마타의 설계 원리 및 전반적인 아키텍처에 대한 간략한 설명을 통해 상트페테르부르크 학파의 주요 성과에 대한 전반적인 이해를 얻었습니다. 이 책의 1장과 2장 1절에서 좀 더 자세한 소개와 복습이 있을 것이므로 여기서는 자세히 다루지 않겠다.
상트페테르부르크 학술센터에서 주목할만한 또 다른 연구 그룹은 게르트(А.С.Герд)가 리더인 상트페테르부르크 대학교의 수리언어학 교육연구부다. 수년에 걸쳐 이 연구 그룹의 구성원은 응용 언어학의 여러 하위 분야에서 유익한 결과를 얻었으며, 이에 대해서는 이 책의 관련 장에서 별도로 소개됩니다. 상트페테르부르크 대학에서 수학적 배경을 가진 학자인 Tuzov(В.А.Тузов)는 컴퓨터 의미론과 기계 의미 사전에 대한 유익한 연구를 수행했습니다.
2. 모스크바 학술 센터
모스크바 학술 센터의 가장 영향력 있는 대표자는 1960년대부터 주창하기 시작한 Melichuk(И.А.Мельчук)이다. 정립된 "의미와 Ucirc; 텍스트"는 구소련 최초의 사이버네틱스 언어 이론으로 간주되며, 그 실질적인 목적은 의미와 텍스트 사이의 양방향 언어 처리 장치를 구축하는 것입니다. 이후 멜리추크는 캐나다로 건너가 몬트리올대학교 번역언어학과에서 근무했으며, '의미텍스트언어학관'을 설립하고 이론적인 연구와 실천에 전념해 스스로도 폭넓은 칭찬을 받았다. 서양 언어학계에서는 "놀라운 사람"으로 "아웃사이더"(Greatoutsider)라고 부릅니다. (Bolshakov, Gelbukh, 2000) 지난 40년 동안 러시아, 캐나다, 스페인, 프랑스, 독일, 일본, 한국 및 기타 국가에서 같은 생각을 가진 연구자 그룹이 이 이론적 모델을 기반으로 기계 번역 시스템을 설계했습니다. 또는 모국어를 대상 언어로 이중언어 사전을 편찬하는 작업은 많은 실질적인 성과를 거두었고, 국제 전산언어학 및 이론언어학계에 미치는 영향력은 계속 확대되고 있다. 이 책의 2장의 두 번째 부분에서는 멜리추크의 학문적 사고를 자세히 검토할 것입니다.
러시아 과학 아카데미 학자 Aplishyan이 대표하는 모스크바 의미학 학교는 "의미 및 Ucirc; 텍스트"라는 언어 모델 이론의 핵심 아이디어를 고수하며 점차 기술적이고 체계적인 사전 편찬 이론을 통합합니다. (Апресян, 1995) Academician Aplysian은 러시아 과학 아카데미 정보 전송 문제 연구소의 전산 언어학 연구소의 동료들을 이끌고 "의미 및 Ucirc; 텍스트"를 기반으로 하는 완전히 효과적인 형식 언어 모델 개발에 대한 기초 연구를 진행했습니다. " 이론. 그는 ЭТАП 시리즈의 기계 번역 실험 시스템 개발을 주도했습니다.