중화사전망 - 중국어 사전 - 스마트 ABC 는 어떤 한자 인코딩 체계에 속합니까?

스마트 ABC 는 어떤 한자 인코딩 체계에 속합니까?

한자 인코딩:

한자를 위해 설계된 코드로, 컴퓨터에 쉽게 입력할 수 있다. 전자 컴퓨터의 기존 입력 키보드가 영어 타자기의 키보드와 완전히 호환되기 때문이다. 따라서 한자를 포함한 라틴 문자가 아닌 글자를 입력하는 방법은 여러 해 동안의 연구 과제가 되었다.

한자 정보 처리 시스템에는 일반적으로 인코딩, 입력, 저장, 편집, 출력 및 전송이 포함됩니다. 코딩이 핵심입니다. 이 문제를 해결하지 않으면 한자는 컴퓨터에 들어갈 수 없다.

한자는 컴퓨터를 입력하는 세 가지 방법이 있습니다.

① 한자의 기계가 자동으로 인식된다. 컴퓨터는' 시각' 장치 (광학 문자 리더 등) 를 통해 광전 스캔으로 한자를 인식한다.

② 음성 인식 입력을 통해: 컴퓨터는 사람이 제공한' 청각 기관' 을 이용하여 중국어 음성 요소를 자동으로 인식하거나, 음절마다 다른 한자를 찾거나, 같은 음절에서 다른 한자를 판단한다.

③ 한자 인코딩 입력: 일정한 인코딩 방법에 따라 사람이 입력 장치를 이용하여 한자를 컴퓨터에 입력한다.

국내외에서 모두 한자의 기계 자동 인식과 중국어 음성 인식을 연구하고 있다. 이미 많은 진전이 있었지만 난이도가 높기 때문에 해결하는 데 상당한 시간이 걸릴 것으로 예상된다. 이 단계에서 한자 인코딩 방법을 통해 한자를 컴퓨터로 들여오는 것은 비교적 현실적이다.

한자 코딩이 어렵고 한자 입력이 컴퓨터에 많은 어려움이 있는데, 주로 세 가지 이유가 있다.

① 수량이 방대하다: 사회가 발전함에 따라 새로운 단어가 끊임없이 등장하고, 죽은 단어는 도태되지 않고, 한자 총수는 끊임없이 증가한다. 현재 한자 총수는 이미 6 만 개 (간화자 포함) 를 넘어선 것으로 생각된다. 일부 연구자들은 3000 개 이상의 글자를 당대 상용한자로 사용한다고 주장하지만, 이는 여전히 20 ~ 30 자로 구성된 병음자를 처리하는 것보다 훨씬 어렵다.

(2) 서체가 복잡하다: 고금의 체체, 복잡한 간체체, 정형체가 있다. 그리고 획은 1 펜에서 36 펜까지 크게 차이가 나서 단순화한 후 평균 9.8 펜입니다.

③ 복음어와 다음절어 수가 많다. 중국어에는 465,438+06 음절이 있고, 분조 뒤에는 65,438+0295 음절이 있다 ('현대한어사전' 에 따르면 39 음절은 계산되지 않는다). 654.38+00000 자를 기준으로 성조가 없는 음절당 평균 24 개 이상의 한자가 있고 성조가 있는 음절당 평균 7.7 개 이상의 한자가 있다. 일부 동음 이의어는 최대 66 자입니다. 복음 현상도 보편적이다.

대략적인 통계에 따르면, 400 개 이상의 코딩 체계가 있으며, 그 중 수십 가지가 컴퓨터에서 테스트를 통과했으며, 입력기 기술로 채택되었습니다. 요약하면 다섯 가지 유형만 있습니다.

① 전체 단어 입력기: 이전 단계에서 일반적으로 사용되는 3 ~ 4,000 개의 한자는 일반적으로 3 ~ 400 키 큰 키보드에 배열되어 있습니다. 요즘 이 한자들은 대부분 XY 좌표에 따라 한 자표에 배열되어 있는데, 흔히' 자표법' 또는' 획자표법' 이라고 불린다. 예를 들면 X25 행 Y90 열이 교차하는 글자는' 국가' 이다. 펜이 서표의' 국가' 를 가리키면 기계가 자동으로 그 글자의 코드 2590 을 입력한다. 키보드나 단어 목록에 있는 단어는 부수, 음성순서 또는 어의연상순으로 배열된다. 비정상적인 단어는 디스크 외 단어 또는 표 외 단어로 간주되고 별도로 인코딩됩니다.

(2) 서체 분해법: 한자를 획이나 부품으로 분해하고 기계를 일정한 순서로 입력한다. 일반적으로 획은 가로 (1), 세로 (2), 왼쪽 (3), 점 (3), 구부리기 (4), 포크 (/kloc-) 의 8 가지 유형으로 나눌 수 있습니다. 일반적으로 1,200 개의 구성 요소가 있습니다. 일반 키보드에는 42 개의 키 (숫자와 구두점 포함) 만 있기 때문에 이렇게 많은 부품을 수용할 수 없고, 키보드를 설계하는 사람도 있고, 부품 발생 확률의 유사점과 차이점을 이용하여 100 개 이상의 부품을 26 자 키에 분산시키는 사람도 있다.

(3) 글리프 위주, 독음을 보조하는 인코딩 방법: 이 인코딩 방법과 글리프 분해법의 차이점은 일부 병음 정보가 사용된다는 것이다. 예를 들어, 코딩 규칙을 단순화하고 코드 길이를 줄이기 위해 글리프 코드에 음코드를 추가하는 방안도 있고, 표준 영어 텔레타이프를 채택하기 위해 관계어의 발음을 통해 분해된 형태소를 라틴 문자로 변환하는 방안도 있다.

④ 전병음 입력기: 대부분 기존 한어병음 방안을 바탕으로 설계됐다. 중요한 문제는 동음자를 구분하는 것이기 때문에' 자정자' 방법을 제시하는 방안도 있고,' 병음-한자 변환' 방법, 즉' 한어병음 입력-내부 소프트웨어 변환 (실제로는 기계어)-한자 출력' 시스템을 제시하는 방안도 있다.

⑤ 병음을 위주로 글리프를 보조하는 코딩 방법: 일반적으로 병음 코드 앞이나 뒤에 글리프 코드를 추가합니다. 병음 코드는 기존의 한어병음 체계이거나, 약간 간소화된 방안이거나,' 쌍철자법' 또는' 쌍철자법' 이다. 여기서 성모와 운모는 단일 글자 또는 단일 문자 키로 표시되어 코드 길이를 단축한다. 예를 들어 F 키는 성모 F 와 운모 ang 을 모두 나타내고, 두 번 클릭하면 네모난' 방' 이다. 동음 이의어를 구별하기 위한 다양한 글꼴 코드도 있습니다. 옆부를 사용하는 대부분의 정보 외에도 첫 획이나 의미 범주를 사용하는 정보도 있다.

이러한 각 코딩 방법에는 고유한 장단점이 있습니다. 예를 들어, 단어 표법은 한 글자 한 칸 (키), 무거운 코드가 없고, 직관적이며, 조작이 간단하다는 특징이 있다. 단점은 전용 키보드가 필요하고 속도가 느리다는 것이다. 서체 분해법의 장점은 글자의 발음을 포함하지 않고 형별로 코드를 채취하는 것이기 때문에 모르는 글자 (산간자 및 고자 포함) 도 인코딩하여 입력할 수 있다는 것이다. 하지만 한자의 물리적 구조는 매우 복잡하고, 쓰기 방법도 많이 다르다. 분해 기준은 통일하기 쉽지 않기 때문에 많은 방안 규칙이 비교적 많다. 병음 입력기 (병음-한자 변환법 포함) 의 장점은 조작이 간단하고,' 맹타' 이며, 한자 단순화와 글꼴 변화의 영향을 받지 않고 병음의 방향에 맞게 추가 정보 처리를 용이하게 한다는 것이다. 단점은 새로운 단어를 입력 할 수 없다는 것입니다. 또한 코드나 단어의 정의나 명확한 선택 없이는 동음자를 처리하기 어렵다.

한어병음 2 선제 코딩이 보급되어 한자와 한어병음문자가 병음문자가 공존하는 것은 일종의 2 선제이다. 한자 정보 처리 분야에서도 음코드와 형식 코드가 병존하는 것도 2 선제이다. 따라서 많은 사람들은 다음과 같은 다섯 가지 이유로 2 트랙 시스템이 좋다고 생각합니다.

① 표준어를 장악하는 사람에게는 음코드를 사용하는 것이 형코드보다 더 편리하고 빠르다. 쉐이프 코드는 느리지만 고대 문자를 포함한 모든 한자를 입력할 수 있습니다. 2 트랙 시스템 하에서 운영자가 인식하는 문자는 음성으로 입력할 수 있고, 모르는 문자는 음성으로 입력할 수 있으며, 표준어를 할 줄 아는 사람은 음성으로 입력할 수 있고, 억양이 무거운 사람은 음성으로 입력할 수 있다.

(2) 글자 수가 적은 단위의 경우 주음 입력에 문제가 없지만, 글자 수가 많은 단위의 경우 주음 입력이 어법 입력보다 좋지 않다. 왜냐하면 대부분의 사람들은 한자의 음만 보낼 수 있기 때문이다.

③ 모양 기반 입력 (특히 전체 입력) 은 통계 한자와 같은 중국어 정보 처리 작업에 매우 적합합니다. 그러나 우리는 중국어 음성 (음운학) 통계와 같은 다른 종류의 일에 대해 할 수 있는 일이 없다. 버튼 입력은 반대입니다. 이 두 궤도는 마침 서로 보완한다.

(4) 어떤 형태코드는 각종 한자 (예: 일본어, 한국어) 를 돌볼 수 있고, 음코드는 글자를 나누어 쓸 수 있어 추가 정보 처리를 용이하게 한다.

⑤ 적절한 2 트랙 프로그램은 장비 고장을 증가시키지 않습니다. 전체 단어 입력을 고려하지 않으면 일반적으로 기존 키패드를 사용할 수 있습니다.

모노레일에서 2 트랙으로 발전하는 것 외에도 한자 코딩의 새로운 발전에는 다음과 같은 추세가 있습니다.

① 혼합 코딩 방법. 스트로크 표현에 일부 부품 또는 문자를 추가하면 디스크 분리 문자 문제를 해결할 수 있으며 글꼴 분해의 모든 이점도 얻을 수 있습니다. 속도를 높이기 위해 획방안은 일반적으로 일부 부분이나 전체 글자를 증가시킨다.

② 단축 코드와 어휘 코드를 최대한 활용하십시오. 이렇게 하면 입력 속도가 빨라집니다. 따라서 소수의 단어나 빈도가 높은 단어를 위해 단일 및 이중 문자의 단축 코드를 설계했습니다.

어휘 코드도 속도를 높이는 수단이다. 모양 인코딩 체계의 어휘 인코딩은 각 문자의 구성 요소에 따라 정의됩니다. 예를 들어' 한자 인코딩' 의 어휘 코드는 43,45,55, 13 이다. 또 다른 형식 인코딩 체계의 어휘 인코딩은 컴퓨터가 지도하여 입력한다. 예를 들어 "중간" 이라는 단어를 입력하면 "중국", "중", "중성", "중화" 등의 이중음절 단어가 화면에 표시됩니다. "중국" 을 선택한 후 word 키를 누르면 "(중국) 방언", "중국 (인민)", "(중국) * * * 생산당", "중국 (공농 홍군)" 이 표시됩니다. 음코드 방안의 어휘코드는 실제로 ZRG' 중화인민공화국' 과 ZZXY' 중국 정보연구회' 와 같은 어구코드다. 어휘 코드는 속도를 높일 수 있을 뿐만 아니라, 같은 코드도 구분할 수 있다. 그러나 너무 많이 사용하면 무거운 코드도 생성됩니다. 그래서 일반 어휘 코드와 전문 어휘 코드를 나누어 무거운 코드를 줄여야 한다.

③' 컴퓨터' 의 역할을 충분히 발휘하여' 인간 두뇌' 의 부담을 최소화한다. 위의 컴퓨터 부팅 입력기 등이 그 예입니다. 다른 시나리오는 창을 열어 운영자에게 지속적으로 선택 범위를 제공합니다. 이렇게 하면 운영자는 대량의 코딩 규칙을 기억할 필요가 없다.

코딩 작업의 정형 및 표준화 코딩 체계는 일반적으로 최적화 작업이라고 하며 컴퓨터 보급에 매우 중요합니다. 물론 정형 또는 최적화는 하나만 선택하거나 하나만 선택하는 것이 아니라 여러 사용자의 요구를 배려해야 한다. 우중선우에 대해 다양한 평가 기준을 제시했는데, 일반적으로 단어 모호성, 조작성, 입력 처리 효율, 저장 절약, 전송 신뢰성, 장비 경제성, 단어 그룹화 능력 등을 포함한다.

코딩 체계가 많아서 통일된 기준이 필요하다. 198 1 년, 국가표준국은' 정보교환용 한자 인코딩 문자 세트 기본집' (이하' 한자 표준 교환코드') 을 발표하고 * * * 를 2 급, 1 급 3755 자, 2 로 나누었다 이 한자 표준 교환코드는 컴퓨터의 내부 코드이며, 다양한 입력 및 출력 장치 설계에 대한 일관된 표준을 제공하여 시스템 간 정보 교환이 동일한 일관성을 갖도록 하여 정보 자원의 이용을 보장합니다. 현재 정보 교환용 한자 인코딩 보조세트는 기본집보다 글자가 많은 소수의 사용자와 대만성, 홍콩의 요구를 충족하기 위해 개발 중이다.

응, 네가 답을 알아야 할 것 같아.