중화사전망 - 영어 사전 - 컴퓨터가 한자를 처리하는 인코딩 형식은 무엇입니까?
컴퓨터가 한자를 처리하는 인코딩 형식은 무엇입니까?
역사적으로, 별도의 문자 세트를 만들기 위해 두 가지 독립적인 시도가 있었다. 하나는 ISO (International Organization for Standardization) 의 ISO 10646 프로젝트이고, 다른 하나는 다국어 소프트웨어 제조업체 협회 (처음에는 대부분 미국인) 가 조직한 유니코드 프로젝트입니다. 다행히도 199 1 에서 두 프로젝트의 참가자들은 세계가 서로 다른 두 개의 단일 문자 세트를 필요로 하지 않는다는 것을 깨달았다. 그들은 그들의 업무 성과를 결합하여 함께 단일 코드 테이블을 만들었다. 이 두 프로젝트는 여전히 존재하고 자체 표준을 독립적으로 발표하지만 유니코드 협회와 ISO/IEC JTC 1/SC2 모두 유니코드와 ISO 10646 코드 테이블 호환성을 유지하고 향후 확장을 면밀히 조정하기로 합의했다
유니코드와 ISO 10646
유니코드 협회가 발표한 유니코드 표준에는 ISO 10646- 1 의 기본 다국어 측면이 밀접하게 포함되어 있습니다. 두 표준 모두에서 모든 문자는 같은 위치에 있으며 이름이 같습니다.
유니코드 표준은 많은 문자 관련 추가 의미 기호를 정의하며, 일반적으로 고품질 인쇄 출판 시스템을 구현하기 위한 좋은 참조입니다. 유니코드는 아랍어와 같은 일부 언어에서 표현식을 그리고, 양방향 문자 (예: 혼합 라틴어 및 히브리어 문자) 를 처리하고, 문자열을 정렬하고 비교하는 알고리즘을 자세히 설명합니다.
반면, ISO 10646 표준은 잘 알려진 ISO 8859 표준과 마찬가지로 단순한 문자 세트 테이블일 뿐입니다. 일부 표준 관련 용어를 지정하고, 일부 인코딩 별칭을 정의하고, UCS 를 사용하여 다른 ISO 표준의 구현에 연결하는 방법을 지정하는 사양을 포함합니다. 예: ISO 6429 및 ISO 2022. 기타는 ISO 와 밀접한 관계가 있다. 예를 들면 ISO 1465 1 은 UCS 문자열 정렬에 관한 것이다.
유니코드 표준에는 기억하기 쉬운 이름이 있고 어떤 좋은 서점의 Addison-Wesley 에도 존재한다는 점을 감안하면 ISO 버전의 극히 일부만을 소비하고 더 많은 보조 정보를 포함하므로 훨씬 더 널리 사용되는 참조가 되는 것도 놀라운 일이 아닙니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 유니코드 표준명언) 그러나 일반적으로 ISO 10646- 1 표준 인쇄에 사용되는 글꼴 품질이 유니코드 2.0 인쇄에 사용되는 글꼴보다 높은 것으로 간주됩니다. 전문 글꼴 디자이너는 항상 이 두 가지 기준을 모두 시행하도록 권장된다. 그러나 제공된 일부 샘플 글리프에는 상당한 차이가 있습니다. O 10646- 1 표준도 중국어, 일본어, 한국어 (CJK) 와 같은 네 가지 다른 스타일 변형을 사용하여 표의 문자를 표시하는 반면 유니코드 2.0 에는 중국어 변형만 포함됩니다. 이로 인해 일본 사용자는 유니코드의 전설을 받아들일 수 없게 되었다. 비록 이것은 잘못된 것이지만.
ASCⅱⅱ 코드
컴퓨터는 이진수를 사용하는데, 왜 십진수와 각종 문자, 그래픽을 인식할 수 있습니까? 사실 숫자 데이터든 문자, 그래픽 등이든. , 컴퓨터 내부는 코딩 표준을 사용합니다. 인코딩 표준을 이진수로 변환하여 처리할 수 있습니다. 컴퓨터는 이 정보를 처리한 다음 시각적 정보로 변환하여 표시할 수 있습니다. 일반적으로 사용되는 문자 코드는 원래 미국의 국가 표준이었던 ASCII 코드이며 1967 에서 국제 표준으로 지정되었습니다.
ASCII 코드는 8 비트 이진수로 구성됩니다. 여기서 가장 높은 비트는 전송 중 데이터의 정확성을 확인하는 패리티 비트입니다. 나머지 7 개의 이진수는 한 문자를 나타내고, * * * 는 128 개의 조합이 있습니다. 예를 들어 캐리지 리턴용 ASCII 코드는 0001101(13) 이고 공백용 ASCII 코드는 0/kloc-입니다
한자 인코딩
한자를 위해 설계된 코드로, 컴퓨터에 쉽게 입력할 수 있다. 전자 컴퓨터의 기존 입력 키보드가 영어 타자기의 키보드와 완전히 호환되기 때문이다. 따라서 한자를 포함한 라틴 문자가 아닌 글자를 입력하는 방법은 여러 해 동안의 연구 과제가 되었다.
한자 정보 처리 시스템에는 일반적으로 인코딩, 입력, 저장, 편집, 출력 및 전송이 포함됩니다. 코딩이 핵심입니다. 이 문제를 해결하지 않으면 한자는 컴퓨터에 들어갈 수 없다.
한자는 컴퓨터를 입력하는 세 가지 방법이 있습니다.
① 한자의 기계가 자동으로 인식된다. 컴퓨터는' 시각' 장치 (광학 문자 리더 등) 를 통해 광전 스캔으로 한자를 인식한다.
② 음성 인식 입력을 통해: 컴퓨터는 사람이 제공한' 청각 기관' 을 이용하여 중국어 음성 요소를 자동으로 인식하거나, 음절마다 다른 한자를 찾거나, 같은 음절에서 다른 한자를 판단한다.
③ 한자 인코딩 입력: 일정한 인코딩 방법에 따라 사람이 입력 장치를 이용하여 한자를 컴퓨터에 입력한다.
국내외에서 모두 한자의 기계 자동 인식과 중국어 음성 인식을 연구하고 있다. 이미 많은 진전이 있었지만 난이도가 높기 때문에 해결하는 데 상당한 시간이 걸릴 것으로 예상된다. 이 단계에서 한자 인코딩 방법을 통해 한자를 컴퓨터로 들여오는 것은 비교적 현실적이다.
한자 코딩이 어렵고 한자 입력이 컴퓨터에 많은 어려움이 있는데, 주로 세 가지 이유가 있다.
① 수량이 방대하다: 사회가 발전함에 따라 새로운 단어가 끊임없이 등장하고, 죽은 단어는 도태되지 않고, 한자 총수는 끊임없이 증가한다. 현재 한자 총수는 이미 6 만 개 (간화자 포함) 를 넘어선 것으로 생각된다. 일부 연구자들은 3000 개 이상의 글자를 당대 상용한자로 사용한다고 주장하지만, 이는 여전히 20 ~ 30 자로 구성된 병음자를 처리하는 것보다 훨씬 어렵다.
(2) 서체가 복잡하다: 고금의 체체, 복잡한 간체체, 정형체가 있다. 그리고 획은 1 펜에서 36 펜까지 크게 차이가 나서 단순화한 후 평균 9.8 펜입니다.
③ 복음어와 다음절어 수가 많다. 중국어에는 465,438+06 음절이 있고, 분조 뒤에는 65,438+0295 음절이 있다 ('현대한어사전' 에 따르면 39 음절은 계산되지 않는다). 654.38+00000 자를 기준으로 성조가 없는 음절당 평균 24 개 이상의 한자가 있고 성조가 있는 음절당 평균 7.7 개 이상의 한자가 있다. 일부 동음 이의어는 최대 66 자입니다. 복음 현상도 보편적이다.
대략적인 통계에 따르면, 400 개 이상의 코딩 체계가 있으며, 그 중 수십 가지가 컴퓨터에서 테스트를 통과했으며, 입력기 기술로 채택되었습니다. 요약하면 다섯 가지 유형만 있습니다.
① 전체 단어 입력기: 이전 단계에서 일반적으로 사용되는 3 ~ 4,000 개의 한자는 일반적으로 3 ~ 400 키 큰 키보드에 배열되어 있습니다. 요즘 이 한자들은 대부분 XY 좌표에 따라 한 자표에 배열되어 있는데, 흔히' 자표법' 또는' 획자표법' 이라고 불린다. 예를 들면 X25 행 Y90 열이 교차하는 글자는' 국가' 이다. 펜이 서표의' 국가' 를 가리키면 기계가 자동으로 그 글자의 코드 2590 을 입력한다. 키보드나 단어 목록에 있는 단어는 부수, 음성순서 또는 어의연상순으로 배열된다. 비정상적인 단어는 디스크 외 단어 또는 표 외 단어로 간주되고 별도로 인코딩됩니다.
(2) 서체 분해법: 한자를 획이나 부품으로 분해하고 기계를 일정한 순서로 입력한다. 일반적으로 획은 가로 (1), 세로 (2), 왼쪽 (3), 점 (3), 구부리기 (4), 포크 (/kloc-) 의 8 가지 유형으로 나눌 수 있습니다. 일반적으로 1,200 개의 구성 요소가 있습니다. 일반 키보드에는 42 개의 키 (숫자와 구두점 포함) 만 있기 때문에 이렇게 많은 부품을 수용할 수 없고, 키보드를 설계하는 사람도 있고, 부품 발생 확률의 유사점과 차이점을 이용하여 100 개 이상의 부품을 26 자 키에 분산시키는 사람도 있다.
(3) 글리프 위주, 독음을 보조하는 인코딩 방법: 이 인코딩 방법과 글리프 분해법의 차이점은 일부 병음 정보가 사용된다는 것이다. 예를 들어, 코딩 규칙을 단순화하고 코드 길이를 줄이기 위해 글리프 코드에 음코드를 추가하는 방안도 있고, 표준 영어 텔레타이프를 채택하기 위해 관계어의 발음을 통해 분해된 형태소를 라틴 문자로 변환하는 방안도 있다.
④ 전병음 입력기: 대부분 기존 한어병음 방안을 바탕으로 설계됐다. 중요한 문제는 동음자를 구분하는 것이기 때문에' 자정자' 방법을 제시하는 방안도 있고,' 병음-한자 변환' 방법, 즉' 한어병음 입력-내부 소프트웨어 변환 (실제로는 기계어)-한자 출력' 시스템을 제시하는 방안도 있다.
⑤ 병음을 위주로 글리프를 보조하는 코딩 방법: 일반적으로 병음 코드 앞이나 뒤에 글리프 코드를 추가합니다. 병음 코드는 기존의 한어병음 체계이거나, 약간 간소화된 방안이거나,' 쌍철자법' 또는' 쌍철자법' 이다. 여기서 성모와 운모는 단일 글자 또는 단일 문자 키로 표시되어 코드 길이를 단축한다. 예를 들어 F 키는 성모 F 와 운모 ang 을 모두 나타내고, 두 번 클릭하면 네모난' 방' 이다. 동음 이의어를 구별하기 위한 다양한 글꼴 코드도 있습니다. 옆부를 사용하는 대부분의 정보 외에도 첫 획이나 의미 범주를 사용하는 정보도 있다.
이러한 각 코딩 방법에는 고유한 장단점이 있습니다. 예를 들어, 단어 표법은 한 글자 한 칸 (키), 무거운 코드가 없고, 직관적이며, 조작이 간단하다는 특징이 있다. 단점은 전용 키보드가 필요하고 속도가 느리다는 것이다. 서체 분해법의 장점은 글자의 발음을 포함하지 않고 형별로 코드를 채취하는 것이기 때문에 모르는 글자 (산간자 및 고자 포함) 도 인코딩하여 입력할 수 있다는 것이다. 하지만 한자의 물리적 구조는 매우 복잡하고, 쓰기 방법도 많이 다르다. 분해 기준은 통일하기 쉽지 않기 때문에 많은 방안 규칙이 비교적 많다. 병음 입력기 (병음-한자 변환법 포함) 의 장점은 조작이 간단하고,' 맹타' 이며, 한자 단순화와 글꼴 변화의 영향을 받지 않고 병음의 방향에 맞게 추가 정보 처리를 용이하게 한다는 것이다. 단점은 새로운 단어를 입력 할 수 없다는 것입니다. 또한 코드나 단어의 정의나 명확한 선택 없이는 동음자를 처리하기 어렵다.
한어병음 2 선제 코딩이 보급되어 한자와 한어병음문자가 병음문자가 공존하는 것은 일종의 2 선제이다. 한자 정보 처리 분야에서도 음코드와 형식 코드가 병존하는 것도 2 선제이다. 따라서 많은 사람들은 다음과 같은 다섯 가지 이유로 2 트랙 시스템이 좋다고 생각합니다.
① 표준어를 장악하는 사람에게는 음코드를 사용하는 것이 형코드보다 더 편리하고 빠르다. 쉐이프 코드는 느리지만 고대 문자를 포함한 모든 한자를 입력할 수 있습니다. 2 트랙 시스템 하에서 운영자가 인식하는 문자는 음성으로 입력할 수 있고, 모르는 문자는 음성으로 입력할 수 있으며, 표준어를 할 줄 아는 사람은 음성으로 입력할 수 있고, 억양이 무거운 사람은 음성으로 입력할 수 있다.
(2) 글자 수가 적은 단위의 경우 주음 입력에 문제가 없지만, 글자 수가 많은 단위의 경우 주음 입력이 어법 입력보다 좋지 않다. 왜냐하면 대부분의 사람들은 한자의 음만 보낼 수 있기 때문이다.
③ 모양 기반 입력 (특히 전체 입력) 은 통계 한자와 같은 중국어 정보 처리 작업에 매우 적합합니다. 그러나 우리는 중국어 음성 (음운학) 통계와 같은 다른 종류의 일에 대해 할 수 있는 일이 없다. 버튼 입력은 반대입니다. 이 두 궤도는 마침 서로 보완한다.
(4) 어떤 형태코드는 각종 한자 (예: 일본어, 한국어) 를 돌볼 수 있고, 음코드는 글자를 나누어 쓸 수 있어 추가 정보 처리를 용이하게 한다.
⑤ 적절한 2 트랙 프로그램은 장비 고장을 증가시키지 않습니다. 전체 단어 입력을 고려하지 않으면 일반적으로 기존 키패드를 사용할 수 있습니다.
모노레일에서 2 트랙으로 발전하는 것 외에도 한자 코딩의 새로운 발전에는 다음과 같은 추세가 있습니다.
① 혼합 코딩 방법. 스트로크 표현에 일부 부품 또는 문자를 추가하면 디스크 분리 문자 문제를 해결할 수 있으며 글꼴 분해의 모든 이점도 얻을 수 있습니다. 속도를 높이기 위해 획방안은 일반적으로 일부 부분이나 전체 글자를 증가시킨다.
② 단축 코드와 어휘 코드를 최대한 활용하십시오. 이렇게 하면 입력 속도가 빨라집니다. 따라서 소수의 단어나 빈도가 높은 단어를 위해 단일 및 이중 문자의 단축 코드를 설계했습니다.
어휘 코드도 속도를 높이는 수단이다. 모양 인코딩 체계의 어휘 인코딩은 각 문자의 구성 요소에 따라 정의됩니다. 예를 들어' 한자 인코딩' 의 어휘 코드는 43,45,55, 13 이다. 또 다른 형식 인코딩 체계의 어휘 인코딩은 컴퓨터가 지도하여 입력한다. 예를 들어 "중간" 이라는 단어를 입력하면 "중국", "중", "중성", "중화" 등의 이중음절 단어가 화면에 표시됩니다. "중국" 을 선택한 후 word 키를 누르면 "(중국) 방언", "중국 (인민)", "(중국) * * * 생산당", "중국 (공농 홍군)" 이 표시됩니다. 음코드 방안의 어휘코드는 실제로 ZRG' 중화인민공화국' 과 ZZXY' 중국 정보연구회' 와 같은 어구코드다. 어휘 코드는 속도를 높일 수 있을 뿐만 아니라, 같은 코드도 구분할 수 있다. 그러나 너무 많이 사용하면 무거운 코드도 생성됩니다. 그래서 일반 어휘 코드와 전문 어휘 코드를 나누어 무거운 코드를 줄여야 한다.
③' 컴퓨터' 의 역할을 충분히 발휘하여' 인간 두뇌' 의 부담을 최소화한다. 위의 컴퓨터 부팅 입력기 등이 그 예입니다. 다른 시나리오는 창을 열어 운영자에게 지속적으로 선택 범위를 제공합니다. 이렇게 하면 운영자는 대량의 코딩 규칙을 기억할 필요가 없다.
코딩 작업의 정형 및 표준화 코딩 체계는 일반적으로 최적화 작업이라고 하며 컴퓨터 보급에 매우 중요합니다. 물론 정형 또는 최적화는 하나만 선택하거나 하나만 선택하는 것이 아니라 여러 사용자의 요구를 배려해야 한다. 우중선우에 대해 다양한 평가 기준을 제시했는데, 일반적으로 단어 모호성, 조작성, 입력 처리 효율, 저장 절약, 전송 신뢰성, 장비 경제성, 단어 그룹화 능력 등을 포함한다.
코딩 체계가 많아서 통일된 기준이 필요하다. 198 1 년, 국가표준국은' 정보교환용 한자 인코딩 문자 세트 기본집' (이하' 한자 표준 교환코드') 을 발표하고 * * * 를 2 급, 1 급 3755 자, 2 로 나누었다 이 한자 표준 교환코드는 컴퓨터의 내부 코드이며, 다양한 입력 및 출력 장치 설계에 대한 일관된 표준을 제공하여 시스템 간 정보 교환이 동일한 일관성을 갖도록 하여 정보 자원의 이용을 보장합니다. 현재 정보 교환용 한자 인코딩 보조세트는 기본집보다 글자가 많은 소수의 사용자와 대만성, 홍콩의 요구를 충족하기 위해 개발 중이다.