중화사전망 - 서예자전 - HTML5 음성 인식의 원리는 무엇입니까? 쉽게 구현할 수 있지만 구체적인 원리는 무엇입니까?

HTML5 음성 인식의 원리는 무엇입니까? 쉽게 구현할 수 있지만 구체적인 원리는 무엇입니까?

원칙:

주류 대형 어휘 음성 인식 시스템은 대부분 통계 패턴 인식 기술을 채택하고 있다. 통계 패턴 인식 방법을 기반으로 하는 일반적인 음성 인식 시스템은 다음과 같은 기본 모듈로 구성됩니다.

신호 처리 및 피쳐 추출 모듈 이 모듈의 주요 작업은 음향 모델 처리를 위해 입력 신호에서 피쳐를 추출하는 것입니다. 또한 일반적으로 주변 소음, 채널, 스피커 등의 요소가 특성에 미치는 영향을 최소화하는 신호 처리 기술도 포함되어 있습니다.

통계 음향 모델. 일반적인 시스템은 대부분 1 차 숨겨진 마르코프 모델을 기반으로 모델링됩니다.

발음사전. 발음 사전에는 시스템이 처리할 수 있는 어휘집과 발음이 포함되어 있다. 발음 사전은 실제로 음향 모델 모델링 단위와 언어 모델 모델링 단위 간의 매핑을 제공합니다.

언어 모형. 언어 모델은 시스템이 지향하는 언어를 모델링합니다. 이론적으로는 정규 언어와 문맥 자유 문법을 포함한 다양한 언어 모델을 언어 모델로 사용할 수 있지만, 현재 통계 기반 N-gram 과 그 변형은 다양한 시스템에 널리 사용되고 있습니다.

디코더. 디코더는 음성 인식 시스템의 핵심 중 하나이며, 음향, 언어 모델 및 사전에 따라 최대 확률 출력 신호를 찾을 수 있는 단어 문자열을 찾는 것이 임무입니다.

이상은 모두 음성 인식의 일부이며, 오프라인 음성 인식은 위의 원칙에 따라 휴대전화에 음성 사전을 내장하여 무선 인식을 실현해야 한다.

예를 들면 다음과 같습니다.

1. 브라우저가 제공하는 기능 (예: chrome) 은 제공되지 않으면 사용할 수 없습니다.

2. 구현의 세부 사항은 주로 chrome 의 오프라인 음성 인식 엔진이다.

3. 시스템 API 를 호출합니다. 브라우저는 시스템이 제공하는 한 모든 기본 API 에 액세스할 수 있는 app 입니다.

관련 코드는 다음과 같습니다.

& lt! Doctype html & gt< html & gt< head & gt & lttitle & gt HTML5 를 통한 간단한 음성 인식

& lt input type = "text" name = "value _ 2" x-WebKit-speech/>

& lt/body & gt;; & lt/html & gt;;