중화사전망 - 자전 검색 - RNN 연구 개발 프로세스
RNN 연구 개발 프로세스
20 10 에서 토마스 미콜로프는 본지오의 피드 포워드 신경망 언어 모델 (NNLM) 을 개선하고 음성 인식 작업에 사용할 RNN (RNN LM) 기반 언어 모델을 제시하여 인식 정확도를 크게 높였습니다. 이를 바탕으로 토마스 미코로프는 20 13 에서 유명한 word2vec 를 제시했다. NNLM 및 RNNLM 과 달리 word2vec 의 목표는 더 이상 언어 모델 모델링에 초점을 맞추는 것이 아니라 언어 모델을 사용하여 각 단어의 분산 표현을 배우는 것입니다. 분산 표현의 개념은 Hinton 1986 에서 비롯됩니다. Word2vec 는 자연어 처리 분야의 심도 있는 학습 물결을 불러일으켰으며, 지식 표현과 인터넷 표현 등 새로운 영역에도 영감을 주었다.
한편, 20 14 년 동안 본지오 팀과 구글은 거의 동시에 seq2seq 아키텍처를 제시하고 RNN 을 사용하여 기계 번역을 했다. 얼마 지나지 않아 Bengio 팀은 seq2seq 아키텍처 개선을 위한 주의력 메커니즘을 제시했다. 그때부터 기계 번역은 신경기계 번역 (NMT) 시대에 접어들었는데, 그 과정은 간단할 뿐만 아니라 통계기계 번역보다 훨씬 효과적이었다. 현재 거의 모든 주요 기계 번역 시스템은 신경기계 번역 기술을 채택하고 있다. 또한 주의 메커니즘은 심도 있는 학습을 기반으로 하는 다양한 작업에도 광범위하게 적용됩니다.
최근 2 년 동안 관련 분야에는 여전히 약간의 돌파구가 있었다. 2017 페이스북 인공지능 연구소는 컨볼 루션 신경망 기반 seq2seq 아키텍처를 제시했고, rnn 대신 문 제어 장치가 있는 CNN 을 사용하여 효과를 높이는 동시에 모델 훈련 속도를 크게 높였다. 그 후 얼마 지나지 않아 구글은 transformer 아키텍처를 제안하여 원래의 RNN 과 CNN 을 자기관심으로 교체하여 모델의 복잡성을 더욱 줄였다. 단어 표현 학습의 경우, 애륜 인공지능연구소는 20 18 에서 양방향 LSTM 언어 모델을 사용하여 서로 다른 컨텍스트에 있는 단어의 다양한 벡터 표현을 학습하고 6 개의 NLP 작업에서 개선된 문맥 인식 표현 학습 방법 ELMo 를 제안했습니다. 이를 바탕으로 OpenAI 팀은 사전 훈련 모델 GPT 를 제안하고 LSTM 대신 transformer 를 사용하여 언어 모델을 교육했습니다. 특정 작업에 적용할 때 GPT 는 미리 훈련된 언어 모델의 마지막 레이어를 softmax 에 직접 작업 출력 레이어로 연결한 다음 모델을 미세 조정하여 많은 작업에서 좋은 결과를 얻습니다. 얼마 지나지 않아 구글은 BERT 모델을 제안하여 GPT 의 단방향 언어 모델을 마스킹 언어 모델로 확장하고 문장 예측 임무를 사전 훈련에 도입했다. BERT 모델은 1 1 개 임무에서 가장 좋은 성적을 거둔 것은 NLP 분야에서 심도 있는 학습의 또 다른 이정표이다.