중화사전망 - 자전 검색 - GPT 의 자동 회귀 언어 모델 아키텍처는 정보 표시에 어떤 구조적 결함이 있습니까? 어떻게 개선할 것인가?

GPT 의 자동 회귀 언어 모델 아키텍처는 정보 표시에 어떤 구조적 결함이 있습니까? 어떻게 개선할 것인가?

1) GPT

버트에 이어 OpenAI 의 GPT-2 가 그 중 하나이다. 텍스트 생성 측면에서 놀라운 성과를 거두었습니다. 생성된 텍스트는 문맥 일관성과 감정 표현 면에서 현재 언어 모델에 대한 기대를 뛰어넘었습니다. 모델 아키텍처의 경우 GPT-2 에는 트랜스포머의 디코더와 비슷한 새로운 아키텍처가 없습니다. GPT -2 는 GPT- 1 보다 예측 가능하고 크고 깊은 모델을 사용합니다.

트랜스포머의 디코더에서 인코더에 대한 디코더의 관심을 제거했습니다. 즉, seq2seq 제거 프로세스가 제거됩니다.

GPT 는 매 순간마다 현재 시간 이전의 정보만 볼 수 있는 언어 모델입니다. 이는 자동 회귀 프로세스입니다.

GPT2 및 숨기기 상태의 크기 변화는 레벨 수에 따라 작음, 중간, 큼, 매우 큽니다.

GPT 의 훈련 과정은 다음 단어를 교차 예측하는 것이고, 테스트는 한 문장을 입력하여 다른 문장을 생성하는 것이다.

GPT 의 사전 훈련은 언어 모델을 훈련시키는 것이다. Bert 의 사전 교육은 언어 모델과 NSP 를 마스킹하는 작업입니다.

GPT 는 여러 디코더 모듈로 구성되며 각 디코더 모듈은 마스킹 자체 주의 및 피드 포워드 신경 네트워크로 구성됩니다.

타임 스탬프의 숨겨진 상태는 선형 레이어를 통해 vocab 크기의 임베딩으로 변환된 다음 softmax 를 통해 각 단어의 확률을 계산하고 확률이 가장 높은 단어를 예측 출력으로 찾은 다음 다음 다음 순간의 단어를 실제 출력으로 사용하여 두 단어의 교차 엔트로피를 계산하여 모델을 훈련시킵니다.

각 타임스탬프 뒤의 위치는 마스크되고 음수 그룹 크기 값이 설정됩니다. Softmax 를 만들 때 이 위치의 값은 0 입니다.

2) 요약

변압기 디코더 구조

사전 훈련에서 언어 모델 훈련을 하다.

GPT2 는 더 깊은 블록을 사용합니다.

버트는 NLU 이지만 대신할 수 없다.

Gpt 는 생성된 작업에 적합한 자연어 모델입니다. 버트에서는 할 수 있고, GPT 에서도 할 수 있습니다.

GPT-2 를 제외하고 GPT-3 는 단방향 언어 모델 교육 모델을 계속했지만 모델 규모는 6543 억 8 천만+0 억 7 천 5 백만, 45TB 데이터로 증가했습니다.