중화사전망 - 영어 사전 - 스트리트 파이터 분사 상세 설명
스트리트 파이터 분사 상세 설명
중국어 텍스트는 분사, 품사성 마크업, 키워드 추출 등의 기능을 할 수 있으며 사용자 정의 사전을 지원합니다.
이 문서에는 다음이 포함됩니다.
설치 1 및 스트리트 파이터 분사 패키지
2, 스트리트 파이터 단어 세분화 자습서 사용
스트리트 파이터 분사 작동 원리 및 워크 플로우.
4. HMM, TextRank, TF-IDF 등 스트리트 파이터 분사와 관련된 알고리즘을 소개합니다.
Pip 를 사용하여 직접 설치할 수 있습니다.
Sudo pip 설치 스트리트 파이터
또는
Sudo pip3 설치 스트리트 파이터
TF-IDF 와 TextRank 기반 키워드 추출 알고리즘에는 두 가지가 있습니다.
제패 분사에는 세 가지 분사 패턴이 있습니다: 정밀 패턴, 전체 패턴, 검색 엔진 패턴:
이에 따라 함수 앞에 L 을 더하면 목록 결과를 얻을 수 있는 해당 함수가 됩니다.
정확한 패턴은 가장 일반적으로 사용되는 분사 방법입니다. 전체 모드는 한 문장에서 가능한 모든 단어를 나열하고 검색 엔진 모드는 검색 엔진에 적합합니다. 구체적인 차이점은 다음 섹션의 워크플로우 분석에 자세히 설명되어 있습니다.
위의 각 함수에는 HMM 이라는 매개변수가 있습니다. 이 항목은 분사 과정에서 HMM 을 사용하여 새 단어를 찾을지 여부를 나타냅니다. HMM 과 관련하여 관련 지식은 이 문서의 부록에 간략하게 설명되어 있습니다.
또한 분사는 사용자 정의 사전을 지원합니다. 사전 형식은 dict.txt 와 동일하며 한 단어가 한 줄에 있습니다. 각 행은 단어, 단어 빈도 (생략 가능), 품사 (생략 가능) 의 세 부분으로 나뉘며 공백으로 구분되며 순서는 뒤집을 수 없습니다.
구체적인 사용 방법은 다음과 같습니다.
키워드로 추출한 두 함수의 전체 매개 변수는 다음과 같습니다.
너는 통과할 수 있다
병렬 분사 기능을 켜거나 끕니다.
개인적으로는 일반적으로 필요하지 않다고 생각한다. 큰 파일 분할은 수동으로 다중 프로세스 병렬 처리가 필요하며 문장 분할에는 필요하지 않습니다.
제패 분사는 주로 사전을 사용하여 분사와 품사성 표시를 하는데, 둘 다 같은 사전을 사용한다. 이런 이유로 HMM 은 새로운 단어를 발견하는 데 사용되지만 분사의 결과는 사전에 크게 의존할 것이다.
Jieba 단어 분할 패키지의 전체 작업 흐름은 다음 그림과 같습니다.
다음은 소스 코드를 기준으로 각 모듈의 작업 흐름을 자세히 분석합니다.
다음 섹션에서는 주요 단계의 출력 샘플 또는 파란색 상자에 있는 사전 파일의 형식 샘플을 보여 줍니다. 이 섹션에서는 유사한 표현을 사용합니다.
스트리트 파이터 분사에서는 먼저 사전 비교를 통해 문장의 방향 무환도를 생성한 다음 선택한 패턴에 따라 가장 짧은 경로를 찾은 후 문장을 자르거나 직접 자릅니다. HMM 을 사용하여 목록에 없는 단어 (사전에 없는 단어) 에 대한 새 단어를 찾습니다
사전의 형식은 다음과 같습니다
Word1freq1word _ type1
Word2 freq2 word_type2
…
여기서 사용자 정의 사용자 사전의 품사성 word_type 은 생략할 수 있습니다.
사전은 다른 모듈의 프로세스에서도 사용할 수 있습니다. 편의를 위해 사전의 초기화 부분은 다음 순서도에서 생략됩니다.
그림 B 는 정확한 패턴 분할을 기준으로 긴 단어를 다시 분할하는 검색 엔진 모드의 워크플로우를 보여 줍니다.
여기서는 독자들이 HMM 에 대한 지식을 이미 알고 있다고 가정합니다. 그렇지 않은 경우 다음 장 HMM 의 관련 부분을 읽거나 이 섹션을 건너뛸 수 있습니다.
스트리트 파이터 분사에서 단어의 위치 B, M, E, S 는 숨겨진 상태로 간주되고, 단어는 관찰 상태이며, 사전 파일을 사용하여 표현식 확률 행렬 (finalseg/prob_emit.py), 초기 확률 벡터 (Finalseg/ 이것은 표준 디코딩 문제입니다. 확률에 따라 비트비 알고리즘을 사용하여 가능한 최대 숨기기 상태를 해결합니다.
품사성 분석 부분과 분사 모듈은 같은 기본 단어 분류기를 사용한다. 사전어의 경우, 어성은 사전에서 직접 추출되지만, 새로운 단어의 경우, 어성 분석 부분에는 새로운 단어와 그 품사를 전문적으로 발견하는 모듈이 있다.
품사 마크업에 사용되는 HMM 모델은 분사에 사용되는 HMM 모델과 유사합니다. 텍스트 시퀀스를 보이는 것으로 간주하지만 숨기기 상태는 더 이상 단일 단어 비트 (B/E/M/S) 가 아니라 단어 비트와 품사의 조합입니다 (예: (B, v)(B, n)(S) 따라서 초기 확률 벡터, 이전 확률 행렬, 성능 확률 행렬은 이전 섹션에 사용된 것보다 훨씬 크지만 그 본질과 계산 단계는 변경되지 않았습니다.
특정 작업 흐름은 다음 그림과 같습니다.
스트리트 파이터 분사의 키워드 추출에는 TextRank 와 TF-IDF 라는 두 가지 알고리즘이 있습니다. 구현 프로세스는 비교적 간단하며 핵심은 알고리즘 자체에 있습니다. 다음은 구현 프로세스의 간단한 그림입니다. 특정 알고리즘은 다음 장에서 찾을 수 있습니다.
TextRank 메서드는 기본적으로 어휘성을 필터링하는 반면 TF-IDF 방법 모델은 어휘성을 필터링하지 않습니다.
이 장에서는 새로운 단어가 발견한 숨겨진 마르코프 모델 및 Viterbi 알고리즘, 키워드 추출 TextRank 및 TF-IDF 알고리즘 등 관련 알고리즘에 대해 간략하게 설명합니다.
HMM (숨겨진 마르코프 모델) 은 마르코프 가정에 기반한 통계 모델입니다. 숨겨진 이유는 마르코프 프로세스와 비교했을 때 HMM 에 알 수 없는 매개변수가 있기 때문입니다. 세상에서 볼 수 있는 것은 종종 표상이고, 사물의 실제 상태는 종종 표상 아래에 숨겨져 있으며, 표상과 일정한 관계가 있다.
여기서 s 와 o 는 각각 상태 시퀀스와 관찰 시퀀스를 나타냅니다.
독자들이 이 이 부분의 내용에 대해 아직 의문이 있다면, 먼저 아래로 읽어보는 것이 좋다. 다음은 실제로 HMM 과 디코딩 알고리즘을 설명하고 시연하기 위해 비교적 간단한 예를 사용하겠습니다. 다음 섹션을 보고 이 공식을 다시 보면 문득 깨달을 수 있을 것입니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 과학명언)
여기 간단한 예가 있습니다.
샤오밍은 한 네티즌 샤오홍이 매일 위챗 모멘트 상에서 자신이 오늘 무엇을 했는지 설명하고, 이날 날씨에만 영향을 받는다고 가정하고, 이날 날씨는 전날의 날씨에만 영향을 받는다고 가정한다.
샤오밍에게 샤오홍은 매일 보이는 상태를 하고, 샤오홍은 그곳에서 숨겨진 상태를 만들어 HMM 모델을 구성한다. HMM 모델에는 숨겨진 상태 세트, 관찰 세트, 전환 확률, 관찰 확률 및 초기 상태 확률의 다섯 가지 요소가 필요합니다.
즉, j 번째 숨기기 상태에서 상태가 i. 로 표시될 확률입니다. 여기서 n 과 m 은 숨겨진 상태 세트와 관찰 세트의 수를 나타냅니다.
이 예에서, 날씨에 따라 샤오홍이 다른 일을 할 확률도 다르다. 관찰 확률은 표 형식으로 다음과 같이 나타난다.
안에 ...
또한 초기 상태 확률 벡터 π가 필요합니다. 이는 관찰이 시작될 때, 즉 t=0 일 때 숨겨진 상태의 확률 값을 나타냅니다. 이 예에서는 π = {0,0, 1} 을 지정합니다.
이제 완전한 숨겨진 마르코프 모델이 정의되었습니다.
HMM 에는 일반적으로 다음과 같은 세 가지 유형의 문제가 포함됩니다.
확률 계산 문제, 즉 주어진 A, B, π 및 암시적 시퀀스는 관찰 시퀀스의 확률을 계산합니다.
예측 문제도 디코딩 문제다. A, B, π, 관측 순서를 알면 가장 상응하는 상태 시퀀스를 찾을 수 있다.
학습 문제, 알려진 관찰 시퀀스, 모델 A, B, π의 매개변수를 추정하여 해당 모델 아래의 관찰 시퀀스 확률을 최대화합니다. 즉, 최대 우도 추정을 통해 매개변수를 추정합니다.
디코딩된 문제는 해패 분사에 쓰이는데, 여기서는 예측과 학습 문제를 심도 있게 논의하지 않는다. 다음 섹션에서는 디코딩 문제를 해결하기 위해 이 섹션의 예를 계속 살펴보겠습니다.
스트리트 파이터 분사에서 HMM 은 새로운 단어를 발견하고 각 단어를 B/M/E/S 로 표시하며 각각 접두어, 단어, 접미사 및 단어 형성을 나타냅니다. B/M/E/S 를 HMM 의 숨겨진 상태로, 각 연속어를 관찰 상태로 사용하는 작업은 관찰 상태를 사용하여 숨겨진 상태를 예측하는 것입니다. 모델의 A, B, π의 확률은 파일에 이미 지정되어 있으므로 표준 디코딩 문제입니다. 비트비 알고리즘은 스트리트 파이터의 분사 문제를 해결하는 데 사용됩니다.
비트비 알고리즘의 기본 사상은 최적 경로가 한 점을 통과하면 시작점에서 이 점까지의 경로가 반드시 가장 짧은 경로여야 한다는 것이다. 그렇지 않으면 시작점에서 이 점까지의 더 짧은 경로로 바꾸면 더 짧은 경로를 얻을 수 있다는 것이다. 이것은 분명히 모순적이다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 성공명언) 시작점에서 끝점까지의 경로는 n 번째 순간을 통과해야 합니다. N 번째 순간에 k 개 상태가 있는 경우 최종 경로는 시작 지점에서 k 개 상태 중 가장 짧은 경로의 점을 통해 시간 n 에 도달해야 합니다 .....
가능한 모든 상태 전환 경로 I 1 I2 의 최대 상태를 시간 t 에 숨겨진 상태 I 로 기록합니다
이전 섹션의 예를 계속 진행하여 비트비 알고리즘을 설명해 보겠습니다.
샤오밍은 샤오홍이 어디 사람인지 모른다. 그는 작은 빨간 일상 활동을 통해서만 그곳의 날씨를 추론할 수 있다.
샤오홍이 3 일 연속' 수면-게임-쇼핑' 을 한다고 가정하면 가장 가능성이 높은 날씨 상황을 계산해 본다.
첫날은 비 오는 날이고, 다음날은 맑은 날 확률을 최대화할 수 있다는 뜻입니다. 즉, 다음날이 가장 짧은 경로에서 맑은 날이면 첫날은 가장 짧은 경로에서 비오는 날이 될 것입니다. 위의 비트비 알고리즘의 기본 사상을 참조하십시오.
이때가 이미 최후의 순간이 되었으니, 우리는 되돌아가기 시작했다.
계산 프로세스 다이어그램은 다음 그림과 같습니다.
) 로 이동합니다.
TF-IDF (단어 빈도-역텍스트 빈도) 는 문서에 있는 단어의 중요성을 평가하는 통계적 방법입니다. 핵심 아이디어는 한 단어가 한 편의 문장, 즉 TF 에 자주 나타나지만 다른 문서에는 거의 나타나지 않는 경우 그 단어가 좋은 분류 능력을 가지고 있다고 생각한다는 것이다.
여기에는 다음이 포함됩니다.
TextRank 는 키워드 추출 알고리즘입니다. PageRank 를 기반으로 하기 때문에 PageRank 를 먼저 소개하겠습니다.
PageRank 는 인터넷에서 하이퍼링크 관계를 통해 웹 페이지의 순위를 결정합니다. 공식은 투표 아이디어로 설계되었습니다. 웹 페이지 A 의 PageRank 값을 계산하면 A 에 연결된 웹 페이지를 알아야 합니다. 즉, 먼저 A 의 링크를 얻은 다음 웹 페이지 A 에 링크하여 A 의 PR 값을 계산합니다. 공식은 다음과 같습니다.
여기에는 다음이 포함됩니다.
D 는 0- 1 범위의 댐핑 계수로, 한 점에서 다른 점을 가리킬 확률을 나타냅니다. 일반적으로 값은 0.85 입니다.
결과가 수렴될 때까지 위 공식을 여러 번 반복합니다.
TextRank 알고리즘은 PageRank 의 사상을 바탕으로 투표 메커니즘을 이용하여 텍스트의 중요한 성분을 정렬합니다. 두 단어가 고정된 크기의 창에 함께 나타나면 두 단어 사이에 선이 있는 것으로 간주됩니다.
공식은 기본적으로 PageRank 와 같습니다. 수렴할 때까지 여러 번 반복하면 결과를 얻을 수 있다.
클렌징 분사에서 TextRank 는 5 의 단어 창 크기를 설정하고 공식 1 반복 10 회 결과를 최종 가중치 결과로 설정합니다. 반드시 수렴까지 반복할 필요는 없습니다.