중화사전망 - 영어 사전 - 트리 재귀 신경망에 기반한 트위터 소문 탐지

트리 재귀 신경망에 기반한 트위터 소문 탐지

헛소문 탐지 연구에서 헛소문 전파 구조에 기반한 방법은 매우 적다. 일부 핵 기반 방법은 전파 트리의 구조를 시뮬레이션하는 데 사용됩니다. 헛소문과 비소문은 비교 나무의 유사성으로 구분할 수 있지만 나무 한 그루는 직접 분류할 수 없어 다른 나무와 비교해야 한다.

이 글은 재귀 신경망을 이용하여 소문을 모델링하고 배우는 전파 구조를 제시한다. RvNN 자체는 단락이나 문장의 문법과 의미 표현을 배우는 데 사용됩니다. 텍스트 구문 분석과는 달리, 우리 모델의 입력은 단일 구문 분석 트리가 아닌 소스 tweets 의 전파 트리이며, 트리 노드는 단일 단어가 아닌 게시물에 응답하는 노드입니다. 트리 구조의 반복 기능을 따라 프로세스를 학습하면 게시물의 컨텐츠 의미와 그 사이의 응답 관계를 캡처할 수 있습니다.

그렇다면, 왜 이 신경 모델이 소문 검사 임무를 더 잘 완성할 수 있을까? 트위터는 관점, 추측, 증거를 공유함으로써 부정확한 정보를' 스스로 시정' 할 수 있다는 사실이 밝혀졌다. 예를 들어, 다음 그림은 거짓 소문과 실제 소문의 전파나무를 보여 줍니다.

구조가 민감하지 않은 방법은 기본적으로 텍스트에서 서로 다른 위치의 상대적 비율에 의존하는데, 이런 단서가 명확하지 않은 상황에서는 좋은 역할을 할 수 없다. 하지만 한 게시물이 허위 소문을 부인할 때 종종 지지나 긍정적인 답변을 받는 것을 볼 수 있습니다. 이는 소문에 대한 부정을 확인시켜 줍니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 거짓명언) 반대로, 진짜 소문에 대한 부정은 종종 의심이나 부정으로 이어질 수 있다. 이 관찰 결과는 더 보편적인 가설을 암시하는 것일 수 있다. 즉, 응답자들은 가짜 소문을 지지하거나 진짜 소문을 부인하는 사람에게 동의하지 않거나 의문을 제기하는 경향이 있고, 거짓 소문을 부인하거나 진짜 소문을 지지하는 사람에게 동의하는 경향이 있다는 것이다. 동시에 응답은 일반적으로 소스 푸시 (즉, 전파 트리의 루트 노드) 에 직접 응답하는 대신 직접 조상 (즉, 응답한 게시물) 에 응답합니다. 재귀 네트워크는 이러한 구조를 자연스럽게 모델링하여 소문 표시 신호를 포착하고 다른 분기의 신호를 재귀적으로 집계하여 대표성을 높입니다.

이 문서에 사용된 RvNN 모델은 상향식 (BN) 모델과 하향식 (TD) 모델의 두 가지 유형으로 나뉘어 전파 트리 구조를 다르게 표현합니다. 이 아키텍처의 중요한 장점은 지정된 전파 트리의 모든 경로에 대한 연결 및 방향이 노드 특성을 재귀적으로 선택적으로 최적화할 수 있다는 것입니다.

헛소문 감지 데이터 세트는 하나의 집합으로 정의되며, 각 집합에는 소스 트윗과 관련된 모든 응답 트윗이 시간순으로 포함되어 있습니다. 트윗은 시간순으로 표기되어 있지만 응답 또는 전달 관계에 따라 연결되어 전파 트리 구조를 형성하고 이를 루트 노드로 사용할 수 있다는 점에 유의해야 합니다. 소문 탐지 문제는 분류 작업으로 정의됩니다. 즉, 분류기를 배우는 것입니다. 이 분류기는 네 가지 세밀한 클래스인 비소문, 거짓 소문, 실제 소문, 미확인 소문에 속합니다.

트리 구조의 방향에 따라 두 가지 유형으로 나뉩니다.

① 상향식 트리의 회신 노드는 항상 응답한 노드를 가리키고, 리프 노드는 응답이 없으며, 이 중 노드에 대한 답변이 있습니다.

2 하향식 나무는 정보가 전파되는 방향에 부합하며, 정보가 한 방향에서 다른 방향으로 흐른다는 것을 나타내며, 응답을 보고 남깁니다.

RvNN 의 초기 버전은 각 노드가 나타내는 계산이 직접 하위 노드와 연관된 문장 해결을 위한 이진 트리입니다. 예를 들어 다음 그림은 그림의 왼쪽에 있는 해석 트리에 해당하는 RvNN 의 구조를 보여줍니다.

리프 노드는 입력 문장에 단어가 포함된 단어입니다. 상위 노드가 로 표시되고 해당 하위 노드 두 개가 sum 인 경우 상위 노드가 나타내는 계산 프로세스는 함수 및 매개변수를 활성화하고 모든 노드에서 재귀적으로 수행되며, 학습된 노드는 다양한 분류 작업에 사용할 수 있음을 나타냅니다.

상향식 모델의 핵심 아이디어는 각 노드에 재귀적으로 액세스하고, 하엽에서 최상위 루트까지, 각 하위 트리에 대한 고유 벡터를 생성하고, 마지막으로 최상위 루트 노드의 표현을 트리의 전역 표현으로 집계하는 것입니다. 아래 그림 (a) 와 (b) 는 전달 트리와 해당 RvNN 계산 과정을 보여줍니다.

각 노드의 표현은 해당 tf-idf 벡터에 대한 응답입니다. 각 노드에는 입력 벡터가 있으며 한 노드의 하위 노드 수가 반드시 같을 필요는 없습니다. 이 기사에서는 확장 GRU 를 암시 적 계층 단위로 선택합니다. 노드를 나타내는 직접 하위 노드 세트를 사용하여 노드 숨기기 상태를 계산하는 절차는 다음과 같습니다.

아핀 변환에 사용되는 원래 입력 벡터로, 하닷마곱을 나타내는 GRU 의 매개변수입니다. 만약 당신이 GRU 를 이해하지 못한다면, 당신은 참고할 수 있다: 모두가 이해할 수 있는 GRU.

마지막으로 루트 노드의 숨기기 상태는 분류에 사용됩니다.

하향식 RvNN 은 위 그림 (C) 에 표시된 것처럼 하향식 트리 구조를 활용하여 소문을 분류하는 데 사용되는 복잡한 전파 패턴을 캡처하도록 설계되었습니다. 각 노드의 표현은 상향식 모델과는 달리 자체 입력을 하위 노드가 아닌 상위 노드와 결합하여 계산됩니다.

노드를 나타내는 상위 노드를 사용하여 노드 숨기기 상태를 계산하는 절차는 다음과 같습니다.

그런 다음 최대 풀을 통해 리프 노드의 표현을 분류하여 모든 전달 경로에서 가장 효율적인 표시 특성을 캡처하는 데 도움이 됩니다.

우리는 하향식 패턴이 더 좋을 것이라고 추측할 수 있다. 아래에서 위로 올라가면 최종 출력은 하향식 모델보다 정보 손실이 큰 루트 노드의 표현에 따라 달라집니다. 하향식 상황에서는 서로 다른 전파 경로를 통해 리프 노드를 포함하는 표현을 풀링을 통해 하나로 결합할 수 있기 때문입니다.

제곱 손실은 훈련 및 L2 정규화에 사용됩니다.

범주의 수입니다. Adagrad 는 교육에 사용되며 모델 매개변수는 균일 분포 초기화를 사용합니다. 사전 크기는 5000 이고 숨겨진 레이어 상태 및 포함된 크기는 100 입니다.

여러 기준선의 영향을 비교했습니다.

소문을 조기에 발견하고 탐지하다.

다음은 상향식 및 하향식 모형에서 탐지된 거짓 소문의 예입니다.