중화사전망 - 영어 사전 - 검색 엔진이 웹 페이지를 어떻게 잡습니까?
검색 엔진이 웹 페이지를 어떻게 잡습니까?
1, 강탈
검색 엔진은 인터넷 사이트의 페이지를 수동으로 캡처할 수 없기 때문에 바이두와 구글의 엔지니어들은 spider ("로봇" 또는 "웹 파충류" 라고도 함) 라는 프로그램을 작성했습니다.
인터넷의 정보는 수많은 서버에 저장되어 있다. 어떤 검색 엔진이라도 사용자의 검색에 응답하려면 먼저 웹 페이지를 자신의 로컬 서버에 저장해야 하는데, 이는 웹 파충류에 달려 있다. 끊임없이 다양한 웹 사이트에 요청을 보내고 얻은 웹 페이지를 저장합니다.
일반적인 방법은 웹 페이지 사이의 링크를 이용하여 한 웹 페이지에서 시작하여 다른 웹 페이지에 대한 링크를 추출하여 다음에 요청할 대상으로 삼아 이 과정을 반복하는 것이다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 웹 페이지, 웹 페이지, 웹 페이지, 웹 페이지) 고려해야 할 많은 세부 사항이 있습니다. 예를 들어, 순환 링크를 피하는 웹 페이지; 웹 문서를 구문 분석하고 링크를 추출합니다. 링크를 열 수 없을 때 오류 처리 등
2. 색인
색인은 프로그램이 빠르게 검색할 수 있도록 돕기 위한 것입니다. 누구나 영어-중국어 사전을 사용했습니다. 사전 앞에 단어의 이니셜로 배열된 부분이 색인이다. 검색 엔진도 마찬가지입니다. 여기서는 가장 중요한 첫 번째 데이터 구조인 역행 테이블을 소개하겠습니다.
검색 엔진이 소유한 문서에 나타나는 각 단어에는 역행 테이블이 있습니다. 이 단어는 해당 단어가 나타나는 문서 수, 문서 수, 각 문서 섹션에 나타나는 횟수, 나타나는 위치를 기록합니다. 이렇게 하면 구글이 관련 단어를 검색할 때 모든 문서를 뒤적거릴 필요가 없고, 각 단어에 해당하는 역표를 찾기만 하면 그 단어가 어디에 나타나는지 알 수 있다.
각 네트워크 문서에는 텍스트 정보만 포함된 것이 아닙니다. 파일 이름, 참조 등도 포함될 수 있습니다. 검색 품질을 향상시키기 위해 검색 엔진은 문서의 다른 부분을 별도로 처리하고 역행 테이블을 만들어야 합니다. 단어의 각 부분은 이 부분의 거꾸로 된 표에 추가해야 한다.
3. 검색
색인을 사용하면 필요한 것을 빨리 찾을 수 있습니다. 앞서 언급했듯이 검색 엔진은 사용자의 정보 요구 사항에 따라 일치하는 내용을 찾습니다. 정보 요구 사항은 사용자 입력에서 비롯됩니다. 검색 엔진은 사용자가 입력한 검색 문자를 사용하여 색인을 만들 때 텍스트와 유사한 처리를 한 다음 구문 분석 트리를 생성합니다. 결론적으로, 이러한 기술의 궁극적인 목적은 검색 엔진이 사용자의 정보 요구 사항을 더 잘 이해하고 더 높은 품질의 문서를 찾을 수 있도록 돕는 것입니다.
4. 정리
키워드를 입력하여 관련 컨텐츠를 볼 수 있습니다. 이때 누가 1 등을 했는지, 누가 2 위를 차지했는지를 하나씩 보여 줄 것이다. (존 F. 케네디, 공부명언) 우리는 이런 결과 순위를 순위라고 부른다.
순위는 매우 복잡할 수 있습니다. 시스템은 일련의 복잡한 분석을 수행하고 분석 결론에 따라 인덱스 데이터베이스에서 가장 일치하는 일련의 웹 페이지를 찾아 사용자가 입력한 키워드에 반영된 수요 강도와 웹 페이지의 우열을 기준으로 점수를 매겼습니다. 최종 점수에 따라 정렬합니다.