중화사전망 - 자전 검색 - 전체 텍스트 검색이란 무엇입니까?
전체 텍스트 검색이란 무엇입니까?
주요 시스템에는 TRS 시스템, 천우시스템 등이 있습니다.
전체 텍스트 검색 엔진은 다른 검색 엔진과 비교했을 때 텍스트의 모든 의미 있는 단어를 검색 엔트리로 사용할 수 있으며 검색 결과는 문서 단서가 아닌 원본 문서라는 특징이 있습니다.
컴퓨터 산업이 발전함에 따라 컴퓨터 저장 장치를 기반으로 하는 전자 정보가 갈수록 많아지고 있다. 이 정보는 크게 정형 데이터와 비정형 데이터의 두 가지 범주로 나눌 수 있습니다. 구조화된 데이터란 기업의 재무 장부와 생산 데이터, 학생의 점수 데이터 등을 말한다. 구조화되지 않은 데이터는 텍스트 데이터, 이미지 및 사운드와 같은 멀티미디어 데이터를 의미합니다. 통계에 따르면 비정형 데이터는 전체 정보의 80% 이상을 차지합니다. 구조화된 데이터의 경우 RDBMS (관계형 데이터베이스 관리 시스템) 기술이 현재 구조화된 데이터를 관리하는 가장 좋은 방법입니다. 그러나 RDBMS 자체의 기본 구조로 인해 대량의 비정형 데이터를 관리하는 데 다소 부족합니다. 특히 이러한 대량의 비정형 데이터를 쿼리하는 속도가 느립니다. 또한 전체 텍스트 검색 기술을 통해 이러한 비정형 데이터를 효율적으로 관리할 수 있습니다.
몇 년 동안 전체 텍스트 검색은 초기 문자열 매칭 프로그램에서 초대형 텍스트, 음성, 이미지 및 모션 이미지와 같은 구조화되지 않은 데이터를 완벽하게 관리할 수 있는 대형 소프트웨어로 발전했습니다. 내포와 외연의 깊은 변화로 인해 전체 텍스트 검색 시스템은 차세대 관리 정보 시스템의 대명사가 되었으며, 전체 텍스트 검색 시스템을 측정하는 기본 지표도 점차 규범을 형성하고 있다.
우선, 우리는 전율, 즉 한 번의 검색을 할 때 시스템에서 검색된 관련 재료의 양과 시스템 데이터베이스의 관련 재료 총량의 비율에 초점을 맞추고 있습니다. 정확도는 가장 유용한 재질을 찾을 수 있도록 하는 데 있어 가장 중요한 요소입니다. 이는 시스템에서 검색된 유용한 재질의 수와 검색된 재질의 총 수에 대한 비율입니다. 검색 속도 또는 응답 시간은 생산성 향상을 보장하는 것으로, 검색된 주제 제출부터 데이터 결과 찾기까지 걸리는 시간입니다. 가장 기본적인 검색 속도는' 천만 한자, 초급 응답' 이어야 한다. 포함 범위 (검색 범위), 사용자 부담 (검색 중 사용자의 노력 합계), 출력 형식 (출력 정보 표현 형식) 등의 지표도 있습니다. 이는 전체 텍스트 검색 시스템의 품질을 측정하는 요소이기도 합니다.
검색 엔진은 전체 텍스트 검색 기술의 가장 중요한 응용 프로그램이어야 합니다. 현재 검색 엔진의 사용은 이메일 송수신에 버금가는 두 번째로 큰 인터넷 응용 기술로 자리잡았다. 검색 엔진은 전통적인 정보 전체 텍스트 검색 이론, 즉 컴퓨터 프로그램이 각 문장 내의 각 단어를 스캔하고, 단어별 파일을 작성하며, 검색 프로그램은 각 검색어가 각 문장 내에 나타나는 빈도와 확률에 따라 이러한 검색어가 포함된 문장 순서를 지정하고, 최종적으로 정렬 결과를 출력합니다. 전체 텍스트 검색 기술은 검색 엔진의 핵심 지원 기술입니다.
좋은 검색 엔진은 이상적인 웹 사이트의 열쇠입니다. 많은 사람들이 웹 사이트를 방문 할 때 웹 사이트 검색을 사용하기를 좋아합니다. 웹 사이트 검색은 분류 카탈로그 탐색과 전체 텍스트 검색의 완벽한 조합이어야 하며 다음을 포함합니다.
분류 디렉토리 탐색의 핵심은 검색 범위입니다. 검색 범위 제한으로 인해 검색 결과가 너무 많지 않을 수 있습니다.
전체 텍스트 검색은 웹 사이트 검색에 매우 중요하며, 사람들이 정상적인 상황에서 필요한 웹 페이지를 빠르게 찾을 수 있도록 도와줍니다.
분류 카탈로그 탐색 및 전체 텍스트 검색을 사용하여 필요한 정보를 찾기 어려우므로 검색 보조와 결합해야 하는 경우도 있습니다.
검색 결과가 너무 많으면 사용자가 하나씩 탐색할 수 없기 때문에 관련 정렬 기능이 있어야 합니다. 대부분의 사용자는 관련 정렬 없이 상위 항목만 찾습니다. 정확한 검색 결과가 뒤처져 있어서 사용자가 찾아볼 수 없을 수도 있지만, 맨 위에 있는 검색 결과는 관련성이 거의 없어 사용자의 착각을 불러일으킨다.
또한 HTML/XML 의 특수성, 대량의 동시 사용자에 대한 갑작스러운 액세스 지원, 웹 사이트의 동적 특성 및 인덱스 유지 관리의 효율성을 고려해야 합니다.
현재 Lucene, Solr, ElasticSearch 등이 있습니다. 전체 텍스트 검색 프로세스는 색인과 검색의 두 가지 프로세스로 나뉩니다.
색인
관계형 데이터베이스, 인터넷 및 파일 시스템에서 소스 데이터 (검색할 대상 정보) 를 수집합니다. 소스 데이터의 소스는 매우 광범위합니다.
하나의 통합 위치에서 스토리지 시스템과 같은 소스 데이터를 수집합니다. 색인을 만들려면 색인 라이브러리 (파일 시스템) 에 색인을 만들고, 소스 데이터베이스에서 중요한 정보를 추출하고, 중요한 정보에서 단어를 추출합니다. 단어는 소스 데이터와 관련이 있습니다. 즉, 색인을 만들 때 단어는 소스 데이터와 연관되며 이 연관은 인덱스 데이터베이스에 기록됩니다. 단어를 찾으면 소스 데이터 (http 웹 페이지, 전자책, 뉴스 등) 를 의미합니다. ) 이미 찾았습니다.
검색 (검색)
사용자는 검색 (전체 텍스트 검색) 을 수행하고 쿼리 키워드를 작성합니다.
색인 데이터베이스에서 색인을 검색하고 조회 키워드에 따라 한 단어씩 색인 데이터베이스를 검색합니다.
검색 결과를 표시합니다.