중화사전망 - 중국어 사전 - Lucene+nutch 검색 엔진 개발 카탈로그 커널 공개

Lucene+nutch 검색 엔진 개발 카탈로그 커널 공개

4. 1 웹 스파이더 원리

4.1..1아키텍처 설계

4. 1.2 액세스 정책 및 알고리즘

4. 1.3 효율성 최적화 및 업데이트

4. 1.4 거미 액세스 사양

4. 1.5 오픈 소스 거미 소개

4.2 견과류 거미줄

Nutch 웹 스파이더 개요

4.2.2 Nutch 캡처 모드 분류

4.2.3 잡아 시험 장소 설립

4.3 나치란 크롤링

4.3. 1 로컬 다운로드 준비

4.3.2 다운로드 프로세스를 시작합니다.

4.3.3 다운로드 프로세스 분석

4.3.4 여러 웹 사이트 다운로드

4.4 Nutch 인터넷 캡처

4.4. 1 다운로드 목록 수집

4.4.2 대량의 웹 사이트 다운로드

4.5 Nutch 캡처 비교

4.6 Nutch 결과 감지

4.6. 1 웹 콘텐츠 검색

4.6.2 Readdb 를 사용하여 요약 정보 얻기

4.6.3 SegRead 를 사용하여 조각 읽기

루크 도구의 사용

4.7 Nutch 구성 파일 분석

4.8 Heritrix 거미줄

4.8. 1 Heritrix 개요

Heritrix 아키텍처

4. 8. 3 Heritrix 설치 및 사용

4.9 요약 5. 1 문서 색인 원칙

5.1..1지수 개요

5. 1.2 색인 기본 구조

5. 1.3 역 색인 원리

5. 1.4 지수 분류

5. 1.5 고성능 지수

5.2 Lucene 색인 프로그램

5. 2. 1 Lucene 색인 소개

5.2.2 Lucene 인덱스 구조

5.2.3 다중 파일 인덱스 구조

5.2.4 종합 지수 구조

5.3 Lucene 인덱스 예

5.3. 1 인덱스 생성 코드 분석

5.3.2 인덱스 작성자 (IndexWriter)

색인 관리자 (IndexReader)

지수 수정자

5.3.5 지수 분석기 (분석기)

5.4 Lucene 인덱스 작업

5.4. 1 텍스트 파일 인덱스 추가

5.4.2 Lucene 증분 인덱스 생성

5.4.3 색인 엔트리를 사용하여 문서 삭제

5.4.4 번호를 사용하여 파일을 삭제합니다.

압축된 문서 번호

색인 파일 업데이트

5.5 Lucene 인덱스의 고급 기능

5.5. 1 인덱스 필드 유형 선택.

지수 매개변수 최적화

디스크 인덱스 사용

메모리 인덱스 사용

매커니즘 동기화 및 잠금

5.6 Lucene 고급 애플리케이션 예제

5.6. 1 로컬 검색을 위한 색인 작성

인덱스 데이터베이스 레코드

5.6.3 지수 최적화 및 통합

5.7 견과류의 Lucene 지수

5.8 요약 6. 1 정보 조회 원칙

6.1..1정보 조회 개요

6. 1.2 질의 기본 프로세스

6. 1.3 질의 결과 표시

6. 1.4 고성능 쿼리

6.2 Lucene 쿼리 개요

6.2. 1 Lucene 쿼리 작업의 기초

6. 2. 2 Lucene 질의 예제 소개

6.2.3 IndexSearcher 클래스 쿼리 도구

6.2.4 질의 패키지 질의 클래스

6.2.5 질의 분석기의 QueryParser 클래스

6.2.6 질의 결과 집합 적중 클래스

6.3 Lucene 기본 질의

6.3. 1 Lucene 조회 객체

6.3.2 최소 품목 질의 $ TermQuery

6.3.3 검색 범위 간격 조회

6.3.4 논리 1/4 조합 검색 부울 조회

6.3.5 문자열 접두어 검색 접두어 질의

6.3.6 구 검색 구 조회

퍼지 검색 퍼지 질의

6.3.8 와일드카드 검색 와일드카드 조회

6.3.9 위치 범위 검색의 범위 조회

6.4 Lucene 고급 쿼리

6.4. 1 인덱스 메모리 검색

6.4.2 다중 키워드 도메인 간 검색

6.4.3 다중 검색 상호 인덱스 검색

6.5 Nutch 의 Lucene 쿼리

6.6 요약 7. 1 검색 엔진 문서 정렬 지침

7.1..1기존 검색 순위 기술

7. 1.2 벡터 모델 정렬 제한

7. 1.3 검색 엔진 관련성 순위

7. 1.4 PageRank 링크 분석 원리

7. 1.5 검색 엔진 순위 프로세스

7.2 Lucene 검색 정렬

7.2. 1 Lucene 관련 요소

7.2.2 Lucene 관련 정렬 프로세스

7.2.3 Lucene 순위 계산 시스템

7.2.4 Lucene 정렬 제어 방법

7.3 문서 향상된 가중치 정렬

7.3. 1 Lucene 의 Boost 소개

7.3.2 부스트 값의 전체 문서 정렬

7.3.3 부스트 값에 대한 문서 필드 정렬

7. 3. 4 boosting term 쿼리 정렬

7.4 정렬 객체 검색 정렬

7.4. 1 정렬 객체 개요

7.4.2 정렬 객체 종속성 정렬

7.4.3 정렬 객체 문서 번호 정렬

7.4.4 정렬 객체 독립 도메인 정렬

7.4.5 정렬 객체 통합 도메인 정렬

7.4.6 정렬 객체 역순 정렬

7.5 Lucene 관련 공식

7.5. 1 Lucene 점수 결과 분석

7.5.2 Lucene 정렬 공식

7.5.3 기타 동적 순위 요소

7.6 Lucene 사용자 정의 정렬

7.6. 1 사용자 지정 정렬 비교 인터페이스

7.6.2 사용자 정의 정렬 인터페이스 클래스 예

7.6.3 사용자 정의 정렬 결과 테스트 예

7.6.4 사용자 정의 분류 테스트 결과

7.7 nutch 의 결과 정렬

7.7. 1 Nutch 정렬 요소

Nutch 링크 분석

7.7.3 Nutch 상관 관계 계산

7.8 요약 8. 1 문서 분석 및 중국어 분사 원리

8.1..1문서 분석 전처리 개요

8. 1.2 문서 분석의 기본 프로세스

8. 1.3 중국어 분석 및 처리 중인 분사

8.2 Lucene 분석기 커널 원리

8.2. 1 Lucene 분석기 원리

분석 패키지 소개

8.2.3 분석기 클래스의 조합 구조

JavaCC 구조 분석기

8.2.5 StopAnalyzer 커널 코드 분석

8.2.6 표준 분석기 커널 코드 분석

8.3 Lucene 분석기 응용 프로그램 모드

8.3. 1 기본 파서를 사용하여 색인 작성.

8.3.2 여러 분석기를 사용하여 색인을 작성합니다.

8.3.3 분석기를 사용하여 질의 검색

8.4 Lucene 마스터 분석기 응용 프로그램 예제

8.4. 1 중지 단어 분석기 중지 분석기

표준분석기

단순 분석기 단순 분석기

흰색 공간 분석기

키워드 분석기 키워드 분석기

8.5 토큰 스트림 분사기의 커널 분석

8.5. 1 분사기

표준 마커

8.5.3 문자 스플리터

빈 토큰화기

문자 치수기

8.5.6 저수준 seTokenizer

8.6 토큰 스트림 필터 커널 분석

8.6. 1 토큰 필터 필터

표준 필터

8.6.3 단어 필터 비활성화 필터 비활성화

8.6.4 하부 쉘 필터 하부 쉘 필터

길이 필터

스템 필터 포트 스템 필터

8.7 Lucene 중국어 단어 세분화

8.7. 1 중국어 분사의 기본 원칙과 방법

8.7.2 표준 분석기 중국어 처리

8.7.3 중국어 분석기

중국어 분석기 중국어 분석기

8.7.5 IK_CAnalyzer 중국어 분석기

8.7.6 중국과학원 ICTCLAS 중국어 분사

8.7.7 JE 중국어 분사

8.7.8 중국어 분사 문제

8.8 Nutch 단어 분할 및 전처리

8.8. 1 견과류 분석기

8.8.2 Nutch 중국어 분사

8.9 9. 1 구조화되지 않은 텍스트 개요

9.1..1구조화되지 않은 텍스트 개요

9. 1.2 구조화되지 않은 텍스트 검색

9.2 HTML 문서 분석

메인스트림 HTML 문서 분석기

9. 2. 2 html 파서의 설치 구성

9. 2. 3 html 파서의 프레임 구조

9.3 html 파서 응용 프로그램 예제

9.3. 1 HTMLParser 함수 모드

Html 파서 컨텐트 구문 분석 방법

9.3.3 방문자 패턴 텍스트 분석

9.3.4 필터링 모드 단순 링크 추출

9.3.5 필터 모드 검색 링크 추출

9.3.6 문서의 렉서 모드 순회

9.4 PDF 문서 분석

9.4. 1 일반 PDF 처리 패키지

PDFBox 설치 구성

9.5 PDFBox 응용 프로그램 예제

9.5. 1 PDFBox 문서 내용 추출

9.5.2 PDFBox 문서 컨텐츠 인덱싱

9.6 사무실 문서 분석

9.6. 1 일반 사무용 문서 처리 패키지

9.6.2 POI 를 사용한 설치 및 구성

9. 6. 3 POI 원리 및 인터페이스 소개

9.7 관심 지점 분석 사무실 파일 예

9.7. 1 POI Excel 문서 처리

9.7.2 관심 지점 Word 문서 처리

9.8 XML 문서 분석

9.8. 1 메인스트림 XML 문서 분석기

JDOM 분석기 설치 구성

Xerces 분석기 설치 구성

9.9 XML 구문 분석 응용 프로그램 예제

JDOM 을 사용하여 XML 문서 분석

9.9.2 Xerces 를 사용하여 XML 문서 분석

9. 10 Nutch 문서 처리

9. 1 1 요약 10. 1 분산 검색 및 캐시

10. 1. 1 분산 검색 엔진 상태

10. 1.2 분산 검색 엔진 원리

10. 1.3 검색 엔진 캐시 상태

10. 1.4 검색 엔진 캐시 원리

10.2 Nutch 및 분산 검색

10.2. 1 구글 분산 파일 시스템

10.2.2 MapReduce 시스템 소개

10.2.3 Hadoop 분산 파일 시스템

10.2.4 Nutch 분산 파일 시스템

10.2.5 Nutch 분산 검색 개요

10.2.6 누치 분산 회수 개

10.3 Lucene 분산 검색

10.3. 1 소켓 통신 기반

10.3.2 Lucene 인덱스 서버

10.4 Nutch 및 검색 캐시

10.5 오픈 소스 시스템 캐싱 시스템

10.6 요약