중화사전망 - 서예자전 - 우디 0.5.2 후디가 글을 쓸 때 복사와 읽기시 병합 테이블 구분 관계

우디 0.5.2 후디가 글을 쓸 때 복사와 읽기시 병합 테이블 구분 관계

다음 표에서는 서로 다른 질의 유형 간의 트레이드 오프를 요약합니다.

특히, 쓰는 동안 후디표의 두 가지 테이블 유형을 지정했다. 구성 단위 테이블을 생성할 때 STORED AS INPUTFORMAT 매개변수를 지정하여 다른 _ro/_rt 테이블을 생성합니다.

테이블 이름 = 우디 _ 여행, 테이블 유형 = 쓰기 시 복제, 다음을 볼 수 있습니다.

테이블명 = 우디 _ 여행, 테이블유형 = 병합 _ 읽기, 다음을 볼 수 있습니다.

다음 표에서는 각 쿼리 엔진에서 지원하는 쿼리 유형을 보여 줍니다.

참고: 쓰기 시 테이블 복사는 읽기 최적화 질의를 지원하지 않습니다.

하이브가 후디테이블을 인식하고 제대로 조회하도록 하려면:

위에서 설명한 설정 외에도 beeline CLI 액세스의 경우 hive.input.format 변수를 표준 경로 이름 org 로 설정해야 합니다. 아파치. 우디. Hadoop 입니다. HoodieParquetinputformat. Tez 의 경우 hive.tez.input.format 도 org.apache.hadoop.hive.ql.io.hiveinputformat.

증분 풀 (현재 JDBC 만 할 수 있는 것 같습니다)

HiveIncrementalPuller 를 사용하면 HiveQL 을 통해 큰 팩트/차원 테이블에서 변경 사항을 점진적으로 추출할 수 있으며, Hive QL 은 Hive (복잡한 SQL 쿼리를 안정적으로 처리) 와 증분 프리미티브 (전체 스캔이 아닌 증분 풀링을 통해 쿼리 속도를 높임) 의 장점을 결합합니다. 이 도구는 구성 단위 JDBC 를 사용하여 구성 단위 쿼리를 실행하고 결과를 삽입 및 업데이트할 수 있는 준비 테이블에 저장합니다. Upsert 유틸리티 (HoodieDeltaStreamer) 에는 대상 테이블의 제출 시간을 이해하는 데 필요한 디렉토리 구조에 필요한 모든 상태가 있습니다. 예:/app/incremental-hql/intermediate/{source _ table _ name} temp/{last _ commit _ 등록된 증분 구성 단위 테이블의 형식은 {tmpdb} 입니다. {source _ table} {last _ commit _ include} 입니다.

빅데이터의 기술적 문제를 문의하고 고민을 해결해 드릴 수 있습니다. 위챗 해나즈혼 지안 (hainanzhongjian)