중화사전망 - 자전 검색 - 졸업생은 파이썬 파충류 기술을 꼭 봐야 한다.
졸업생은 파이썬 파충류 기술을 꼭 봐야 한다.
파이썬 빠른 시작 7 가지 팁.
1, 기본 웹 캡처
획득 방법
게시 방법
2. 프록시 IP 사용
파충류를 개발하는 과정에서 IP 는 종종 차단되기 때문에 필요하다.
프록시 IP;
Urllib 2 패키지에는 프록시를 설정할 수 있는 프록시 처리기 클래스가 있습니다.
웹 페이지 방문, 다음 코드 조각:
3. 과자 가공
일부 웹 사이트에서는 쿠키를 사용하여 사용자를 식별하고 세션을 추적합니다.
파이썬은 사용자의 로컬 터미널에 저장된 데이터 (일반적으로 암호화된 데이터) 를 제공합니다.
쿠키 lib 모듈은 쿠키를 처리하는 데 사용되며 쿠키 lib 모듈의 주요 작업은 다음과 같습니다
Urllib 2 모듈과 쉽게 공동 작업할 수 있도록 쿠키를 저장할 수 있는 객체를 제공하는 데 사용됩니다.
인터넷 리소스에 액세스하는 데 사용됩니다.
코드 조각:
핵심은 http 쿠키 값, 저장 영역을 관리하는 쿠키 jar () 입니다.
HTTP 요청에 의해 생성된 쿠키, 송신 HTTP 요청에 쿠키 추가
을 눌러 섹션을 인쇄할 수도 있습니다. 전체 쿠키는 메모리에 저장되고 쿠키 jar 인스턴스로 들어갑니다
가비지 수집 후 쿠키도 손실되며 모든 프로세스를 개별적으로 조작할 필요가 없습니다.
쿠키를 수동으로 추가하려면 다음과 같이 하십시오.
4. 브라우저인 척
일부 웹사이트는 파충류의 방문을 좋아하지 않아 파충류의 요청을 거절했다. 그래서 사용
Urllib 2 가 웹 사이트에 직접 액세스할 때 HTTP 오류 403 이 자주 발생합니다.
금지된 상황.
서버가 대상으로 할 제목에 특히 주의하십시오.
검사를 하다.
1. 일부 서버 또는 에이전트가 이 값을 확인하여 판단합니다.
브라우저가 요청을 시작하는지 여부에 관계없이.
2. REST 인터페이스를 사용할 때 서버에서 다음을 확인합니다.
HTTP 본문의 내용을 구문 분석하는 방법을 결정하는 데 사용되는 값입니다.
이는 http 패키지의 헤더를 수정하여 수행할 수 있습니다. 코드 조각은 다음과 같습니다.
5, 인증 코드 처리
몇 가지 간단한 인증 코드에 대해 간단한 인식을 할 수 있다. 우리는 한 번만 해본 적이 있다.
간단한 인증 코드도 있지만 12306 과 같은 반인간 인증 코드도 있습니다.
, 당신은 코드 플랫폼을 통해 수동으로 코드를 걸 수 있습니다. 물론 이것은 유료입니다.
6.gzip 압축
당신은 홈페이지를 만난 적이 있습니까? 아무리 코드를 바꿔도 난잡하다. 하하 저것
많은 웹 서비스가 압축된 데이터를 전송할 수 있다는 것을 알지 못한다는 뜻입니다.
따라서 인터넷 회선에서 전송되는 대량의 데이터를 60% 이상 줄일 수 있습니다. 이것은 특히
XML 데이터의 압축률이 매우 높을 수 있기 때문에 XML 웹 서비스입니다.
그러나 서버에 그렇게 할 수 있다고 말하지 않는 한 일반 서버는 압축된 데이터를 보내지 않습니다
압축된 데이터를 처리합니다.
따라서 다음과 같이 코드를 수정해야 합니다.
이것이 핵심입니다: 요청 개체를 만들고 수락을 추가하십시오-
인코딩 헤더 정보는 서버에 gzip 압축 데이터를 받아들일 수 있음을 알려줍니다.
그런 다음 데이터 압축을 풉니다.
7. 멀티스레드 동시 획득
단일 스레드가 너무 느리면 다중 스레드가 필요합니다. 다음은 간단한 스레드 풀 템플릿입니다.
이 프로그램은 인쇄 1- 10 일 뿐이지만 동시성을 알 수 있습니다.
파이썬의 멀티스레딩은 닭갈비이지만, 인터넷이 잦은 파충류에게는 매우 어렵다.
, 또는 어느 정도 효율성을 향상시킬 수 있습니다.