중화사전망 - 서예자전 - 웹사이트의 일부 정보를 어떻게 잡을 수 있습니까?

웹사이트의 일부 정보를 어떻게 잡을 수 있습니까?

두 사이트는 서로 다른 방식으로 잡을 수 있다.

먼저 API 웹 사이트를 엽니다

웹 사이트에서 API 를 열면 JSON 데이터를 직접 얻을 수 있습니다. 한 사이트가 API 를 개통했는지 판단하는 세 가지 방법이 있다.

1. 역에서 API 포털을 찾았습니다.

검색 엔진을 사용하여 "웹 사이트 API" 를 검색합니다.

3. 가방을 잡아요. 일부 웹 사이트에서는 Ajax 를 사용하지만 패키지를 캡처하여 XHR 의 JSON 데이터를 얻을 수 있습니다 (패키지 캡처 도구를 사용하여 패키지를 수집하거나 브라우저를 통해 F 12 를 눌러 패키지를 캡처할 수 있음: F 12-Network-F5 새로 고침).

둘째, API 웹 사이트를 열지 않습니다

1. 웹 사이트가 정적 페이지인 경우 요청 라이브러리를 사용하여 요청을 보낸 다음 HTML 구문 분석 라이브러리 (lxml, parsel 등) 를 사용할 수 있습니다. ) 텍스트 구문 분석 응답, 구문 분석 라이브러리는 Parsel 을 사용하는 것이 좋습니다. 구문은 CSS 선택기와 비슷할 뿐만 아니라 속도도 매우 빠릅니다. 이것이 바로 Scrapy 에서 사용하는 것입니다.

2. 웹 사이트가 동적 페이지인 경우 먼저 selenium 을 사용하여 JS 를 렌더링한 다음 HTML 구문 분석 라이브러리를 사용하여 드라이버의 page_source 를 확인할 수 있습니다.