중화사전망 - 서예자전 - Excel 웹 데이터 JSON 데이터 수집 방법
Excel 웹 데이터 JSON 데이터 수집 방법
웹 페이지를 캡처할 때 필요한 데이터를 얻기 위해 제목 정보를 추가해야 합니다.
검색 결과의 첫 페이지에서 JSON 에서 총 위치 수를 읽고 페이지당 15 개 위치에 따라 기어갈 페이지 수를 얻을 수 있습니다. 그런 다음 루프를 사용하여 페이지별로 캡처하여 위치 정보를 요약하고 CSV 형식으로 출력합니다.
프로그램이 다음과 같이 실행됩니다.
다음과 같이 결과를 캡처합니다.
데이터 정리는 데이터 분석 작업 로드의 대부분을 차지합니다. 후크에서 선전의' 데이터 분석' 의 위치를 찾다. 우리는 369 개의 위치가 있다. 내가 직위명을 조사했을 때, 나는 네 개의 인턴 직위가 있다는 것을 발견했다. 우리는 정규직을 연구하고 있기 때문에 먼저 인턴직을 없앨 것이다. 업무 경험과 임금은 모두 문자열 형식의 간격이기 때문에 먼저 정규식으로 값을 추출하고 목록으로 출력합니다. 평균 근무 경험과 임금의 4 분의 1 이 현실에 가깝다.
4. 단어 구름
우리는 직업 복지 열의 데이터를 요약하고 문자열을 생성하며 단어 빈도에 따라 단어 구름을 생성하여 파이썬 시각화를 실현합니다. 다음은 원도와 운자의 대비입니다. 오보험일금이 업무복지에서 가장 자주 나타나는 것을 볼 수 있고, 플랫폼, 복지, 발전공간, 유연한 일자리가 그 뒤를 이을 수 있다.
5. 통계 설명
데이터 분석가의 평균 14.6K, 중앙값은 12.5K 로 유망한 직업임을 알 수 있습니다. 데이터 분석은 여러 업종에 분산되어 있지만 고급 수준의 데이터 마이닝 및 기계 학습을 포함하며 IT 업계에서 큰 발전을 이루었습니다.
임금의 분포를 살펴봅시다. 이것은 구직을 위한 중요한 참고 자료입니다.
급여는 10- 15K 에서 가장 많은 직책을 맡고, 그 다음은 15-20K 에서 보상을 받는 직책입니다. 제 소견에 따르면 10- 15K 의 창고는 모델링을 위주로 하고, 20K 이상의 창고는 데이터 마이닝과 대형 데이터 아키텍처를 위주로 합니다.
각 지구의 작업 분포를 살펴 보겠습니다.
데이터 분석직의 62.9% 는 남산구, 25.8% 는 후쿠다 구, 나머지는 용강구, 나호구, 보안구, 용화신구에 분포한다. 우리는 남산구와 후쿠다 구가 선전 과학기술산업의 중심이라는 것을 알 수 있다.
우리는 임금, 업무 경험, 교육 사이의 관계를 얻기를 바란다. 교육은 세 가지 범주로 나뉘기 때문에 전문, 학부, 석사 등 세 가지 가상 변수를 설정해야 합니다. 다중 회귀 결과는 다음과 같습니다.
0.05 의 중요도 수준에서 F 값은 82.53 으로 회귀 관계가 현저하다는 것을 나타냅니다. T 검사와 해당 P 값이 모두 0.05 미만이라는 것은 업무 경험과 세 가지 교육이 통계적으로 두드러진다는 것을 보여준다. 또한 R 제곱의 값은 0.4 1 입니다. 이는 업무 경험과 교육이 4 1% 의 임금 변동성만 설명한다는 것을 의미합니다. 직책이 데이터 분석가라고 해도 실제 작업 내용은 크게 다르다는 것을 이해하기 어렵지 않다. 어떤 것은 엑셀로만 기초분석을 하고, 어떤 것은 파이썬과 R 로 데이터 마이닝을 한다. 게다가, 회사마다 규모와 제공하고자 하는 보수가 다르다. 그러나 업무 내용의 차이와 회사의 관대함 때문에 채용 웹페이지의 홍보만으로는 실제 데이터를 얻기가 어려워 모델의 맞춤 우위가 좋지 않은 현실이다.