중화사전망 - 사전 온라인 - 팬더 소개
팬더 소개
。 다음 명령문은 설치가 성공적인지 확인하고 확인합니다.
Pandas 에는 시퀀스, 데이터 프레임 및 색인이라는 세 가지 기본 데이터 구조가 있습니다.
Pandas 의 Series 객체는 인덱스 데이터가 있는 1 차원 배열입니다. Series 객체는 데이터 세트와 인덱스 세트를 함께 묶습니다. values 및 index 속성을 통해 데이터를 얻을 수 있습니다. Values 속성은 NumPy 배열과 유사한 결과를 반환합니다. Index 속성은 PD 유형의 클래스 배열 객체를 반환합니다. 색인
Numpy 처럼 Series 에 액세스할 수 있습니다 (일련 번호도 0 부터 계산됨).
판도라의 시리즈 대상은 Numpy 보다 더 유연하고 보편적이다.
이들 사이의 주요 차이점은 NumPy 배열이 암시적으로 정의된 정수 인덱스를 통해 숫자 값을 얻는 반면 판다 패밀리 객체는 명시적으로 정의된 인덱스를 통해 숫자 값과 연결된다는 것입니다. 즉, Numpy 의 인덱스는 시스템 자체에 할당되며 변경할 수 없지만 Series 객체는 수동으로 지정할 수 있습니다.
총서는 일종의 특수한 사전이다. Series 객체는 실제로 유형 키를 유형 값 세트에 매핑하는 데이터 구조입니다. 판다 시리즈의 유형 정보를 통해 Python 의 사전보다 특정 작업에서 더 효율적으로 작업할 수 있습니다. 사전을 사용하여 Series 객체를 만들면 기본적으로 해당 인덱스는 순서대로 정렬됩니다.
데이터 프레임은 RDBMS 의 테이블과 유사합니다. DataFrame 은 유연한 행 인덱스와 유연한 열 이름을 가진 2 차원 배열로 볼 수 있습니다.
DataFrame 에는 index 속성과 columns 속성의 두 가지 일반 속성이 있습니다. 전자는 색인 태그 (선 태그) 를 얻을 수 있습니다. 후자는 열 레이블을 저장하는 인덱스 객체입니다. DataFrame 은 한 열이 일련의 데이터를 매핑하는 특수 사전입니다.
DataFrame 은 (1) 단일 Series 객체에서 만들 수 있습니다. (2) 사전 리스트에서 작성. (3) 패밀리 객체 사전으로 작성. (4) NumPy 를 사용하여 2 차원 배열을 만듭니다. (5) NumPy 구조화 된 배열로 생성됩니다.
Index 는 불변의 배열이나 정렬된 모음으로 간주할 수 있습니다. 불변 배열로 사용될 때 일반 배열 액세스 방법 (예: 슬라이스 등) 입니다. ) 는 인덱스에 적용되며 배열과 가장 큰 차이점은 인덱스 객체를 변경할 수 없다는 것입니다. Index 는 컬렉션으로 사용될 때 교차 및 합집합과 같은 일반적인 작업도 수행할 수 있습니다.
시퀀스에 대한 액세스는 사전 또는 1 차원 배열로 사용할 수 있습니다. 데이터 액세스 방법은 Numpy 의 액세스 방법을 참조하십시오. 여기서는 군더더기가 없습니다.
Series 의 명시적 색인이 정수이면 쉽게 액세스할 수 있습니다. 예를 들어, 다음 예는 :
위의 예에서 python 의 기본 규칙은 단일 액세스에서 명시적 인덱스를 사용하고 슬라이스에서 암시적 인덱스를 사용하는 것으로 혼동하기 쉽습니다! 파이썬은 loc, iloc, IX 의 세 가지 인덱서를 제공합니다.
Loc 는 값과 슬라이스가 분명하다는 것을 의미합니다. Iloc 속성은 추출 및 슬라이스가 모두 암시적 인덱스임을 나타냅니다. Ix 는 loc 와 iloc 가 혼합되어 dataFrame 에 적용됩니다 (사용 예는 섹션 3.3 참조).
Dataframe 은 열 이름의 사전 스타일 값을 가져와서 데이터를 얻을 수 있습니다. DataFrame 을 향상된 2 차원 배열로 간주하고 values 속성을 사용하여 배열 데이터를 행별로 볼 수 있습니다. Ix 인덱서의 정수 인덱스 처리는 이전에 Series 객체에 도입한 것처럼 혼란스럽다.
함수 및 삼각 함수와 같은 단항 연산의 경우 이러한 일반 함수는 출력에 인덱스 및 열 레이블을 유지합니다. 간단합니다. 모든 요소가 그에 따라 연산되고 반환됩니다. 덧셈 및 곱셈과 같은 이진 연산의 경우 판다는 일반 함수를 전달할 때 계산을 위해 인덱스를 자동으로 정렬합니다.
두 시퀀스 또는 데이터 프레임 객체에 대해 이진 계산을 수행할 때 Pandas 는 계산 중에 두 객체의 인덱스를 정렬합니다. 누락된 값에 대한 기본값을 지정하려면+대신 add 를 사용하고 fill_value 를 지정해야 합니다.
두 객체의 행 및 열 색인은 서로 다른 순서를 가질 수 있으며 결과 색인은 자동으로 순서대로 정렬됩니다.
DataFrame 및 Series 에 대한 조작 규칙은 NumPy 의 2 차원 및 1 차원 배열과 동일합니다. 브로드캐스트 원리를 사용해야 하는 경우 기본적으로 행별로 계산됩니다. 열별로 조작하려면 axis = 0 매개변수를 사용해야 합니다.
주: DataFrame 은 loc 를 사용하여 행에 액세스할 수 있지만 df['col'] 형식으로만 열에 액세스할 수 있습니다.
누락된 값에는 null, NaN 또는 NA 의 세 가지 형식이 있습니다.
누락된 값을 처리하는 방법에는 일반적으로 두 가지가 있습니다. 하나는 전 세계를 덮는 마스크로 누락된 값을 나타내고, 다른 하나는 보초병 값으로 누락된 값을 나타내는 것입니다.
Mask 는 원본과 같은 크기의 행렬을 사용하며, 0 또는 1 으로 누락된 요소를 나타냅니다. NaN 과 같은 특수 문자를 사용하면 레이블 값이 손실됩니다.
Pandas 는 Python 의 두 가지 원시 누락 값, 즉 부동 소수점 데이터 유형의 NaN 값 (integer 포함) 과 Python 의 None 객체를 포함하여 tag 메서드를 사용하여 누락된 값을 나타내도록 선택합니다.
없음을 사용하면 빈 파이썬 오브젝트를 의미하므로 numpy 의 dtype=object 는 오브젝트이기 때문에 질량 계산에서 스칼라보다 효율이 떨어집니다. 스칼라를 np.nan 으로 표현하면 효율성이 훨씬 높아진다.
Pandas 는 누락된 값에 대해 isnull (), notnull (), dropna () 및 fillna () 와 같은 몇 가지 유용한 API 메서드를 제공합니다. 여기서 dataframe 의 경우 dropna () 메서드는 기본적으로 NaN 이 포함된 전체 행을 삭제합니다. 전체 열을 제거하려면 axis= 1 매개변수를 추가합니다.
Pandas 의 MultiIndex 는 튜플 표현에 기반한 다중 레벨 인덱싱 기능을 제공합니다.
다음 예에서는 튜플 인덱스를 사용하여 시퀀스를 생성합니다. 20/KLOC 필터링-0/9 의 색인은 매우 번거롭습니다.
Pandas 의 MultiIndex 유형은 다양한 구현 방법을 제공합니다. 다음 예제에서는 튜플을 사용하여 구현을 나타냅니다.
Unstack () 메서드는 다중 레벨 인덱스 시퀀스를 일반 인덱스의 데이터 프레임으로 빠르게 변환합니다. Stack () 메서드는 반대 효과를 얻었습니다.
요약하면, 다단계 색인을 만드는 방법은 다음과 같습니다.
(1) multiindex: pd.multiindex.from _ arrays 는 여러 가지 다른 레벨의 간단한 배열 목록으로 구성됩니다.
(2) 여러 인덱스 값을 가진 튜플 목록으로 구성된 multiindex: pd.multiindex.from _ tuples 를 생성합니다 .....
(3) 두 인덱스의 데카르트 곱을 사용하여 multiindex: pd.multiindex.from _ product 를 만듭니다.
(4) 레벨과 레이블을 직접 제공하여 multiindex 를 만듭니다. labeles 는 각 레벨이 각 위치를 지정하는 정수입니다.
위 예에서 Series 와 DataFrame 은 모두 행별로 색인화됩니다. 사실 열별로 색인화할 수도 있습니다. 매우 간단합니다. 예를 들면 다음과 같습니다 (20 18 과 20 19 두 번의 시험에서 여러 학생의 서로 다른 과목 성적이 있음).
다중 레벨 인덱스를 표시하고 슬라이스해야 하는 경우 PD. IndexSlice 객체를 사용하여 DF _ SD _ 003 과 같이 쉼표로 구분된 여러 레벨의 차원을 슬라이스할 수 있습니다. 다음 예에서 Loc [IDX _ SD [20 18,:], IDX _ SD ['앨리스',:]. 다른 슬라이스 및 가져오기 작업은 Numpy 와 매우 유사합니다.
MultiIndex 가 순서가 지정된 인덱스가 아니면 대부분의 슬라이스 작업이 실패합니다.
Series 또는 DataFrame 의 인덱스가 무질서한 경우 sort_index 메소드를 통해 간단히 빠르게 정렬할 수 있습니다.
계층 데이터 차원 변환의 또 다른 방법은 행 및 열 레이블 변환이며 reset_index 메소드를 통해 수행할 수 있습니다.
판다 오브젝트 병합은 pd.concat () 및 pd.cancat 의 모든 매개변수를 통해 수행됩니다 (이러한 매개변수의 기본값은 아래에 나열되어 있음).
Pd.concat () 는 1 차원 시퀀스나 DataFrame 객체를 간단히 결합할 수 있습니다
Np.concatenate () 는 배열을 통합합니다.
기본적으로 데이터 프레임 병합은 행별로 수행됩니다 (axis = 0). Pd.concat 는 인덱스가 중복되는 경우에도 병합 시 인덱스를 유지합니다! Verify_integrity=True 로 설정하면 중복 인덱스를 생성할 때 예외가 발생합니다! 색인이 중요하지 않은 경우도 있으며 ignore_index 매개변수를 설정하여 병합 시 무시할 수 있습니다. 기본 통합 방법은 모든 입력 열 (join='outer') 을 통합하는 것이지만 join='inner' 를 사용하여 입력 열의 교차 통합을 구현할 수도 있습니다. 다음은 통합 구현의 예입니다.
Pandas 의 기본 기능 중 하나는 고성능 메모리의 데이터 연결 및 병합 작업입니다.
Pd.merge () 에서 구현되는 기능은 관계형 대수학의 일부입니다. Pd.merge () 함수는 일대일, 다대일, 다대다 등 세 가지 유형의 데이터 연결을 구현합니다. Pd.merge () 는 데이터 프레임 * * * * * 의 두 행을 자동으로 인식하고 해당 행에 연결합니다.
위 예에서 관련된 두 dataframe 은 동일한 이름 열을 가지며 pandas 는 동일한 이름 열을 기준으로 직접 병합됩니다. 병합할 두 입력 열은 일반적으로 이름이 같지 않기 때문에 pd.merge () 는 이 문제를 처리하기 위한 매개 변수를 제공합니다.
1. 가장 쉬운 방법은 매개변수를 열 이름 문자열 또는 여러 열 이름이 포함된 목록으로 직접 설정하는 것입니다. 이 매개변수는 두 데이터 프레임의 열 이름이 * * * 인 경우에만 사용할 수 있습니다.