반응형
머신러닝을 공부하기 전 필요한 Pandas를 공부해보려고 한다... 할게 많구나 !
하지만 새로운건 항상 흥미롭다
Pandas란?
- Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다.
- Pandas의 두 가지 주요 데이터 구조인 Series (1차원) 및 DataFrame (2차원)은 재무, 통계, 사회 과학 및 다양한 엔지니어링 분야에 사용된다.
적합한 데이터
- SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 행 및 열 레이블이 포함 된 임의의 행렬 데이터
- 다른 형태의 관찰 / 통계 데이터 세트
코드로 이해해보자
나는 Jupyter notebook 을 사용하여 공부하는중이다
1). 배열과 Dictionary 형태로 Series를 만들어보자
2). index와 name을 지정하여 Series를 만들어보자
3). Series 값 조회
주요 메서드
- Series.values
- 해당 시리즈 객체의 값들만 반환한다
- Series.index
- 해당 시리즈의 색인(index)만 반환한다
- Series[ index ]
- 배열에서 값을 선택하거나 대입할 때는 색인을 이용한다.
- Series[ conditions ]
- conditions에는 논리연산이 올 수 있다. a라는 Series가 있다고 했을 때, a[ a>0 ]은 a라는 Series에서 값이 0 이상인 것만 반환하라는 의미이다. conditions는 파이썬에서 사용하는 conditions는 모두 올 수 있다.
Dictionary to Series
파이썬 사전 객체를 Series 객체로 생성할 수도 있음
{'색인' : 값, '색인': 값, .... }
Series.isnull()
pd.isnull(object)
pd.notnull(object)
누락된 데이터가 있는지 없는지 확인할 때 사용함. Series에서는 메소드로 기능 제공
반응형
'Python' 카테고리의 다른 글
[Python 오류] [ Error ]Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd. (0) | 2021.01.13 |
---|---|
[Python] Pandas 기초공부 -DataFrame (0) | 2021.01.13 |
[Python] Class란? 개념잡기 (0) | 2021.01.04 |
[Python] Self 및 Class개념 잡기 (0) | 2021.01.04 |
[Python] - JSON Parsing(파싱) (0) | 2020.12.30 |