Python

[Python] Pandas 기초 공부 - Series

Jeong Jeon
반응형

머신러닝을 공부하기 전 필요한 Pandas를 공부해보려고 한다... 할게 많구나 !

하지만 새로운건 항상 흥미롭다

 

 

Pandas란?

  • Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다.
  • Pandas의 두 가지 주요 데이터 구조인 Series (1차원) 및 DataFrame (2차원)은 재무, 통계, 사회 과학 및 다양한 엔지니어링 분야에 사용된다.

적합한 데이터

  • SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터
  • 정렬되고 정렬되지 않은 시계열 데이터
  • 행 및 열 레이블이 포함 된 임의의 행렬 데이터
  • 다른 형태의 관찰 / 통계 데이터 세트

 

코드로 이해해보자

나는 Jupyter notebook 을 사용하여 공부하는중이다

 

1). 배열과 Dictionary 형태로 Series를 만들어보자

 

2). index와 name을 지정하여 Series를 만들어보자

3). Series 값 조회

주요 메서드

 

  • Series.values
    • 해당 시리즈 객체의 값들만 반환한다
  • Series.index
    • 해당 시리즈의 색인(index)만 반환한다
  • Series[ index  ]
    • 배열에서 값을 선택하거나 대입할 때는 색인을 이용한다. 
  • Series[ conditions ]
    • conditions에는 논리연산이 올 수 있다. a라는 Series가 있다고 했을 때, a[ a>0 ]은 a라는 Series에서 값이 0 이상인 것만 반환하라는 의미이다.  conditions는 파이썬에서 사용하는 conditions는 모두 올 수 있다.

 

Dictionary to Series

파이썬 사전 객체를 Series 객체로 생성할 수도 있음

{'색인' : 값, '색인': 값, .... }

 

Series.isnull()

pd.isnull(object)

pd.notnull(object)

누락된 데이터가 있는지 없는지 확인할 때 사용함. Series에서는 메소드로 기능 제공

 

 

반응형