데이터를 쉽게 접근할 수 있도록 csv로 저장해서 사용한다. 하지만 csv는 메타데이터를 저장할 수 없어 칼럼 별로 dtype을 다시 지정해줘야 하는 일이 생기며, 읽고 쓸 때 시간이 많이 걸린다는 단점이 있다.
이를 보완하기 위해 pickel, parquet, hdf5 와 같은 다양한 데이터 포맷을 사용하는데 그중 parquet에 대해서 알아보고자 한다.
1. pandas 에서 간단한 parquet 사용하기
# !pip install fastparquet
# save
import pandas as pd
df = pd.DataFrame()
df.to_parquet('sample.parquet', compression='gzip')
# read
df = pd.read_parquet('sample.parquet')
print(df)
parquet 장점
- 파입 압축과 쓰기, 읽기에 탁월하다.
- 분산처리에 적합하다
parquet 단점
- 데이터에 2차원 배열을 쓸 수 없다. (리스트만 가능)
- 다차원 배열을 쓰고 싶다면 hdf5가 적합하다
728x90
'Python' 카테고리의 다른 글
파이썬 모델 저장 방법 (0) | 2022.05.31 |
---|---|
가상환경 만들고 vsc 실행 하는 법 (0) | 2022.05.26 |
yfinance 모듈 사용해보기 (0) | 2022.03.21 |
파이썬 -matplotlib 연습 (0) | 2022.03.18 |
파이썬- 클래스 (0) | 2022.03.07 |