1. 설치
pip instasll pyarrow
2. 사용
대용량은 아니지만 마땅한 예시가 없어 KAGGLE의 home-credit-default-risk의 데이터 중 가장 큰 ‘installments_payments.csv’를 활용했다. (720MB)
from pyarrow import csv
df = csv.read_csv('installments_payments.csv').to_pandas()
3. PANDAS와 비교
pandas에서는 700mb의 csv를 불러오는데 약 7초가 걸린 반면, pyarrow에서는 약 1.5초 밖에 걸리지 않은 것을 확인할 수 있다.