-
确定压缩文件格式:首先要确定压缩文件的格式,常见的有zip、tar、tar.gz、tar.bz2等。此处以zip格式为例进行演示。
-
导入相关库:代码中需要使用到的库有pandas和zipfile。
import pandas as pd
import zipfile
- 打开压缩文件:使用zipfile库的ZipFile函数打开压缩文件,请求只读打开。
with zipfile.ZipFile('file.zip', 'r') as zip_ref:
zip_ref.extractall('extracted_folder')
- 读取压缩文件中的CSV文件:使用pandas库中的read_csv函数读取已经解压出来的CSV文件,设置参数names为该CSV文件的表头。
df = pd.read_csv('extracted_folder/file.csv', names=['col1', 'col2', 'col3'])
- 删除解压出来的文件夹:使用Python的os库中的remove和rmdir函数分别删除CSV文件和解压出来的文件夹。
os.remove('extracted_folder/file.csv')
os.rmdir('extracted_folder')
完整代码示例:
import pandas as pd
import zipfile
import os
# 1. 打开zip压缩文件并解压缩到指定文件夹
with zipfile.ZipFile('file.zip', 'r') as zip_ref:
zip_ref.extractall('extracted_folder')
# 2. 读取CSV文件内容
df = pd.read_csv('extracted_folder/file.csv', names=['col1', 'col2', 'col3'])
# 3. 删除解压出来的文件夹
os.remove('extracted_folder/file.csv')
os.rmdir('extracted_folder')
使用该代码可以读取指定压缩文件中的CSV文件,将其作为pandas DataFrame读取并进行后续数据处理。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:将压缩文件作为pandas DataFrame来读取 - Python技术站