Pandas的read_csv函数参数分析详解
Pandas的read_csv函数是常用的读取CSV文件的函数,可以读取本地文件,也可以读取网络上的文件,并将其转换成DataFrame数据。在使用这个函数的时候,我们可以设置各种参数来控制读取的结果,本文将详细讲解这些参数的功能。
常用参数介绍
- filepath_or_buffer:指定要读取的文件路径或URL。
- sep/delimiter:指定数据的分隔符,默认为逗号,也可以指定其他分隔符,如制表符“\t”。
- header:指定数据文件中的第几行作为列名,默认为0,表示第一行是列名,若数据文件没有列名,可以设置为None。也可使用header=None,表示数据文件中没有列名。
- index_col:指定数据文件中哪些列作为索引,默认为None。
- usecols:指定需要读取哪些列,默认为全部读取。
- dtype:指定每列数据的类型。
- skiprows:指定跳过数据文件中的前几行。
- nrows:指定读取数据文件的前几行。
- skip_blank_lines:指定是否跳过空白行,默认为True。
示例说明
示例一:读取本地CSV文件并指定列名
import pandas as pd
df = pd.read_csv('data.csv', header=None, names=['姓名','年龄','性别'])
这里示例代码中使用了read_csv函数,同时指定了filepath_or_buffer参数为'data.csv',header参数为None,names参数为['姓名','年龄','性别'],结果是将data.csv文件中第一行作为数据,第二行开始为真正数据,并将columns分别为姓名、年龄和性别。
示例二:读取网上的CSV文件并指定特定列和条件
import pandas as pd
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
df = pd.read_csv(url, usecols=['total_bill', 'tip'], nrows=10)
df = df[df.total_bill > 20]
这里示例代码中将filepath_or_buffer设置为一个URL,usecols参数为['total_bill', 'tip'],表示仅需要读取total_bill和tip两列数据,同时设置nrows为10,表示只需要读取前10行;最后根据条件df.total_bill > 20筛选出了total_bill大于20的行。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas的read_csv函数参数分析详解 - Python技术站