当你需要从文件、URL、文件对象中读入带分隔符的数据。 Pandas提供了read_table()函数,可以轻松地读取多种格式的数据文件,例如csv、tsv等。
read_table()有多个参数,下面一一解析:
- filepath_or_buffer: 文件路径或URL,可以是本地文件,URL或任何有read()函数的文件型对象
- sep :用于指定列之间的分隔符,默认是'\t' 。
- header :指定行号用作列名。 如果没有列名,则将header设置为None。默认为0,即将第一行作为列名。
- names :用于结果的列名列表
- index_col: 用作索引的列编号或列名。 如果给定一个序列或列表,则用于多重索引。
- dtype: 每列的数据类型,默认的数据类型是推断的。这个参数可以是字典、Numpy dtype、Pandas类型或Python类型。
- skiprows: 跳过的行数(从零开始)。默认情况下不跳过行。
- na_values: 指定缺失值的序列,例如na_values = ['NaN','?'] 。
- comment: 指定注释字符。
- parse_dates: 需要解析的日期行或列。如果是数字则表示第几列,如果是字符串则表示列名。如果设置为True,则尝试解析所有可能表示日期的列。
- keep_date_col:如果连接日期,则保留连接的原始列。默认为False。
- converters : dict, default None, 转换器字典,以列名为键,允许将列映射为其他处理函数,例如{'foo':f}将列'foo'替换为f(列)。
- dayfirst : When parsing potentially ambiguous dates, treat as dd/mm versus mm/dd.默认为false。
- chunksize: 一次返回的行数。
下面是一个例子:
import pandas as pd
# Read table from csv file
df = pd.read_table('data.csv', sep=',')
# Display first 5 rows of data
print(df.head())
这会从' data.csv '文件中读取逗号分隔的数据,然后使用默认分隔符‘,’去读取数据。最后使用head()命令输出前5行数据。
上面这个例子只是对read_table()函数的简单介绍,使用Pandas读取数据的常用函数还有read_csv,read_excel等等,读者可以自己尝试使用不同的函数来读取数据。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas read_table()函数 - Python技术站