pandas.read_csv参数详解(小结)

下面是对于“pandas.read_csv参数详解(小结)” 的详细攻略:

pandas.read_csv参数详解

基本参数

pandas.read_csv(file_path: str, delimiter: str, header: Union[int, List[int]], names: Optional[List[str]], index_col: Optional[Union[int, List[int], str, List[str]]], usecols: Optional[Union[List[int], List[str]]], dtype: Union[Type[Dict[str, Any]], Type[List[Type[Any]]], NoneType], skiprows: Optional[Union[int, List[int], Callable[[int], bool]]], skipfooter: int = 0, nrows: Optional[int], na_values: Optional[Union[List[str], List[int], Dict[str, List[str]]]], keep_default_na: bool = True, comment: Optional[str], encoding: Optional[str] = None, compression: Optional[str] = None, thousands: Optional[str] = None, decimal: Optional[str] = '.', chunksize: Optional[int] = None, dayfirst: bool = False, date_parser: Optional[Callable[[str], datetime]], infer_datetime_format: bool = False, true_values: Optional[List[Any]] = None, false_values: Optional[List[Any]] = None, quotechar: str = '"', quoting: Union[int, str] = 0, escapechar: Optional[str] = None, nrows: Optional[int] = None)

  • file_path: 文件路径或URL,必需参数。
  • delimiter: 分隔符,常用的有','、'\t'等,默认为','。
  • header: 是否将某行设为表头,可以设置行号或者行号列表,如果不需要表头则直接设置为None。
  • names: 列名列表,如果文件本身不包含列名,则需要手动设置列名,和header=0或header=None同时使用。
  • index_col: 指定索引列,可以是整数、单个列名或列名列表,也可以为空表示不使用索引列。
  • usecols: 需要读取的列的列表,可以是列号、列名或者两者混合的序列,格式如['列1', '列2', ...]或[0, 1, 2, ...]
  • dtype: 定义列的数据类型,可以是Python类型、NumPy类型或者Python字典。
  • skiprows: 需要跳过的行号列表、函数或数值。比如跳过前10行,可以设置为10;跳过第一行和第三行,可以设置为[0, 2];跳过所有值为0的行,可以设置为lambda x: x==0
  • skipfooter: 文件末尾需要跳过的行数,默认为0,常用于去除底部的注释行、空行等。
  • nrows: 读取文件的前几行,默认为读取全部行。
  • na_values: 设定数据中的若干字符表示缺失值。例如,设定na_values=['-', 'nan', 'N/A'],即当读取数据时遇到‘-’、‘nan’、‘N/A’字符时,都视为缺失值。
  • keep_default_na: 忽略默认的缺失值标记(如‘N/A’、‘NA’等),只当na_values参数中的缺失标记被匹配时才认为数据缺失。
  • comment: 注释行开始字符,即遇到该字符,该行以及之后的内容都会被忽略。
  • encoding: 指定编码格式,如utf-8、gbk等。
  • compression: 文件压缩方式,一般为gzip、bz2、xz、zip或者None。
  • thousands: 千分位分隔符,如‘,’或‘.’等。
  • decimal: 小数点分隔符,如‘.’或‘,’等。
  • chunksize: 分块大小,适用于大文件的读取,每次读取指定大小的数据量,避免内存占用过大。
  • dayfirst: 如果日期格式为 ‘ DD/MM/YYYY ’ 或 ‘ MM/DD/YYYY ’,则将其设置为True,表示日出现在月的前面。默认为False。
  • date_parser: 用于解析日期的函数,默认情况下使用pandas内置的date_parser函数。
  • infer_datetime_format: 如果为True,则在尝试解析日期时,使用更快的方法。
  • true_values: 自定义True值,如果发现文件中有其他值被用作True值,可以使用这个参数进行指定。
  • false_values: 自定义False值,如果发现文件中有其他值被用作False值,可以使用这个参数进行指定。
  • quotechar: 字段引用字符,如‘"’或‘’等。
  • quoting: 表示引号的常量,可以设置为csv.QUOTE_ALL、csv.QUOTE_MINIMAL、csv.QUOTE_NONNUMERIC或csv.QUOTE_NONE。默认为csv.QUOTE_MINIMAL。
  • escapechar: 字段中如果包含quotechar则用该字符进行逃逸

示例说明

下面是使用pandas.read_csv的两个示例:

示例1

import pandas as pd

df = pd.read_csv('data.csv', encoding='utf-8', delimiter=';')
print(df.head())

这个示例中,我们通过read_csv函数读取了一个分号分隔符的文件data.csv,同时指定了编码为utf-8。使用head方法打印了前几行的数据,结果如下:

  Name  Age  Gender
0  Bob   23    Male
1  Amy   29  Female
2  Sam   32    Male
3  Zoe   27  Female

示例2

import pandas as pd

df = pd.read_csv('data.csv', header=None, names=['name', 'age', 'gender'])
print(df.head())

这个示例中,我们通过read_csv函数读取了一个没有表头的文件data.csv,并手动设置了列名。使用head方法打印了前几行的数据,结果如下:

   name  age  gender
0   Bob   23    Male
1   Amy   29  Female
2   Sam   32    Male
3   Zoe   27  Female

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:pandas.read_csv参数详解(小结) - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • Python Lambda函数使用总结详解

    Python Lambda函数使用总结详解 什么是Lambda函数 Lambda函数又称为匿名函数,是一种无需定义名称的小型函数,它可以被当作参数传递给其他函数。Lambda函数没有正式的函数声明和定义,它们是通过关键词 lambda 来定义的,并且通常在一行代码内完成。 Lambda函数在Python中可用于简化代码,减少代码的冗余性。 Lambda函数的…

    python 2023年5月14日
    00
  • springboot整合单机缓存ehcache的实现

    下面是关于“springboot整合单机缓存ehcache的实现”的完整攻略。 1、什么是Ehcache Ehcache是一个开源的、基于Java的、容易使用的缓存管理系统。它可以用于加速应用程序的性能和管理大量数据。 Ehcache提供了多种缓存的策略,包括最近最少使用(LRU)、最少使用(LFU)、FIFO等。Ehcache旨在为Java应用程序提供高速…

    python 2023年5月14日
    00
  • Python matplotlib实用绘图技巧汇总

    Python matplotlib实用绘图技巧汇总 简介 matplotlib是Python中常用的数据可视化库,其提供了各种绘图工具,方便用户进行数据分析和呈现。本文将介绍一些实用的matplotlib绘图技巧,并提供相应的示例说明。 技巧汇总 1. 定义坐标轴范围 通过plt.xlim()和plt.ylim()可以定义横纵坐标轴的范围。 示例代码: im…

    python 2023年6月13日
    00
  • Pandas最常用的5种聚合函数

    Pandas聚合函数(Aggregation Function)是一种数据处理函数,用于对数据进行汇总、统计和分析。在数据分析中,常常需要对数据进行聚合计算,如计算平均值、总和、标准差、方差等。Pandas提供了多种聚合函数,可以方便地对数据进行统计和分析。 Pandas聚合函数可以应用于Series和DataFrame对象,可以对整个序列或数据框进行聚合,…

    Pandas 2023年3月5日
    00
  • 使用Python预测空气质量指数

    Title: 使用Python预测空气质量指数 空气质量指数(AQI)是衡量空气质量好坏的标准之一,预测空气质量指数是对环境保护的重要工作之一。Python是一种强大的编程语言,能够较方便地处理数据集,因此在预测AQI方面也有很大的应用。 数据获取 首先,我们需要获得空气质量数据集。可在国家环境保护部门网站上获取,也可通过第三方数据提供商获得。这里我们以UC…

    python-answer 2023年3月27日
    00
  • 如何在 Python 中使用 rbind

    在 Python 中使用 rbind 函数可以实现两个 DataFrame 按行合并。下面是详细的实现过程。 1. 导入 pandas 模块 在使用 pandas 进行数据操作时,我们需要导入 pandas 模块。可以使用以下代码导入: import pandas as pd 2. 创建两个 DataFrame 首先,我们需要创建两个 DataFrame。例…

    python-answer 2023年3月27日
    00
  • 在Pandas中突出显示每一列的最大值

    首先,在Pandas中,要突出显示每一列的最大值,可以使用style.highlight_max()方法。该方法将每列的最大值突出显示,使其易于查看和分析。 下面是详细步骤: 1.导入Pandas模块 import pandas as pd 2.创建数据 data = {‘name’: [‘Tom’, ‘Jerry’, ‘Mickey’, ‘Minnie’]…

    python-answer 2023年3月27日
    00
  • pandas 数据实现行间计算的方法

    “pandas数据实现行间计算的方法”指的是如何使用pandas进行数据计算,其中涉及到行与行之间的计算。以下是详细的攻略: 1. 加载数据 首先,我们需要使用pandas的读取数据函数,将数据加载到我们的代码中。在此我将以csv文件为例进行说明,具体代码如下: import pandas as pd # 读取csv文件 df = pd.read_csv(&…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部