【pandas基础】–数据读取

数据读取是第一步,只有成功加载数据之后,后续的操作才有可能。

pandas可以读取和导入各种数据格式的数据,如CSV,Excel,JSON,SQL,HTML等,不需要手动编写复杂的读取代码。

1. 各类数据源

pandas提供了导入各类常用文件格式数据的接口,这里介绍3种最常用的加载数据的接口。

1.1 从 CSV 文件读取数据

读取csv文件的接口:read_csv()

import pandas as pd

# 此csv中包含一些中国人口的统计信息
df = pd.read_csv("/path/to/china-population.csv")

df.head() # 显示前5条数据

image.png

1.2 从 excel 文件读取数据

读取excel文件的接口:read_excel ()
读取excel文件时,默认读取第一个sheet中的数据。

import pandas as pd

# 此excel中的数据与上面csv文件中的一样
df = pd.read_excel("/path/to/china-population.xlsx")

df.head() # 显示前5条数据

image.png

1.3 从网络中读取数据

除了从本地文件中读取数据之外,read_csvread_excel也可以直接从URL读取数据。
比如,上面的csv文件和excel文件可以从下面的地址下载。
http://databook.top:8888/pandas/china-population.csv
http://databook.top:8888/pandas/china-population.xlsx

可以直接将URL传给 read_csvread_excel,不用下载保存本地。

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population.csv")
df_excel = pd.read_excel("http://databook.top:8888/pandas/china-population.xlsx")

2. 不同分隔符

csv 文件中默认用逗号,分隔不同的字段,不过,也有很多csv文件不用逗号分隔,用其他生僻的符号来分隔。

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv")
df.head()

image.png
文件china-population-sep.csv|来分隔不同的字段,直接读取的话,变成只有一个字段。

这时,要明确设置分隔符。

import pandas as pd

df = pd.read_csv("http://databook.top:8888/pandas/china-population-sep.csv", sep="|")
df.head()

image.png
这样就得到了正确的数据结构。

3. 设置列名称

除了可以设置分隔符之外,读取数据时,也可以设置列的名称。
上面的例子中,列的名称都是字母的缩写,读取文件时可以替换成中文名称。

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份数字", "年份", "指标编码", "指标名称", "人口数"],
)
df.head()

image.png

通过names参数设置列的名称,names参数是个列表,其中元素的个数一般与列的数目保持一致。
如果names中元素个数少于列的数目,那么多出来的列会作为索引(关于索引index,后续会详细介绍)。

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["指标编码", "指标名称", "人口数"],
)
df.head()

image.png

如果 names中元素个数多于列的数目,多出来的元素作为新增的空白列。

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    names=["年份数字", "年份", "指标编码", "指标名称", "人口数", "列名称", "列名称2"],
)
df.head()

image.png

上面的例子中,我们应该发现了一个问题,设置 names作为新的列名称之后,原有的列名称被当成了实际的数据。
也就是:
image.png

设置新的列名称时,如果数据中包含列名称的话,需要忽略掉这个名称。
设置 header=0,忽略作为标题的第一行。
如果文件本来就没有标题的话,设置 header=None

import pandas as pd

df = pd.read_csv(
    "http://databook.top:8888/pandas/china-population-sep.csv",
    sep="|",
    header=0,
    names=["年份数字", "年份", "指标编码", "指标名称", "人口数"],
)
df.head()

image.png

4. 随机生成数据

pandas支持从很多数据源读取数据,不过,有时候我们只想尝试尝试 pandas中的一些方法,并不想创建数据源。

这时,可以通过 numpy包创建一个随机的二维矩阵,直接将这个二维矩阵的数据导入 pandas即可。
下面的例子创建了一个10行3列的数据集。

import pandas as pd
import numpy as np

data = np.random.rand(10,3)
df = pd.DataFrame(data, columns=["data1", "data2", "data3"])
df.head()

image.png

通过临时创建的随机数据,可以尝试 pandas提供的各类接口。

5. 总结回顾

本篇了主要介绍了数据的读取方法,重点介绍的是 csv 文件的读取方式,因为这是最常用的数据源。
其他数据源的读取方式也大同小异,各种数据源的差异会体现在不同接口的参数上。

本文所用到的数据:

  1. http://databook.top:8888/pandas/china-population.csv
  2. http://databook.top:8888/pandas/china-population-sep.csv
  3. http://databook.top:8888/pandas/china-population.xlsx

本文关联的微信视频号短视频:
pandas01-数据读取.png

原文链接:https://www.cnblogs.com/wang_yb/p/17371731.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:【pandas基础】–数据读取 - Python技术站

(0)
上一篇 2023年5月4日
下一篇 2023年5月4日

相关文章

  • python打开url并按指定块读取网页内容的方法

    要使用Python打开URL并读取网页内容,我们可以使用内置的urllib库。具体步骤如下: 引入urllib库 import urllib.request 使用urllib库中的urlopen函数打开URL url = "http://www.example.com" response = urllib.request.urlopen(…

    python 2023年6月3日
    00
  • Python实现将JSON格式文件导入redis

    下面是“Python实现将JSON格式文件导入redis”的完整攻略,具体步骤如下: 1.安装 Redis 和 Python Redis Redis 是一款高性能的 NoSQL 数据库,可以存储键值对。安装 Redis 的方法可以参考 Redis 的官方文档或者其他博客文章。Python Redis 是 Redis 的 Python 客户端库,需要使用 pi…

    python 2023年6月3日
    00
  • Python实战小程序利用matplotlib模块画图代码分享

    下面是关于“Python实战小程序利用matplotlib模块画图代码分享”的完整攻略。 1. 安装matplotlib模块 在开始使用matplotlib模块绘图前,我们需要先安装matplotlib模块。可以在终端执行以下命令进行安装: pip install matplotlib 2. 导入matplotlib模块 安装完matplotlib模块后,在…

    python 2023年5月19日
    00
  • 详解使用PIL寻找图像之间的差异

    下面是关于使用PIL寻找图像之间的差异的完整攻略: 什么是PIL PIL(Python Imaging Library)是一个针对Python编程语言的图像处理库,它支持打开、编辑各种图片格式,处理图片的功能非常强大。我们可以使用PIL中的一些方法来寻找图像之间的差异。 安装和导入PIL 要使用PIL,首先需要安装它: pip install pillow …

    python-answer 2023年3月25日
    00
  • python 简单的调用有道翻译

    下面是详细讲解“python 简单的调用有道翻译”的完整攻略。 前置条件 在开始之前,需要安装requests和json两个库,可以使用pip进行安装,具体命令如下: pip install requests json 并且需要在有道智云平台上申请翻译API的密钥,用于调用接口。 接口说明 有道翻译API的接口文档可以从有道智云官网获取:https://ai…

    python 2023年6月5日
    00
  • python 提取文件的小程序

    下面是详细讲解“Python 提取文件的小程序”的完整攻略。 1. 确定文件路径 首先需要确定要提取的文件在哪个地方。可以使用 Python 的 os 模块中的 getcwd() 函数获取当前工作目录,然后再通过 os.path.join() 拼接出完整的文件路径。 示例代码: import os file_name = "example.txt&…

    python 2023年5月18日
    00
  • python 删除系统中的文件(按时间,大小,扩展名)

    Python 删除系统中的文件攻略 在Python中,删除系统中文件是一个比较常见的操作。我们可以根据不同的需求,按时间、大小、扩展名等条件来删除文件。以下是具体步骤: 按时间删除文件 可以使用os和time模块来实现按时间删除文件。首先导入所需要的模块: import os import time 然后,可以使用os.path.getmtime()函数获取…

    python 2023年6月2日
    00
  • 如何将图像转换为NumPy数组

    将图像转换为NumPy数组是图像处理和计算机视觉领域中常见的操作之一。下面我将为你提供完整的攻略来实现这一过程。 准备工作 在开始之前,您需要确保已经安装了Python和以下的Python包: NumPy OpenCV(可选) 如果您还没有安装这些软件包,可以通过以下方式来安装它们: pip install numpy pip install opencv-…

    python-answer 2023年3月25日
    00
合作推广
合作推广
分享本页
返回顶部