Pandas读取文件数据常用的5种方法

当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。

Panda 提供了很多读取数据的方法:

  • pd.read_csv():读取CSV文件
  • pd.read_excel():读取Excel文件
  • pd.read_sql():读取SQL数据库中的数据
  • pd.read_json():读取JSON文件
  • pd.read_html():读取HTML文件中的表格数据
  • pd.read_clipboard():读取剪贴板中的数据
  • pd.read_pickle():读取pickle格式的数据
  • pd.read_feather():读取feather格式的数据
  • pd.read_parquet():读取parquet格式的数据
  • pd.read_msgpack():读取msgpack格式的数据

本节将详细讲解Pandas读取文件最常用的5种方法。

读取CSV文件数据

假设我们有一个名为data.csv的CSV文件,我们可以使用pd.read_csv()方法来读取它:

import pandas as pd

data = pd.read_csv('data.csv')
print(data.head())

读取Excel文件数据

假设我们有一个名为data.xlsx的Excel文件,我们可以使用pd.read_excel()方法来读取它:

import pandas as pd

data = pd.read_excel('data.xlsx')
print(data.head())

读取SQL数据库中的数据

假设我们已经连接到了一个名为mydb的SQL数据库,其中有一个名为mytable的表,我们可以使用pd.read_sql()方法来读取它:

import pandas as pd
import mysql.connector

mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

data = pd.read_sql("SELECT * FROM mytable", mydb)
print(data.head())

这里我们使用了MySQL Connector/Python库来连接数据库。读取SQL数据库中的数据需要传入查询语句和连接对象两个参数。

读取html文件数据

下面是一个简单的例子,演示如何使用read_html()方法从一个HTML文档中读取表格数据:

import pandas as pd

# 读取HTML文档中的表格数据
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)

# 打印读取到的所有表格
for i, table in enumerate(tables):
    print(f'Table {i+1}:')
    print(table)

这个例子会输出一个包含多个表格的列表,每个表格都是一个Pandas的DataFrame对象。通过循环遍历这个列表,就可以将所有表格的内容输出到控制台上。

运行结果为:

Table 1:
                        Company           Contact  Country
0           Alfreds Futterkiste      Maria Anders  Germany
1    Centro comercial Moctezuma   Francisco Chang   Mexico
2                  Ernst Handel     Roland Mendel  Austria
3                Island Trading     Helen Bennett       UK
4  Laughing Bacchus Winecellars   Yoshi Tannamuri   Canada
5  Magazzini Alimentari Riuniti  Giovanni Rovelli    Italy
Table 2:
          Tag                                        Description
0     <table>                                    Defines a table
1        <th>                   Defines a header cell in a table
2        <tr>                           Defines a row in a table
3        <td>                          Defines a cell in a table
4   <caption>                            Defines a table caption
5  <colgroup>  Specifies a group of one or more columns in a ...
6       <col>  Specifies column properties for each column wi...
7     <thead>               Groups the header content in a table
8     <tbody>                 Groups the body content in a table
9     <tfoot>               Groups the footer content in a table

读取json文件数据

可以使用read_json()方法读取json文件。

假设有如下example.json文件,数据为:

[
    {
        "name": "Alice",
        "age": 25,
        "city": "New York"
    },
    {
        "name": "Bob",
        "age": 30,
        "city": "Los Angeles"
    },
    {
        "name": "Charlie",
        "age": 35,
        "city": "San Francisco"
    }
]

可以使用read_json()方法将其读取为Pandas DataFrame:

import pandas as pd

df = pd.read_json('example.json')

print(df)

输出结果为:

       name  age           city
0     Alice   25       New York
1       Bob   30    Los Angeles
2   Charlie   35  San Francisco

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas读取文件数据常用的5种方法 - Python技术站

(1)
上一篇 2023年3月6日 下午9:25
下一篇 2023年3月6日

相关文章

  • Python pandas 的索引方式 data.loc[],data[][]示例详解

    Python pandas 的索引方式 data.loc[],data[][]示例详解 背景 在使用Python pandas的过程中,我们常常需要对数据进行索引、筛选、修改等操作。其中,使用data.loc[]和data[][]进行索引操作是比较常见和灵活的方式。接下来,我们将详细讲解这两种索引方式的使用方法和示例。 data.loc[]的使用 data.…

    python 2023年5月14日
    00
  • 关于pyqt5弹出提示框的详细介绍

    关于pyqt5弹出提示框的详细介绍,可以分为以下几步: 1. 安装pyqt5库 要使用pyqt5弹出提示框,首先需要安装pyqt5库。可以通过pip命令在命令行中进行安装: pip install pyqt5 2. 导入必要的库 完成安装后,在代码中导入必要的库: from PyQt5.QtWidgets import QMessageBox, QAppli…

    python 2023年5月14日
    00
  • Python与Pandas和XlsxWriter组合工作 – 3

    第三部分:使用XlsxWriter创建Excel工作簿并写入数据 现在我们已经掌握了如何使用Pandas读取和操作Excel文件中的数据,接下来我们将学习将数据写入Excel文件中的步骤。为此,我们将使用XlsxWriter模块来创建和写入Excel工作簿。 安装XlsxWriter模块 在开始之前,我们需要先安装XlsxWriter模块。可以使用以下命令安…

    python-answer 2023年3月27日
    00
  • 使用python3 实现插入数据到mysql

    当我们想要在Python中向MySQL数据库插入数据时,我们需要利用Python的MySQL Connector模块来实现。下面这些步骤将教你如何在Python中实现MySQL数据库的数据插入。 步骤一:安装MySQL Connector模块 在开始使用MySQL Connector模块之前,我们需要先安装它。你可以使用以下命令在终端中安装: pip3 in…

    python 2023年6月13日
    00
  • 如何在使用Pandas读取csv文件时跳过行

    在使用 Pandas 读取 CSV 文件时,我们经常需要跳过一些行,例如 CSV 文件的头部描述信息。在 Pandas 中,我们可以使用 skiprows 参数来指定需要跳过的行数。 以下是跳过 CSV 文件前两行的示例代码: import pandas as pd # 读取 CSV 文件,跳过前两行 df = pd.read_csv(‘example.cs…

    python-answer 2023年3月27日
    00
  • python pandas 对series和dataframe的重置索引reindex方法

    下面是针对”python pandas对Series和DataFrame的重置索引reindex方法”的详细讲解攻略: 1. 什么是重置索引 重置索引是指重新生成一组新的索引数组并应用于数组的数据,其目的是将索引重新排序以保证数据标签的唯一性和有序性。在pandas中,可以通过reindex方法实现对Series和DataFrame索引的重置。 2. 重置S…

    python 2023年5月14日
    00
  • pandas实现按行选择的示例代码

    以下是pandas实现按行选择的详细攻略: 1. 数据准备 在学习pandas之前,需要准备一些数据。这里我们以一个名为students.csv的csv文件为例,其中包含学生的姓名、年龄和成绩三列数据。可以使用以下代码读取csv文件并将其转化为pandas的DataFrame类型: import pandas as pd df = pd.read_csv(‘…

    python 2023年5月14日
    00
  • 如何在Pandas中查找两行之间的差异

    在Pandas中查找两行之间的差异通常可以用 diff() 方法来实现。 加载数据 首先,在 Pandas 中加载需要对比的数据。例如,我们加载以下数据: import pandas as pd data = { ‘name’: [‘Tom’, ‘Jerry’, ‘Mary’, ‘Rose’, ‘John’], ‘age’: [28, 23, 25, 27,…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部