Pandas读取文件数据常用的5种方法

当使用 Pandas 做数据分析的时，需要读取事先准备好的数据集，这是做数据分析的第一步。

Panda 提供了很多读取数据的方法：

pd.read_csv()：读取CSV文件
pd.read_excel()：读取Excel文件
pd.read_sql()：读取SQL数据库中的数据
pd.read_json()：读取JSON文件
pd.read_html()：读取HTML文件中的表格数据
pd.read_clipboard()：读取剪贴板中的数据
pd.read_pickle()：读取pickle格式的数据
pd.read_feather()：读取feather格式的数据
pd.read_parquet()：读取parquet格式的数据
pd.read_msgpack()：读取msgpack格式的数据

本节将详细讲解Pandas读取文件最常用的5种方法。

读取CSV文件数据

假设我们有一个名为data.csv的CSV文件，我们可以使用pd.read_csv()方法来读取它：

import pandas as pd

data = pd.read_csv('data.csv')
print(data.head())

读取Excel文件数据

假设我们有一个名为data.xlsx的Excel文件，我们可以使用pd.read_excel()方法来读取它：

import pandas as pd

data = pd.read_excel('data.xlsx')
print(data.head())

读取SQL数据库中的数据

假设我们已经连接到了一个名为mydb的SQL数据库，其中有一个名为mytable的表，我们可以使用pd.read_sql()方法来读取它：

import pandas as pd
import mysql.connector

mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

data = pd.read_sql("SELECT * FROM mytable", mydb)
print(data.head())

这里我们使用了MySQL Connector/Python库来连接数据库。读取SQL数据库中的数据需要传入查询语句和连接对象两个参数。

读取html文件数据

下面是一个简单的例子，演示如何使用read_html()方法从一个HTML文档中读取表格数据：

import pandas as pd

# 读取HTML文档中的表格数据
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)

# 打印读取到的所有表格
for i, table in enumerate(tables):
    print(f'Table {i+1}:')
    print(table)

这个例子会输出一个包含多个表格的列表，每个表格都是一个Pandas的DataFrame对象。通过循环遍历这个列表，就可以将所有表格的内容输出到控制台上。

运行结果为：

Table 1:
                        Company           Contact  Country
0           Alfreds Futterkiste      Maria Anders  Germany
1    Centro comercial Moctezuma   Francisco Chang   Mexico
2                  Ernst Handel     Roland Mendel  Austria
3                Island Trading     Helen Bennett       UK
4  Laughing Bacchus Winecellars   Yoshi Tannamuri   Canada
5  Magazzini Alimentari Riuniti  Giovanni Rovelli    Italy
Table 2:
          Tag                                        Description
0     <table>                                    Defines a table
1        <th>                   Defines a header cell in a table
2        <tr>                           Defines a row in a table
3        <td>                          Defines a cell in a table
4   <caption>                            Defines a table caption
5  <colgroup>  Specifies a group of one or more columns in a ...
6       <col>  Specifies column properties for each column wi...
7     <thead>               Groups the header content in a table
8     <tbody>                 Groups the body content in a table
9     <tfoot>               Groups the footer content in a table

读取json文件数据

可以使用read_json()方法读取json文件。

假设有如下example.json文件，数据为：

[
    {
        "name": "Alice",
        "age": 25,
        "city": "New York"
    },
    {
        "name": "Bob",
        "age": 30,
        "city": "Los Angeles"
    },
    {
        "name": "Charlie",
        "age": 35,
        "city": "San Francisco"
    }
]

可以使用read_json()方法将其读取为Pandas DataFrame：

import pandas as pd

df = pd.read_json('example.json')

print(df)

输出结果为：

       name  age           city
0     Alice   25       New York
1       Bob   30    Los Angeles
2   Charlie   35  San Francisco

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Pandas读取文件数据常用的5种方法 - Python技术站