当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。
Panda 提供了很多读取数据的方法:
- pd.read_csv():读取CSV文件
- pd.read_excel():读取Excel文件
- pd.read_sql():读取SQL数据库中的数据
- pd.read_json():读取JSON文件
- pd.read_html():读取HTML文件中的表格数据
- pd.read_clipboard():读取剪贴板中的数据
- pd.read_pickle():读取pickle格式的数据
- pd.read_feather():读取feather格式的数据
- pd.read_parquet():读取parquet格式的数据
- pd.read_msgpack():读取msgpack格式的数据
本节将详细讲解Pandas读取文件最常用的5种方法。
读取CSV文件数据
假设我们有一个名为data.csv的CSV文件,我们可以使用pd.read_csv()方法来读取它:
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
读取Excel文件数据
假设我们有一个名为data.xlsx的Excel文件,我们可以使用pd.read_excel()方法来读取它:
import pandas as pd
data = pd.read_excel('data.xlsx')
print(data.head())
读取SQL数据库中的数据
假设我们已经连接到了一个名为mydb的SQL数据库,其中有一个名为mytable的表,我们可以使用pd.read_sql()方法来读取它:
import pandas as pd
import mysql.connector
mydb = mysql.connector.connect(
host="localhost",
user="yourusername",
password="yourpassword",
database="mydatabase"
)
data = pd.read_sql("SELECT * FROM mytable", mydb)
print(data.head())
这里我们使用了MySQL Connector/Python库来连接数据库。读取SQL数据库中的数据需要传入查询语句和连接对象两个参数。
读取html文件数据
下面是一个简单的例子,演示如何使用read_html()方法从一个HTML文档中读取表格数据:
import pandas as pd
# 读取HTML文档中的表格数据
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)
# 打印读取到的所有表格
for i, table in enumerate(tables):
print(f'Table {i+1}:')
print(table)
这个例子会输出一个包含多个表格的列表,每个表格都是一个Pandas的DataFrame对象。通过循环遍历这个列表,就可以将所有表格的内容输出到控制台上。
运行结果为:
Table 1:
Company Contact Country
0 Alfreds Futterkiste Maria Anders Germany
1 Centro comercial Moctezuma Francisco Chang Mexico
2 Ernst Handel Roland Mendel Austria
3 Island Trading Helen Bennett UK
4 Laughing Bacchus Winecellars Yoshi Tannamuri Canada
5 Magazzini Alimentari Riuniti Giovanni Rovelli Italy
Table 2:
Tag Description
0 <table> Defines a table
1 <th> Defines a header cell in a table
2 <tr> Defines a row in a table
3 <td> Defines a cell in a table
4 <caption> Defines a table caption
5 <colgroup> Specifies a group of one or more columns in a ...
6 <col> Specifies column properties for each column wi...
7 <thead> Groups the header content in a table
8 <tbody> Groups the body content in a table
9 <tfoot> Groups the footer content in a table
读取json文件数据
可以使用read_json()方法读取json文件。
假设有如下example.json文件,数据为:
[
{
"name": "Alice",
"age": 25,
"city": "New York"
},
{
"name": "Bob",
"age": 30,
"city": "Los Angeles"
},
{
"name": "Charlie",
"age": 35,
"city": "San Francisco"
}
]
可以使用read_json()方法将其读取为Pandas DataFrame:
import pandas as pd
df = pd.read_json('example.json')
print(df)
输出结果为:
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 San Francisco
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas读取文件数据常用的5种方法 - Python技术站