Pandas读取文件数据常用的5种方法

当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。

Panda 提供了很多读取数据的方法:

  • pd.read_csv():读取CSV文件
  • pd.read_excel():读取Excel文件
  • pd.read_sql():读取SQL数据库中的数据
  • pd.read_json():读取JSON文件
  • pd.read_html():读取HTML文件中的表格数据
  • pd.read_clipboard():读取剪贴板中的数据
  • pd.read_pickle():读取pickle格式的数据
  • pd.read_feather():读取feather格式的数据
  • pd.read_parquet():读取parquet格式的数据
  • pd.read_msgpack():读取msgpack格式的数据

本节将详细讲解Pandas读取文件最常用的5种方法。

读取CSV文件数据

假设我们有一个名为data.csv的CSV文件,我们可以使用pd.read_csv()方法来读取它:

import pandas as pd

data = pd.read_csv('data.csv')
print(data.head())

读取Excel文件数据

假设我们有一个名为data.xlsx的Excel文件,我们可以使用pd.read_excel()方法来读取它:

import pandas as pd

data = pd.read_excel('data.xlsx')
print(data.head())

读取SQL数据库中的数据

假设我们已经连接到了一个名为mydb的SQL数据库,其中有一个名为mytable的表,我们可以使用pd.read_sql()方法来读取它:

import pandas as pd
import mysql.connector

mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

data = pd.read_sql("SELECT * FROM mytable", mydb)
print(data.head())

这里我们使用了MySQL Connector/Python库来连接数据库。读取SQL数据库中的数据需要传入查询语句和连接对象两个参数。

读取html文件数据

下面是一个简单的例子,演示如何使用read_html()方法从一个HTML文档中读取表格数据:

import pandas as pd

# 读取HTML文档中的表格数据
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)

# 打印读取到的所有表格
for i, table in enumerate(tables):
    print(f'Table {i+1}:')
    print(table)

这个例子会输出一个包含多个表格的列表,每个表格都是一个Pandas的DataFrame对象。通过循环遍历这个列表,就可以将所有表格的内容输出到控制台上。

运行结果为:

Table 1:
                        Company           Contact  Country
0           Alfreds Futterkiste      Maria Anders  Germany
1    Centro comercial Moctezuma   Francisco Chang   Mexico
2                  Ernst Handel     Roland Mendel  Austria
3                Island Trading     Helen Bennett       UK
4  Laughing Bacchus Winecellars   Yoshi Tannamuri   Canada
5  Magazzini Alimentari Riuniti  Giovanni Rovelli    Italy
Table 2:
          Tag                                        Description
0     <table>                                    Defines a table
1        <th>                   Defines a header cell in a table
2        <tr>                           Defines a row in a table
3        <td>                          Defines a cell in a table
4   <caption>                            Defines a table caption
5  <colgroup>  Specifies a group of one or more columns in a ...
6       <col>  Specifies column properties for each column wi...
7     <thead>               Groups the header content in a table
8     <tbody>                 Groups the body content in a table
9     <tfoot>               Groups the footer content in a table

读取json文件数据

可以使用read_json()方法读取json文件。

假设有如下example.json文件,数据为:

[
    {
        "name": "Alice",
        "age": 25,
        "city": "New York"
    },
    {
        "name": "Bob",
        "age": 30,
        "city": "Los Angeles"
    },
    {
        "name": "Charlie",
        "age": 35,
        "city": "San Francisco"
    }
]

可以使用read_json()方法将其读取为Pandas DataFrame:

import pandas as pd

df = pd.read_json('example.json')

print(df)

输出结果为:

       name  age           city
0     Alice   25       New York
1       Bob   30    Los Angeles
2   Charlie   35  San Francisco

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas读取文件数据常用的5种方法 - Python技术站

(1)
上一篇 2023年3月6日 下午9:25
下一篇 2023年3月6日

相关文章

  • Pandas分组聚合之groupby()、agg()方法的使用教程

    一、Pandas分组聚合之groupby()方法的使用教程1. groupby()方法的基本语法及功能groupby()方法是Pandas中非常强大的分组聚合工具,其基本语法格式为:DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True,…

    python 2023年5月14日
    00
  • Python中的数据处理

    Python作为一种功能丰富的编程语言,具备强大的数据处理能力。以下是Python中的数据处理的详细讲解: 读取数据 在Python中,数据可以从多种来源读取,比如文件、数据库、API等。这里以文件为例,介绍如何读取不同格式的文件数据。 csv格式 csv格式的数据是最常见的一种数据格式之一,可以使用Python中的csv包读取。假设文件名为data.csv…

    python-answer 2023年3月27日
    00
  • Python pandas找出、删除重复的数据实例

    Python pandas是一种强大的数据分析工具,可以轻松地处理数据,其中包括找出和删除重复的数据实例。下面是详细的攻略: 找出重复的数据实例 导入pandas库并读取数据 import pandas as pd data = pd.read_csv("data.csv") 查找重复数据 duplicate_data = data[da…

    python 2023年5月14日
    00
  • 如何使用pandas读取txt文件中指定的列(有无标题)

    使用pandas读取txt文件的指定列需要通过read_table函数实现,可以根据是否有标题,选择传递不同的参数进行读取。 有标题的txt文件 假设我们有如下的txt文件,名为 sample.txt,每项数据用制表符(\t)分割,并且第一行为标题,包括姓名、性别、 年龄、 身高、体重: 姓名 性别 年龄 身高(cm) 体重(kg) Alice Female…

    python 2023年5月14日
    00
  • 如何在Pandas中扁平化MultiIndex

    在Pandas中,MultiIndex可以在数据分析和数据聚合中非常便利,它能够用于解决很多复杂的问题。但是,在一些特别的情况下,MultiIndex也可能给分析带来一些困扰,尤其是当需要将复合索引转化成标准的索引时,可能会带来一定的复杂性。在这种情况下,我们需要将MultiIndex“扁平化”,本文将详细介绍如何在Pandas中实现这一操作。 步骤一:导入…

    python-answer 2023年3月27日
    00
  • php插入mysql数据返回id的方法

    首先,需要明确一个概念:插入数据到MySQL数据库中并返回自增长的id,需要使用MySQL的LAST_INSERT_ID()函数。 以下是插入MySQL数据并返回id的示例: // 连接到数据库 $conn = mysqli_connect(‘localhost’, ‘username’, ‘password’, ‘database’); // 准备SQL语…

    python 2023年6月13日
    00
  • Python Pandas学习之数据离散化与合并详解

    Python Pandas学习之数据离散化与合并详解 什么是数据离散化 数据离散化是指将连续型数据按照一定的方法划分为离散型数据的过程。例如,我们可以将一组年龄数据按照一定的划分标准,划分为儿童、青少年、成年人和老年人等几个离散的类别。 数据离散化的原因 数据离散化常常是为了更好的进行数据分析和建模,例如: 减小噪声的影响 降低数据复杂度,简化模型 方便进行…

    python 2023年5月14日
    00
  • Python中的pandas.lreshape()函数

    概述 Pandas是一个Python数据分析库,其中的lreshape()函数用于将宽格式(wide format)数据转换为长格式(long format)数据,可以实现字段的合并和重塑任务,适用于已有数据没有符合分析要求格式的场景。本文将详细介绍pandas.lreshape()的用法和示例。 语法 函数的语法如下所示: pandas.lreshape(…

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部