Pandas读取文件数据常用的5种方法

yizhihongxing

当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。

Panda 提供了很多读取数据的方法:

  • pd.read_csv():读取CSV文件
  • pd.read_excel():读取Excel文件
  • pd.read_sql():读取SQL数据库中的数据
  • pd.read_json():读取JSON文件
  • pd.read_html():读取HTML文件中的表格数据
  • pd.read_clipboard():读取剪贴板中的数据
  • pd.read_pickle():读取pickle格式的数据
  • pd.read_feather():读取feather格式的数据
  • pd.read_parquet():读取parquet格式的数据
  • pd.read_msgpack():读取msgpack格式的数据

本节将详细讲解Pandas读取文件最常用的5种方法。

读取CSV文件数据

假设我们有一个名为data.csv的CSV文件,我们可以使用pd.read_csv()方法来读取它:

import pandas as pd

data = pd.read_csv('data.csv')
print(data.head())

读取Excel文件数据

假设我们有一个名为data.xlsx的Excel文件,我们可以使用pd.read_excel()方法来读取它:

import pandas as pd

data = pd.read_excel('data.xlsx')
print(data.head())

读取SQL数据库中的数据

假设我们已经连接到了一个名为mydb的SQL数据库,其中有一个名为mytable的表,我们可以使用pd.read_sql()方法来读取它:

import pandas as pd
import mysql.connector

mydb = mysql.connector.connect(
  host="localhost",
  user="yourusername",
  password="yourpassword",
  database="mydatabase"
)

data = pd.read_sql("SELECT * FROM mytable", mydb)
print(data.head())

这里我们使用了MySQL Connector/Python库来连接数据库。读取SQL数据库中的数据需要传入查询语句和连接对象两个参数。

读取html文件数据

下面是一个简单的例子,演示如何使用read_html()方法从一个HTML文档中读取表格数据:

import pandas as pd

# 读取HTML文档中的表格数据
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)

# 打印读取到的所有表格
for i, table in enumerate(tables):
    print(f'Table {i+1}:')
    print(table)

这个例子会输出一个包含多个表格的列表,每个表格都是一个Pandas的DataFrame对象。通过循环遍历这个列表,就可以将所有表格的内容输出到控制台上。

运行结果为:

Table 1:
                        Company           Contact  Country
0           Alfreds Futterkiste      Maria Anders  Germany
1    Centro comercial Moctezuma   Francisco Chang   Mexico
2                  Ernst Handel     Roland Mendel  Austria
3                Island Trading     Helen Bennett       UK
4  Laughing Bacchus Winecellars   Yoshi Tannamuri   Canada
5  Magazzini Alimentari Riuniti  Giovanni Rovelli    Italy
Table 2:
          Tag                                        Description
0     <table>                                    Defines a table
1        <th>                   Defines a header cell in a table
2        <tr>                           Defines a row in a table
3        <td>                          Defines a cell in a table
4   <caption>                            Defines a table caption
5  <colgroup>  Specifies a group of one or more columns in a ...
6       <col>  Specifies column properties for each column wi...
7     <thead>               Groups the header content in a table
8     <tbody>                 Groups the body content in a table
9     <tfoot>               Groups the footer content in a table

读取json文件数据

可以使用read_json()方法读取json文件。

假设有如下example.json文件,数据为:

[
    {
        "name": "Alice",
        "age": 25,
        "city": "New York"
    },
    {
        "name": "Bob",
        "age": 30,
        "city": "Los Angeles"
    },
    {
        "name": "Charlie",
        "age": 35,
        "city": "San Francisco"
    }
]

可以使用read_json()方法将其读取为Pandas DataFrame:

import pandas as pd

df = pd.read_json('example.json')

print(df)

输出结果为:

       name  age           city
0     Alice   25       New York
1       Bob   30    Los Angeles
2   Charlie   35  San Francisco

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Pandas读取文件数据常用的5种方法 - Python技术站

(0)
上一篇 2023年3月6日 下午9:25
下一篇 2023年3月6日

相关文章

  • element-ui table行点击获取行索引(index)并利用索引更换行顺序

    让我为你详细讲解“element-ui table行点击获取行索引(index)并利用索引更换行顺序”的完整攻略。 1. 准备工作 首先,你需要先安装npm包管理器以及Element UI组件库。如果你还未安装的话,可以通过以下命令进行安装: npm install npm -g npm install element-ui –save 在完成安装后,你需…

    python 2023年6月13日
    00
  • Pandas:Series和DataFrame删除指定轴上数据的方法

    Pandas是python中一款非常常用的数据处理库,其可以方便的对数据进行处理、统计和分析。而在数据处理中,删除数据是一个非常常见的操作。在这里,我们讲述如何在Pandas中删除Series和DataFrame中指定轴上的数据。 删除Series中指定位置的元素 要删除Series中指定位置的元素,需要使用Series的drop()方法。 Series.d…

    python 2023年6月13日
    00
  • python教程网络爬虫及数据可视化原理解析

    Python教程:网络爬虫及数据可视化原理解析 简介 本篇文章主要介绍使用Python进行网站数据爬取的基础知识,以及如何将爬取到的数据进行可视化处理。 网络爬虫的基础知识 网络爬虫的定义 网络爬虫是一种自动化程序,其目的是通过网络获取需要的数据。网络爬虫可以模拟人的操作,自动访问网站,将网站上的数据下载到本地,然后进行分析处理。在数据分析和机器学习等领域,…

    python 2023年5月14日
    00
  • Pandas实现在线文件和剪贴板数据读取详解

    Pandas是Python中非常流行的数据分析和处理库,它提供了许多方便的工具和函数来处理各种数据格式。其中包括对文件和剪贴板数据的读取。在本篇攻略中,我们将介绍如何使用Pandas来实现在线文件和剪贴板数据的读取。 在线文件数据读取 在Pandas中,我们可以通过一些函数来实现在线文件数据读取。其中最常用的是read_csv函数,它可以读取CSV格式的数据…

    python 2023年5月14日
    00
  • 如何在一个DataFrame中绘制多个数据列

    在一个DataFrame中绘制多个数据列可以让我们更直观地比较不同数据之间的关系和趋势,这里提供一个完整的攻略。 1. 准备工作 首先,我们需要准备好数据,可以通过Pandas读取CSV、Excel等格式的数据。 以读取CSV文件为例,可以使用如下代码: import pandas as pd df = pd.read_csv(‘data.csv’) 其中,…

    python-answer 2023年3月27日
    00
  • 从列表或字典创建Pandas的DataFrame对象的方法

    从列表或字典创建Pandas的DataFrame对象是一种快捷且常见的方式,下面是具体步骤: 1. 导入所需库 import pandas as pd 2. 从列表创建DataFrame 列表中的每个元素将代表DataFrame中的一行数据,使用pandas.DataFrame()函数从列表创建DataFrame对象。 示例1: data = [ [1, ‘…

    python 2023年5月14日
    00
  • 从Pandas数据框架中删除列中有缺失值或NaN的行

    在Pandas中,我们可以使用dropna()方法来从数据框架中删除具有缺失值或NaN值的行或列。 为了删除列中有缺失值或NaN的行,我们需要在dropna()方法中指定轴向参数axis=0。此外,我们还需要指定subset参数以确定要处理的列。 以下是完整的过程及示例代码: 导入Pandas库并读入数据: import pandas as pd df = …

    python-answer 2023年3月27日
    00
  • Pandas – 从整个数据框架中剥离空白部分

    Pandas 是 Python 中一个强大的数据处理库,可以方便地对数据进行读取、写入、切片、过滤、聚合、可视化等操作。在数据处理的过程中,我们会遇到一些空白部分(如 NaN 、空字符串等),这些空白部分会对后续的数据分析和建模产生影响,因此需要对它们进行处理。本文将详细讲解如何从整个数据框架中剥离空白部分。 准备工作 在开始之前,需要先安装 Pandas …

    python-answer 2023年3月27日
    00
合作推广
合作推广
分享本页
返回顶部