python数据可视化-matplotlib入门(6)-从文件中加载数据

2023年4月2日下午5:41 • Python开发

前几篇都是手动录入或随机函数产生的数据。实际有许多类型的文件，以及许多方法，用它们从文件中提取数据来图形化。

比如之前python基础(12)介绍打开文件的方式，可直接读取文件中的数据，扩大了我们的数据来源。下面详细介绍从文件中加载数据。

一、使用内置的 csv 模块加载CSV文件

CSV文件是一种特殊的文本文件，文件中的数据以逗号作为分隔符，很适合进行数据的解析。先用excle建立如下表格和数据，另存为csv格式文件，放到代码目录下。

python数据可视化-matplotlib入门(6)-从文件中加载数据

包含在Python标准库中自带CSV 模块，我们只需要import进来就能使用。比如我们需要将上面的CSV文件都打印出来，代码如下:

import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径，如果在代码目录文件下，可以直接用文件名
with open(filename) as file_csv:      #是不是忘记了如何打开文件？打开文件，并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容  
    for row in reader: #   用for循环打印每一行
        print(row)

运行结果如下：

['Name', 'Grade', 'Class', 'Age', 'mathscore', 'Englishscore']
['Lucy', '7', '2', '14', '95', '86']
['bush', '8', '1', '15', '80', '75']
['lily', '7', '3', '14', '93', '95']
['Jack', '8', '2', '14', '87', '84']
['Mary', '9', '1', '15', '85', '86']
['philip', '7', '3', '14', '90', '92']
['Liming', '9', '2', '16', '99', '87']

1、打印文件头及其位置

读入文件，是为了获取其中的数据，需要将相关信息进行分离，先看看如何读出头即文件的第一行， next()返回文件中的下一行。

import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件？打开文件，并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容  
    header_row = next(reader)   #模块csv包含函数 next() ，调用它并将阅读器对象传递给它时，它将返回文件中的下一行。
                                #调用了next()一次，因此得到的是文件的第一行，其中包含文件头

#for row in reader: # 用for循环打印每一行
　#　print(row)

    for index, column_header in enumerate(header_row):  #对列表调用了enumerate()来获取每个元素的索引及其值
        print(index, column_header)

运行后的结果如下所示：

0 Name
1 Grade
2 Class
3 Age
4 mathscore
5 Englishscore

　提取其中索引，即name的索引为0，Grade的索引为1，知道了索引便可以读取其中的任何数据，比如我们要打印出mathscore，索引为4，于是代码如下：

    scores =[] 定义一个空的list
    for row in reader:
        scores.append(int(row[4])) #读取的文件，默认为字符串，用int()转换为数字。
    print(scores)

运行结果：

[95, 80, 93, 87, 85, 90, 99]

　接下来，制作图表展示一下，先把mathscore和englishscore分数做个柱状对比。代码如下：

import matplotlib.pyplot as plt
import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件？打开文件，并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容   
    header_row = next(reader)   #模块csv包含函数 next() ，调用它并将阅读器对象传递给它时，它将返回文件中的下一行。
                                #调用了 next() 一次，因此得到的是文件的第一行，其中包含文件头
    mathscores =[] #定义两个列表
    englishscores=[]
    for row in reader:
        mathscores.append(int(row[4]))     #读取索引为4的数据，默认为字符串，用int()转换为数字。
        englishscores.append(int(row[5]))  #读取索引为5的数据，用int()转换为数字。
        
plt.bar([1,3,5,7,9,11,13],mathscores,label='math',color='#FF2204')     
plt.bar([2,4,6,8,10,12,14],englishscores, label='englis', color='g')
plt.legend()
plt.title('scores') 
plt.show()

已将那些打印相关代码删除。看运行结果：

python数据可视化-matplotlib入门(6)-从文件中加载数据

接下来，我们读取文件，并根据文件中的时间来绘制图表

新建一个年份的数据（真的是胡编乱造的数据），第一列是年份，第二列每年毕业的人数，第三列是每年申请人数，如图所示：

python数据可视化-matplotlib入门(6)-从文件中加载数据

要求：

1，按年份分别显示出每年两者的人数，并用不同的颜色表示；

2、两者间也用其他颜色进行填充。

完成代码如下：

import matplotlib.pyplot as plt
import csv  #import csv 用来导入csv模块
from datetime import datetime #引入时间相关模块

filename = 'E:WorkSpacepythoncodinggraduatesNumbers.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件？打开文件，并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容   
    header_row = next(reader)   
    dates=[]                            
    numbers=[]
    application_numbers=[]
    for row in reader: 
        current_date = datetime.strptime(row[0], "%Y/%m/%d") #年份，strptime()日期格式转化为字符串格式的函数
        dates.append(current_date)
        numbers.append(int(row[1]))      #读取索引为1的数据，默认为字符串，用int()转换为数字，即Numbers of graduates 。
        application_numbers.append(int(row[2])) #读取索引为2的数据，即Number of applicants
        
plt.plot(dates,numbers,label='Numbers of graduate', c='red') #显示第一条线
plt.plot(dates,application_numbers,label='Number of applicant', c='green')  #显示第二条线application_numbers折线
plt.fill_between(dates,numbers, application_numbers, facecolor='blue', alpha=0.5)   #在两线之间填充颜色  alpha透明度
    
plt.title("The numbers of graduate",fontsize=24)
plt.xlabel('Years', fontsize=16)
plt.ylabel("The numbers", fontsize=16)
plt.legend()
plt.show()

实际运行结果如下：

python数据可视化-matplotlib入门(6)-从文件中加载数据

除了直接读取文件外，数据还有众多其他来源，比如后期涉及的爬虫等。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python数据可视化-matplotlib入门(6)-从文件中加载数据 - Python技术站

PursuitingPeak

0 0 打赏

微信扫一扫

支付宝扫一扫

爬虫系列：爬虫验证码识别

上一篇 2023年4月2日下午5:40

python-变量、运算符、数据类型

下一篇 2023年4月2日

Python开发

python数据可视化-matplotlib入门(3)-利用随机函数生成变化图形2

鉴于上一篇中最后三个问题： 1、上述程序是否能进行优化（比如功能相同的） 2、创建三个3个实例，用了3个语句，能否建一个函数，只输入一个数n，就自动创建n个实例？同时，每个实例的num_times随机，(n比较大时，num_times应该比较小) 3、当实现上述功能后，程序运行，只输入一个参数（创建实例的个数），就会自动生成对应的num_times，并分别…

2023年4月2日
000
Python开发

python入门基础(5)–数值列表、切片及元组

列表也非常适合存储一组数字，尤其是大数据处理，处理的几乎都是由数字(如气温、距离、人口数量、经济等)组成的集合。 Python提供很多工具，在数据可视化中，可高效地处理数字列表。一、数值列表 range() 让你能够轻松地生成一系列的数字 for value in range(1,6): print(value)# 显示结果为1，2，3，4，5…

2023年4月2日
000
Python开发

python入门基础(11)–类的导入、继承及使用

在上篇“python中的类的创建、使用和继承”中，创建了Person()和Student()两个类，最后才是程序执行主体，如下： class Person(): #创建一个person类，父类必须包含在当前文件中，且位于子类前面。 def __init__(self, name, age,hometown): #父类 self.name = name se…

2023年4月2日
000
Python开发

python数据可视化-matplotlib入门(2)-利用随机函数生成变化图形

综合前述的类、函数、matplotlib等，完成一个随机移动的过程（注意要确定移动的次数，比如10万次），每次行走都完全是随机的，没有明确的方向，结果是由一系列随机决策确定的，最后显示出每次移动的位置的图表。思考： 1）每次走动多少个像素，由随机函数决定，每次移动方向也随机确定。由随机方向和随机像素共同移动位置大小和方向。 2）保证将每次移动的位置保存在列…

2023年4月2日
000
Python开发

Python数据分析–Numpy常用函数介绍(6)–Numpy中与股票成交量有关的计算

成交量（volume）是投资中一个非常重要的变量，它是指在某一时段内具体的交易数，可以在分时图中绘制，包括日线图、周线图、月线图甚至是5分钟、30分钟、60分钟图中绘制。　　股票市场成交量的变化反映了资金进出市场的情况，成交量是判断市场走势的重要指标。一般情况下，成交量大且价格上涨的股票，趋势向好。成交量持续低迷时，一般出现在熊市或股票整理…

2023年4月2日
000
Python开发

python数据可视化-matplotlib入门(7)-从网络加载数据及数据可视化的小总结

除了从文件加载数据，另一个数据源是互联网，互联网每天产生各种不同的数据，可以用各种各样的方式从互联网加载数据。一、了解 Web API Web 应用编程接口（API）自动请求网站的特定信息，再对这些信息进行可视化。每次运行，都会获取最新的数据来生成可视化，因此即便网络上的数据瞬息万变，它呈现的信息也都是最新的。 Web API是网站的一部分，用于与使用非常…

2023年4月2日
000
Python开发

python入门基础(1)—安装

说明：0基础，那就先练习python语言基础知识，等基础知识牢固了，再对各开发平台分别进行介绍。这里只介绍两个简单而又容易搭建开发平台Anaconda和pycharm Anaconda是一个开源的Python发行版本，包括Conda、Python以及一堆工具包，比如：numpy、pandas等等180多个科学包及其依赖项，因后期涉及数据处理及深度学习…

2023年4月2日
000
Python开发

Python数据分析–Numpy常用函数介绍(2)

摘要：本篇我们将以分析历史股价为例，介绍怎样从文件中载入数据，以及怎样使用NumPy的基本数学和统计分析函数、学习读写文件的方法，并尝试函数式编程和NumPy线性代数运算，来学习NumPy的常用函数。一、文件读入：读写文件是数据分析的一项基本技能 CSV（Comma-Separated Value，逗号分隔值）格式是一种常见的文件格式。通常，数据库的转存…

2023年4月2日
000

python数据可视化-matplotlib入门(6)-从文件中加载数据

相关文章