python数据可视化-matplotlib入门(6)-从文件中加载数据

前几篇都是手动录入或随机函数产生的数据。实际有许多类型的文件,以及许多方法,用它们从文件中提取数据来图形化。

比如之前python基础(12)介绍打开文件的方式,可直接读取文件中的数据,扩大了我们的数据来源。下面详细介绍从文件中加载数据。

一、使用内置的 csv 模块加载CSV文件

CSV文件是一种特殊的文本文件,文件中的数据以逗号作为分隔符,很适合进行数据的解析。先用excle建立如下表格和数据,另存为csv格式文件,放到代码目录下。

python数据可视化-matplotlib入门(6)-从文件中加载数据

包含在Python标准库中自带CSV 模块,我们只需要import进来就能使用。比如我们需要将上面的CSV文件都打印出来,代码 如下:

import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径,如果在代码目录文件下,可以直接用文件名
with open(filename) as file_csv:      #是不是忘记了如何打开文件?打开文件,并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容  
    for row in reader: #   用for循环打印每一行
        print(row)

运行结果如下:

['Name', 'Grade', 'Class', 'Age', 'mathscore', 'Englishscore']
['Lucy', '7', '2', '14', '95', '86']
['bush', '8', '1', '15', '80', '75']
['lily', '7', '3', '14', '93', '95']
['Jack', '8', '2', '14', '87', '84']
['Mary', '9', '1', '15', '85', '86']
['philip', '7', '3', '14', '90', '92']
['Liming', '9', '2', '16', '99', '87']

 1、打印文件头及其位置

读入文件,是为了获取其中的数据,需要将相关信息进行分离,先看看如何读出头即文件的第一行, next()返回文件中的下一行。

import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件?打开文件,并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容  
    header_row = next(reader)   #模块csv包含函数 next() ,调用它并将阅读器对象传递给它时,它将返回文件中的下一行
                                #调用了next()一次,因此得到的是文件的第一行,其中包含文件头

      #for row in reader: # 用for循环打印每一行
       # print(row)

    for index, column_header in enumerate(header_row):  #对列表调用了enumerate()来获取每个元素的索引及其值
        print(index, column_header)  

运行后的结果如下所示:

0 Name
1 Grade
2 Class
3 Age
4 mathscore
5 Englishscore

 提取其中索引,即name的索引为0,Grade的索引为1,知道了索引便可以读取其中的任何数据,比如我们要打印出mathscore,索引为4,于是代码如下:

    scores =[] 定义一个空的list
    for row in reader:
        scores.append(int(row[4])) #读取的文件,默认为字符串,用int()转换为数字。
    print(scores)

运行结果:

[95, 80, 93, 87, 85, 90, 99]

 接下来,制作图表展示一下,先把mathscore和englishscore分数做个柱状对比。代码如下:

import matplotlib.pyplot as plt
import csv  #import csv 用来导入csv模块

filename = 'E:WorkSpacepythoncodingscore.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件?打开文件,并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容   
    header_row = next(reader)   #模块csv包含函数 next() ,调用它并将阅读器对象传递给它时,它将返回文件中的下一行。
                                #调用了 next() 一次,因此得到的是文件的第一行,其中包含文件头
    mathscores =[] #定义两个列表
    englishscores=[]
    for row in reader:
        mathscores.append(int(row[4]))     #读取索引为4的数据,默认为字符串,用int()转换为数字。
        englishscores.append(int(row[5]))  #读取索引为5的数据,用int()转换为数字。
        
plt.bar([1,3,5,7,9,11,13],mathscores,label='math',color='#FF2204')     
plt.bar([2,4,6,8,10,12,14],englishscores, label='englis', color='g')
plt.legend()
plt.title('scores') 
plt.show()

已将那些打印相关代码删除。看运行结果:

python数据可视化-matplotlib入门(6)-从文件中加载数据

 接下来,我们读取文件 ,并根据文件中的时间来绘制图表

新建一个年份的数据(真的是胡编乱造的数据),第一列是年份,第二列每年毕业的人数,第三列是每年申请人数,如图所示:

python数据可视化-matplotlib入门(6)-从文件中加载数据

要求:

1,按年份分别显示出每年两者的人数,并用不同的颜色表示;

2、两者间也用其他颜色进行填充。

完成代码如下:

import matplotlib.pyplot as plt
import csv  #import csv 用来导入csv模块
from datetime import datetime #引入时间相关模块

filename = 'E:WorkSpacepythoncodinggraduatesNumbers.csv'  #文件保存的绝对路径
with open(filename) as file_csv:      #是不是忘记了如何打开文件?打开文件,并将结果文件对象存储在file_csv中
    reader = csv.reader(file_csv)     #直接调读取 用csv.read()读取文件内容   
    header_row = next(reader)   
    dates=[]                            
    numbers=[]
    application_numbers=[]
    for row in reader: 
        current_date = datetime.strptime(row[0], "%Y/%m/%d") #年份,strptime()日期格式转化为字符串格式的函数
        dates.append(current_date)
        numbers.append(int(row[1]))      #读取索引为1的数据,默认为字符串,用int()转换为数字,即Numbers of graduates 。
        application_numbers.append(int(row[2])) #读取索引为2的数据,即Number of applicants
        
plt.plot(dates,numbers,label='Numbers of graduate', c='red') #显示第一条线
plt.plot(dates,application_numbers,label='Number of applicant', c='green')  #显示第二条线application_numbers折线
plt.fill_between(dates,numbers, application_numbers, facecolor='blue', alpha=0.5)   #在两线之间填充颜色  alpha透明度
    
plt.title("The numbers of graduate",fontsize=24)
plt.xlabel('Years', fontsize=16)
plt.ylabel("The numbers", fontsize=16)
plt.legend()
plt.show()

实际运行结果如下:

python数据可视化-matplotlib入门(6)-从文件中加载数据

 除了直接读取文件外,数据还有众多其他来源,比如后期涉及的爬虫等。

 

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python数据可视化-matplotlib入门(6)-从文件中加载数据 - Python技术站

(0)
上一篇 2023年4月2日 下午5:40
下一篇 2023年4月2日

相关文章

  • python数据可视化-matplotlib入门(3)-利用随机函数生成变化图形2

     鉴于上一篇中最后三个问题: 1、上述程序是否能进行优化(比如功能相同的) 2、创建三个3个实例,用了3个语句,能否建一个函数,只输入一个数n,就自动创建n个实例?同时,每个实例的num_times随机,(n比较大时,num_times应该比较小) 3、当实现上述功能后,程序运行,只输入一个参数(创建实例的个数),就会自动生成对应的num_times,并分别…

    2023年4月2日
    00
  • python入门基础(5)–数值列表、切片及元组

    列表也非常适合存储一组数字,尤其是大数据处理,处理的几乎都是由数字(如气温、距离、人口数量、经济等)组成的集合。 Python提供很多工具,在数据可视化中,可高效地处理数字列表。 一、数值列表    range() 让你能够轻松地生成一系列的数字 for value in range(1,6):    print(value)# 显示结果为1,2,3,4,5…

    2023年4月2日
    00
  • python入门基础(11)–类的导入、继承及使用

    在上篇“python中的类的创建、使用和继承”中,创建了Person()和Student()两个类,最后才是程序执行主体,如下:  class Person(): #创建一个person类,父类必须包含在当前文件中,且位于子类前面。 def __init__(self, name, age,hometown): #父类 self.name = name se…

    2023年4月2日
    00
  • python数据可视化-matplotlib入门(2)-利用随机函数生成变化图形

    综合前述的类、函数、matplotlib等,完成一个随机移动的过程(注意要确定移动的次数,比如10万次),每次行走都完全是随机的,没有明确的方向,结果是由一系列随机决策确定的,最后显示出每次移动的位置的图表。 思考: 1)每次走动多少个像素,由随机函数决定,每次移动方向也随机确定。由随机方向和随机像素共同移动位置大小和方向。 2)保证将每次移动的位置保存在列…

    2023年4月2日
    00
  • Python数据分析–Numpy常用函数介绍(6)–Numpy中与股票成交量有关的计算

            成交量(volume)是投资中一个非常重要的变量,它是指在某一时段内具体的交易数,可以在分时图中绘制,包括日线图、周线图、月线图甚至是5分钟、30分钟、60分钟图中绘制。   股票市场成交量的变化反映了资金进出市场的情况,成交量是判断市场走势的重要指标。一般情况下,成交量大且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理…

    2023年4月2日
    00
  • python数据可视化-matplotlib入门(7)-从网络加载数据及数据可视化的小总结

    除了从文件加载数据,另一个数据源是互联网,互联网每天产生各种不同的数据,可以用各种各样的方式从互联网加载数据。 一、了解 Web API Web 应用编程接口(API)自动请求网站的特定信息,再对这些信息进行可视化。每次运行,都会获取最新的数据来生成可视化,因此即便网络上的数据瞬息万变,它呈现的信息也都是最新的。 Web API是网站的一部分,用于与使用非常…

    2023年4月2日
    00
  • python入门基础(1)—安装

      说明:0基础,那就先练习python语言基础知识,等基础知识牢固了,再对各开发平台分别进行介绍。这里只介绍两个简单而又容易搭建开发平台Anaconda和pycharm   Anaconda是一个开源的Python发行版本,包括Conda、Python以及一堆工具包,比如:numpy、pandas等等180多个科学包及其依赖项,因后期涉及数据处理及深度学习…

    2023年4月2日
    00
  • Python数据分析–Numpy常用函数介绍(2)

    摘要:本篇我们将以分析历史股价为例,介绍怎样从文件中载入数据,以及怎样使用NumPy的基本数学和统计分析函数、学习读写文件的方法,并尝试函数式编程和NumPy线性代数运算,来学习NumPy的常用函数。 一、文件读入 :读写文件是数据分析的一项基本技能 CSV(Comma-Separated Value,逗号分隔值)格式是一种常见的文件格式。通常,数据库的转存…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部