小爬虫-从PhysioNet上下载MIT-BIH Arrhythmia Database的ECG数据

2023年4月11日上午12:38 • 爬虫


import urllib.request
import os


def url_open(url):
    '''open url and return source html code'''
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) \
     AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
    response = urllib.request.urlopen(req)
    html = response.read()
    return html


def save_file(file_url):
    ''' open a url and save file'''

    # get file name
    filename = file_url.split('/')[-1]
    # write file to local
    with open(filename, 'wb') as f:
        file = url_open(file_url)
        f.write(file)


def download_file(folder="files"):
    '''to download file form internet'''

    # build a folder if it doesn't exit
    if not os.path.exists(folder):
        os.makedirs(folder)
    os.chdir(folder)
    # based url
    url = "https://physionet.org/physiobank/database/mitdb/"

    for i in range(100,235):
        file_list = i
        # url of ECG signal head file '*.hea'
        file_url = url + str(file_list) + '.hea'
        # save file
        try:
            save_file(file_url)
        except:
            continue

    # discard the empty files
    file_path = 'D:\\Python\\PyCharm_Projects\\learn_py\\file'
    for root, dirs, files in os.walk(file_path):
        for f in files:
            empty_f = os.path.getsize(file_path + '\\' + f)
            if empty_f <= 0:
                    os.remove(file_path+'\\'+f)


if __name__=='__main__':
    download_file()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：小爬虫-从PhysioNet上下载MIT-BIH Arrhythmia Database的ECG数据 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

C#多线程爬虫抓取免费代理IP

上一篇 2023年4月11日

【爬虫】爬虫请求json数据，返回乱码问题的解决

下一篇 2023年4月11日

网络爬虫的数据获取方式有哪些？

网络爬虫是一种通过自动化程序定期抓取网站数据的技术，它可以快速获取大量网站上的数据，并按照用户需求进行整理、分析和处理。网络爬虫的数据获取方式主要有以下几种：静态页面爬取静态页面是指页面内容不会被动态修改的网页，它们通常是由HTML和CSS代码组成，不包含动态脚本或交互式内容。网络爬虫可以通过HTTP协议发送请求并获取网页内容，然后解析HTML代码，从中…

爬虫 2023年4月20日
000
零基础写python爬虫之抓取糗事百科代码分享

首先介绍一下什么是Python爬虫。Python爬虫是一种利用Python编程语言进行网络爬取的技术。简单来说，就是自动化地从互联网上抓取网络信息。而抓取糗事百科就可以作为一个练手的例子。准备工作在写爬虫之前，你需要做好一些准备工作：安装Python环境：在官网下载安装包后，进行安装。建议选择3.7及以上版本。安装相关库：Python中已经有了许多库…

python 2023年5月14日
000
爬虫

快速构造Python爬虫请求，有这个网站就够了！

快速构造Python爬虫请求，有这个网站就够了！引言大家好，我是蜡笔小曦。我们在通过程序向某个网页发起请求时，实际上是模拟浏览器进行http（超文本传输协议）请求，这就要求我们需要按照固定的格式进行代码构造。一般请求数据分为三部分：请求行、请求头、请求体，如果每次都手动进行这些内容的构造，无疑会花费大量的时间，准确性也难以保证。现在就给大家带来快速…

2023年4月8日
000
Python爬虫开发与项目实战

关于Python爬虫开发与项目实战的攻略，我可以给您详细的介绍。简介 Python爬虫是一种快速获取互联网数据的方法，可以方便地从各种网站中抓取数据，然后对这些数据进行分析、处理和可视化展示。 “Python爬虫开发与项目实战”主要讲解了爬虫的基本知识和实战项目，从爬虫程序的基础构建、网页解析、数据存储、反爬虫和代理ip的使用等方面进行了详细的讲解。爬虫…

python 2023年5月14日
000
爬虫测试webmagic (一)

目标：统计斗鱼(www.douyu.com)人数思路： 1. 目录找到douyu播出的所有游戏 http://www.douyutv.com/directory 2. 借助 chrome 定位到每个游戏的目录页面，正则表达式为 /directory/game/\\w+ 　比如对于LOL来说，找到 href=/directory/game/LOL 3. 进…

爬虫 2023年4月13日
000
python 图片爬虫抓取图片系列三——爬取搜狗图片库中的图片

来自《Python项目案例开发从入门到实战》（清华大学出版社郑秋生夏敏捷主编）中爬虫应用——抓取百度图片本文爬取了搜狗图片库中的图片，相对于爬取特定网页中的图片，爬取图片库中的图片相对复杂一些，复杂的原因主要在于图片的动态加载上。图片库中的图片太多，所以访问网页的时候不是一次性把图片全部加载出来，而是根据鼠标滚轮的行为进行动态加载。这会导致和之…

爬虫 2023年4月10日
000
python 爬虫亚航指定日期间的航线

前两天在BOSS上找爬虫工作，投了N份简历，很少有回复的，唯一能看到点希望的是一家旅游公司，BOSS上回复说：要求做一些航空公司的爬虫，做好之后把思路和一些数据发过去，再谈后续的面试问题。发过来两个爬虫项目，说如果面试通过，会根据所选的爬虫项目进行工资定级，我选了这个据说是难度更大一些的：airasia.com。花了两天时间，搞定了这个爬虫，按要求把采集…

爬虫 2023年4月11日
000
python-爬虫-selenium模块

一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium import webdriver browser=webd…

爬虫 2023年4月11日
000

小爬虫-从PhysioNet上下载MIT-BIH Arrhythmia Database的ECG数据

相关文章