Python上数据抓取的作业调度

2023年4月8日上午8:06 • Python开发

yizhihongxing

【问题标题】：Job scheduling for data scraping on PythonPython上数据抓取的作业调度
【发布时间】：2023-04-07 07:17:01
【问题描述】：

我正在从某个网站抓取（提取）数据。数据包含我需要的两个值，即（网格）频率值和时间。

网站上的数据每秒都在更新。我想使用 python 将这些值（附加）连续保存到列表或元组中。为此，我尝试使用 schedule 库。以下作业调度命令每秒运行一次数据抓取功能（socket_freq）。

import schedule
schedule.every(1).seconds.do(socket_freq)

while True:
    schedule.run_pending()

我面临两个问题：

我不知道如何限制计划在选定的时间间隔内运行。例如，我想运行 5 或 10 分钟。我该如何定义？我的意思是如何告诉日程安排在特定时间后停止。
如果我运行这段代码并在几秒钟后停止它（使用 break），那么我经常会得到多个条目，例如这里是一个结果，其中元组中的第一个 list[] 指的是时间值，第二个list[ ] 是频率的值：

出来：

(['19:27:02','19:27:02','19:27:02','19:27:03','19:27:03','19:27:03','19:27:03','19:27:03','19:27:03','19:27:03','19:27:04','19:27:04','19:27:04', ...], 
['50.020','50.020','50.020','50.018','50.018','50.018','50.018','50.018','50.018','50.018','50.017','50.017','50.017'...])

如您所见，时间变量被多次输入（附加），尽管我使用了每 1 秒运行一次的计划。我实际上希望检索的是：

出来：

(['19:27:02','19:27:03','19:27:04'],['50.020','50.018','50.017'])

有人知道如何解决这些问题吗？

谢谢！

（我使用的是 python 2.7.9）

【问题讨论】：

标签：
python
web-scraping
scheduler

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python上数据抓取的作业调度 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

在 Google App Engine 中使用 Soundcloud Python 库 – 我需要移动哪些文件？

上一篇 2023年4月8日

使用 XMLHttpRequest() 时如何在 python 中接收 POST 数据

下一篇 2023年4月8日

公认8个效率最高的爬虫框架

下面是关于公认8个效率最高的爬虫框架的详细攻略。 1. Scrapy Scrapy 是当前最为流行、最为强大的 Python 爬虫框架之一，它可以帮助我们很方便地爬取页面并进行整理持久化，其中包含多级链接爬取、数据处理及输出功能。同时，Scrapy 的内容较为全面，支持非常丰富的功能扩展，适用于各种形式的网站爬取。安装方式 scrapy 可以通过 pip …

python 2023年6月3日
000
Python中集合创建与使用详解

下面是关于Python中集合创建与使用的详细攻略，包含两个示例说明。集合的定义在Python中，集合是一种无序、不重复的数据类型，它是由对花括号{}包裹的元素组成，每个素之间用逗号,`分隔。集合中的元素可以是任何可变的类型，包括数字、字符串、元组等。集合的创建在Python中，我们可以使用set()函数或者直接使用括号{}`来创建一个集合。下面是一些…

python 2023年5月13日
000
Python中scrapy下载保存图片的示例

下面是Python中scrapy下载保存图片的示例的完整攻略。创建项目首先需要在终端中使用以下命令创建一个新的scrapy项目： scrapy startproject scrapy_image_downloader 这将在当前目录下创建一个名为scrapy_image_downloader的文件夹，其中包含项目的初始目录结构。编写爬虫在项目目录中，…

python 2023年5月19日
000
用Python自动清理电脑内重复文件,只要10行代码(自动脚本)

下面是详细讲解如何使用Python自动清理电脑内重复文件的完整攻略。目录确认要去重的文件夹遍历文件夹并计算hash 筛选出重复文件删除重复文件 1. 确认要去重的文件夹首先，我们需要确认要去重的文件夹路径，这可以使用Python中的os库来实现。可以使用以下代码来获取文件夹路径： import os folder_path = r’C:\Users…

python 2023年5月19日
000
简单谈谈Python中的元祖（Tuple）和字典（Dict）

元祖（Tuple）和字典（Dict）是Python中常用的数据类型，它们用于存储和操作数据。下面就来详细讲解一下。元祖（Tuple）元祖是一个不可变的序列，类似于列表（List），但元祖中的元素是不可改变的。元祖和列表都可以存储多个元素，但元祖的元素是用小括号括起来的，而列表则是用方括号。创建元祖元祖可以使用小括号创建，也可以使用tuple()函数来…

python 2023年5月13日
000
Python Print实现在输出中插入变量的例子

当我们使用Python进行编程的时候，常常需要在输出的文本中插入变量的值。Python提供了一种简单且强大的方法来实现这一点：在print语句中使用字符串格式化符号“%”。使用“%”符号进行字符串格式化在Python中，使用“%”符号进行字符串格式化是插入变量最常用的方法。我们可以在一个字符串中使用“%”符号来指示变量的位置，然后在print语句中使用“…

python 2023年6月5日
000
Python类方法总结讲解

Python类方法总结讲解在Python中，类方法是一种特殊的方法，它与类本身相关联，而不是与类的实例相关联。在本文中，我们将深入探讨Python类方法的概念、用法和示例。类方法的定义类方法使用@classmethod装饰器定义的方法。它的第一个参数通常被命名为cls，它指向类本身，而不是类的实例。类方法可以通过类名或类的实例来调用。以下是一个示例代…

python 2023年5月13日
000
如何在Python中插入PostgreSQL数据库中的数据？

以下是在Python中插入PostgreSQL数据库中的数据的完整使用攻略。使用PostgreSQL数据库的前提条件在使用Python连接PostgreSQL数据库之前，确已经安装了PostgreSQL数据库已经创建使用数据库和表，还需要安装Python的驱动程序，例如psycopg2。步骤1：导入模块在Python使用psycopg2模块连接Pos…

python 2023年5月12日
000

合作推广

合作推广

返回顶部