Python实现周期性抓取网页内容的方法

本文将介绍如何使用Python实现周期性抓取网页内容的方法。

实现步骤

安装相关库

首先，我们需要安装以下Python库：

requests：用于发送HTTP请求
BeautifulSoup4：用于解析HTML内容
schedule：用于实现定时任务

可以使用以下命令进行安装：

pip install requests beautifulsoup4 schedule

编写代码

下面是一个简单的Python脚本，它可以周期性地抓取指定网页内容：

import requests
from bs4 import BeautifulSoup
import schedule
import time

def job():
    url = "https://www.example.com"
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser')
    print(soup.prettify())

schedule.every(1).minutes.do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

这个脚本实现了以下功能：

定义了一个名为job的函数，用于抓取指定网页内容。
使用schedule库调用job函数，设置函数在每1分钟执行一次。
通过循环和time库让程序一直运行。

在job函数中，我们可以使用requests库发送HTTP请求并获取网页内容，然后使用BeautifulSoup库解析HTML内容。

执行代码

将上述代码保存到一个名为"main.py"的文件中，然后执行以下命令启动定时任务：

python main.py

现在，你的脚本会在每1分钟抓取一次"https://www.example.com"的网页内容。

示例说明

示例1：抓取指定网页的标题和正文内容

import requests
from bs4 import BeautifulSoup
import schedule
import time

def job():
    url = "https://www.example.com"
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser')
    title = soup.find('title').text
    content = soup.find('div', {'class': 'content'}).prettify()
    print(title)
    print(content)

schedule.every(1).minutes.do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

在这个示例中，我们从"https://www.example.com"的网页中获取标题和一个class属性为"content"的

标签的内容并输出。

示例2：将抓取的内容保存到文件中

import requests
from bs4 import BeautifulSoup
import schedule
import time

def job():
    url = "https://www.example.com"
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser')
    content = soup.prettify()
    with open('example.html', 'w') as f:
        f.write(content)

schedule.every(1).hours.do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

在这个示例中，我们将抓取的HTML内容保存到名为"example.html"的文件中，并且每隔1小时执行一次抓取任务。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python实现周期性抓取网页内容的方法 - Python技术站