详解用python实现爬取CSDN热门评论URL并存入redis

2023年5月14日下午9:28 • python

yizhihongxing

下面是“详解用python实现爬取CSDN热门评论URL并存入redis”的完整攻略。

一、需求分析

爬取CSDN热门评论的URL
将爬取的URL存入Redis中

二、技术选型

爬取CSDN热门评论的URL：我们可以使用Python的requests和BeautifulSoup库来实现
将爬取的URL存入Redis中：我们可以使用Python的redis库来实现

三、实现步骤

导入所需的库和模块

import requests
from bs4 import BeautifulSoup
import redis

连接Redis

r = redis.Redis(host='localhost', port=6379)

爬取热门评论的URL

url = 'https://www.csdn.net/nav/it'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
divs = soup.find_all('div', class_='content')
for div in divs:
    a = div.find('a')
    if a:
        url = a['href']
        if 'blog.csdn.net' in url and '/article/details/' in url:
            print(url)
            # 存入Redis
            r.lpush('csdn_hot_urls', url)

完整代码

import requests
from bs4 import BeautifulSoup
import redis

r = redis.Redis(host='localhost', port=6379)

url = 'https://www.csdn.net/nav/it'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
divs = soup.find_all('div', class_='content')
for div in divs:
    a = div.find('a')
    if a:
        url = a['href']
        if 'blog.csdn.net' in url and '/article/details/' in url:
            print(url)
            # 存入Redis
            r.lpush('csdn_hot_urls', url)

四、示例说明

示例1：爬取CSDN热门评论的URL并打印输出

url = 'https://www.csdn.net/nav/it'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
divs = soup.find_all('div', class_='content')
for div in divs:
    a = div.find('a')
    if a:
        url = a['href']
        if 'blog.csdn.net' in url and '/article/details/' in url:
            print(url)

示例2：将爬取的URL存入Redis中

import redis

r = redis.Redis(host='localhost', port=6379)

url = 'https://www.csdn.net/nav/it'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
divs = soup.find_all('div', class_='content')
for div in divs:
    a = div.find('a')
    if a:
        url = a['href']
        if 'blog.csdn.net' in url and '/article/details/' in url:
            r.lpush('csdn_hot_urls', url)

以上是“详解用python实现爬取CSDN热门评论URL并存入redis”的攻略，希望能够对你有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解用python实现爬取CSDN热门评论URL并存入redis - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

简单实现Python爬取网络图片

上一篇 2023年5月14日

如何基于Python爬取隐秘的角落评论

下一篇 2023年5月14日

python3编码问题汇总

Python3编码问题汇总在使用Python3进行编程的过程中，常常会遇到一些关于编码的问题。本文将会对这些问题进行汇总，并给出相应的解决方案。 1. Python3的默认编码 Python3的默认编码是UTF-8，这意味着所有的字符串都会以UTF-8进行编码。而在Python2中，则是使用ASCII码作为默认编码，这就可能会导致一些编码方面的问题。 2.…

python 2023年5月19日
000
如何比较两个NumPy数组

要比较两个NumPy数组，可以使用NumPy中的比较函数，这些函数返回一个布尔数组，该数组表示每个元素是否满足比较条件。下面是一些常用的比较函数： numpy.array_equal(x, y) : 如果两个数组x和y的形状和元素的值都相等，则返回True，否则返回False。 numpy.allclose(a, b, rtol=1e-05, atol=1e…

python-answer 2023年3月25日
000
python自动生成model文件过程详解

Python自动生成Model文件过程详解在Python中，我们可以使用第三方库自动生成Model文件。自动生成Model文件可以帮助我们节省时间，并提高开发效率。本文将详细介绍自动生成Model文件的过程，并提供两个示例。自动生成Model文件的过程自动生成Model文件的过程通常包括以下几个步骤：安装第三方库：我们需要安装第三方库，例如sqlal…

python 2023年5月15日
000
详解Python 计算随机分布的概率

Python是一种常用的编程语言，可以使用它来计算随机分布的概率。计算随机分布的概率通常要用到Python中的统计库，例如NumPy和SciPy。下面是计算二项分布的概率的示例代码： import numpy as np import scipy.stats as stats # 设定二项分布的参数 n = 10 # 试验次数 p = 0.5 # 每次试验…

python-answer 2023年3月25日
000
Python多进程分块读取超大文件的方法

针对“Python多进程分块读取超大文件的方法”的问题，以下是完整攻略：问题背景在Python编程中，如果需要处理超大文件（比如上GB甚至更大）时，需要使用一些特殊的技术来防止内存占用过多，以及加快读取文件的速度。其中，使用多进程技术是一种较为常见的方法，可以同时利用多核CPU，以分块读取文件的方式来降低内存压力，实现对大文件的高效处理。解决方案下面…

python 2023年5月19日
001
Python实现排序方法常见的四种

下面是详细讲解“Python实现排序方法常见的四种”的完整攻略，包括算法原理、Python实现和两个示例。算法原理排序算法是计算机科学中的基本算法之一，其主要目的是将一组数据按照一定的规进行排序。常见的排序算法包括冒泡排序、选择排序、插入排序和快速排序。其中，冒泡排序和选择排序是比较简单的排序算法，插入排序和快速排序则是比较高效的排序算法。冒泡排序冒…

python 2023年5月14日
000
python数据清洗系列之字符串处理详解

Python数据清洗系列之字符串处理详解在数据分析的过程中，常常需要对原始数据进行数据清洗和预处理。其中，字符串处理是最常见的数据清洗操作之一。Python作为一种强大的编程语言，拥有丰富的字符串处理工具和函数，方便我们对数据进行清洗和处理。本文将详细讲解Python中字符串处理的常见操作，包括字符串的基本操作、字符串的切分和合并、字符串的匹配和替换，以及…

python 2023年6月3日
000
python爬虫 – js逆向之猿人学第十六题webpack，忽略obfuscator

前言好久没有写猿人学的分析了，今天来分析一波打开网址：同样的，也很轻易的拿到接口，然后这个接口里的请求参数又是迷人的m，m就是我们的目标了分析老规矩，搜索：搜一堆出来，感觉都不太靠谱那咋办？先看特征，看这个长度是多少的，卧槽，这个长度有点少见了点调用栈看看：看到这个就很可疑了 …

爬虫 2023年4月12日
000

合作推广

合作推广

返回顶部