网络爬虫之爬取百度新闻链接

2023年4月11日上午4:42 • 爬虫

1.安装beauitfulsoup4  cmd-> pip install beautifulsoup4
python提供了一个支持处理网络链接的内置模块urllib,beatuifulsoup是用来解析html

网络爬虫之爬取百度新闻链接

验证安装是否成功

网络爬虫之爬取百度新闻链接

2. pycharm配置

网络爬虫之爬取百度新闻链接

网络爬虫之爬取百度新闻链接

3.代码如下

import urllib.request
from bs4 import BeautifulSoup
class Scraper:
    def __init__(self,site):
        self.site=site

    def scrape(self):
        r=urllib.request.urlopen(self.site)
        html=r.read()
        parser="html.parser"
        sp=BeautifulSoup(html,parser)
        for tag in sp.find_all("a"):
            url=tag.get("href")
            if url is None:
                continue
            if "html" in url:
                print("\n"+url)

news="http://news.baidu.com/"
Scraper(news).scrape()


4.运行结果就是获取了百度新闻的链接

网络爬虫之爬取百度新闻链接

5. 如何把获取的链接保存到文件里呢？

import urllib.request
from bs4 import BeautifulSoup


class Scraper:
    def __init__(self, site):
        self.site = site

    def scrape(self):
        response = urllib.request.urlopen(self.site)
        html = response.read()
        soup = BeautifulSoup(html, 'html.parser')
        with open("output.txt", "w") as f:
            for tag in soup.find_all('a'):
                url = tag.get('href')
                if url and 'html' in url:
                    print("\n" + url)
                    f.write(url + "\n")

Scraper('http://news.baidu.com/').scrape()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：网络爬虫之爬取百度新闻链接 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python爬虫之queue线程安全实战

上一篇 2023年4月11日

python爬虫必学标准模块——urllib和urllib3详解

下一篇 2023年4月11日

爬虫(五)：生产者消费者方法

1.不使用锁的话，可能会产生线程的竞争：当共享一个对象（变量或者一个方法）加锁的操作在threading模块中，定义两种类型的琐：threading.Lock和threading.RLock。它们之间有一点细微的区别，通过比较下面两段代码来说明：import threading lock = threading.Lock() #Lock对象 lock.…

爬虫 2023年4月11日
000
百度爬虫为什么这样没有轻重的爬呢？

网站昨天持续打开很慢，经过分析发现是百度爬虫频繁抓取导致，改了rorots.txt还是不起作用，后来业务同事催得急，急中生智在阿里云后台设置了安全组规则，用cidr一下解决问题。网段如下 123.125.71.74/24 220.181.108.139/24 111.206.198.46/16 可能会误伤一些用户的IP。虽然这样做，百度可能会将网…

爬虫 2023年4月11日
000
全网最全python库selenium自动化使用详细教程

全网最全Python库selenium自动化使用详细教程什么是selenium？ Selenium是一款自动化测试工具，支持多种浏览器，包括Chrome，Firefox，Safari等。通过Selenium，可以自动化测试网站的功能，包括单击、输入文本等常见的测试操作。Selenium通过WebDriver控制浏览器，并提供一系列API，方便用户进行自动化…

python 2023年5月14日
000
python Scrapy爬虫框架的使用

Python Scrapy爬虫框架的使用 Scrapy是一个用于爬取Web站点并从中提取数据的Python应用程序框架。本攻略将介绍使用Scrapy构建Python爬虫的基本步骤。安装Scrapy 在终端中使用以下命令安装Scrapy： pip install scrapy 构建爬虫以下示例将介绍如何使用Scrapy构建爬虫程序。该程序将从特定网站抓取…

python 2023年5月14日
000
python爬虫值requests模块

– 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候，会有诸多不便之处，总结如下：手动处理url编码手动处理…

爬虫 2023年4月13日
000
scrapy定制爬虫-爬取javascript——乾颐堂

很多网站都使用javascript…网页内容由js动态生成,一些js事件触发的页面内容变化,链接打开.甚至有些网站在没有js的情况下根本不工作,取而代之返回你一条类似”请打开浏览器js”之类的内容. 对javascript的支持有四种解决方案:1,写代码模拟相关js逻辑.2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类.3,使用一…

爬虫 2023年4月11日
000
使用Requests库来进行爬虫的方式

使用Requests库是Python中最为常用的网络爬虫方式之一。这个库非常易用，支持HTTP/HTTPS/FTP协议的请求和响应处理，同时还能够自定义请求头、cookie等参数，方便地实现网站的爬取。下面是使用Requests库来进行爬虫的完整攻略：安装Requests库使用pip命令安装Requests库： pip install requests …

python 2023年5月14日
000
Python字体反爬实战案例分享

接下来我会详细讲解“Python字体反爬实战案例分享”的攻略。标题前言在网络爬虫中，常常遇到字体反爬的问题。对于这种反爬，我们可以使用 Python 中的 FontTools 库来解决。步骤以下是该案例的详细步骤：首先，我们需要使用 requests 库来获取网页内容。代码示例如下： “`python import requests url =…

python 2023年5月14日
000

合作推广

合作推广

返回顶部