爬虫必备—BeautifulSoup

2023年4月8日下午5:48 • 爬虫

BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后便可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。

 1 from bs4 import BeautifulSoup
 2  
 3 html_doc = """
 4 <html><head><title>The Dormouse's story</title></head>
 5 <body>
 6 asdf
 7     <div class="title">
 8         <b>The Dormouse's story总共</b>
 9         <h1>f</h1>
10     </div>
11 <div class="story">Once upon a time there were three little sisters; and their names were
12     <a  class="sister0" >Els<span>f</span>ie</a>,
13     <a href="http://example.com/lacie" class="sister" >Lacie</a> and
14     <a href="http://example.com/tillie" class="sister" >Tillie</a>;
15 and they lived at the bottom of a well.</div>
16 ad<br/>sf
17 <p class="story">...</p>
18 </body>
19 </html>
20 """
21  
22 soup = BeautifulSoup(html_doc, features="lxml")
23 # 找到第一个a标签
24 tag1 = soup.find(name='a')
25 # 找到所有的a标签
26 tag2 = soup.find_all(name='a')
27 # 找到id＝link2的标签
28 tag3 = soup.select('#link2')

简单示例

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫必备—BeautifulSoup - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫爬取大众点评并导入redis

上一篇 2023年4月8日

爬虫的cookie

下一篇 2023年4月8日

python爬虫学习——列表

namelist = [] #定义一个空的列表 namelist1 = [“小张”,”小红”,”小李”] print(namelist1[0]) print(namelist1[1]) print(namelist1[2]) testlist = [1,”测试”] #列表中存储混合类型 print(type(testlist[0])) print(type(…

爬虫 2023年4月8日
000
python-爬虫

概述 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说…

爬虫 2023年4月13日
000
Python爬取微信小程序通用方法代码实例详解

针对题目中提到的“Python爬取微信小程序通用方法代码实例详解”，我来给出一个完整的攻略。 1. 了解微信小程序及其数据接口要开始爬取微信小程序的数据，首先需要了解微信小程序自身的概念、特点，以及其数据接口的类型和规范。微信小程序是微信内的一种轻量级应用，它的数据接口分为两种类型：URL模式和js模式。前者是可以直接通过URL调用的标准HTTP接口，后…

python 2023年5月14日
000
python编写简单爬虫资料汇总

Python编写简单爬虫资料汇总什么是爬虫？网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定规则自动抓取万维网信息的程序或脚本。爬虫的原理获取网页内容解析网页内容保存目标数据 Python爬虫工具 Python是一种高级编程语言，可以使用多个库编写爬虫工具。以下是Python中最流行的爬虫工具： …

python 2023年5月14日
000
浅析Python3爬虫登录模拟

让我来详细讲解一下“浅析Python3爬虫登录模拟”这篇文章的完整攻略。本攻略主要分为以下几个部分： 1. 爬虫登录的基本原理在爬虫爬取一些需要登录的网站时，我们需要模拟登录来获得登录后才能访问的网页以及其他数据。爬虫登录的基本原理就是通过发送HTTP请求模拟登录网站，记录下登录后的cookie，并在后续的请求中携带这个cookie来模拟登录状态，从而爬取…

python 2023年5月14日
001
Python网络爬虫之Web网页基础

Python网络爬虫之Web网页基础 Python网络爬虫是一种获取互联网信息的技术，目的是从Web网页中获取数据。Web网页作为能够展示信息的载体，是爬虫爬取数据的主要目标对象。本文将向读者介绍Python网络爬虫之Web网页基础。 Web网页基础 Web网页是HTML文档，它是由标记文本、标记标签以及一些超链接组成的。HTML文档的基本语法如下： &lt…

python 2023年5月14日
000
python 3.4 爬虫，伪装浏览器（403 Forbidden）

在使用python抓取网页图片的时候，偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候，就需要在请求中加入header信息，伪装成浏览器。如果你使用的是python3.4版本，那么如果你想在网上找到在请求中加入header的方法，估计要费些周折。经过一番实验，确定下面的代码是可以的。 ”’ Created on 20…

爬虫 2023年4月11日
000
Scrapy爬虫实例讲解_校花网

下面我就来详细讲解“Scrapy爬虫实例讲解_校花网”这篇文章的完整攻略。 Scrapy爬虫实例讲解_校花网简介本文将介绍如何使用Scrapy框架爬取校花网中的图片，并将图片下载到本地。校花网是一个美女图片站，提供了大量美女图片资源，但是在该网站中下载图片并不方便，因此可以使用Scrapy框架来实现自动化爬取。进入校花网首先，我们需要进入校花网（ht…

python 2023年5月14日
000

合作推广

合作推广

返回顶部