爬虫5:Beautiful Soup的css选择器

2023年4月11日上午1:05 • 爬虫

学习于：http://cuiqingcai.com/1319.html

用到的方法是 soup.select()，返回类型是 list，用 get_text() 方法来获取它的内容

（1）通过标签名查找

print soup.select('title') 

print soup.select('a')

print soup.select('b')

（2）通过类名查找

print soup.select('.sister')

（3）通过 id 名查找

print soup.select('#link1')

（4）组合查找

#查找 p 标签中，id 等于 link1的内容

print soup.select('p #link1')

#直接子标签查找

print soup.select("head > title")

（5）属性查找

#class=“sister”的a标签

print soup.select('a[class="sister"]')

print soup.select('p a[href="http://example.com/elsie"]')

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫5:Beautiful Soup的css选择器 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

爬虫9:Scrapy-获取steam网站前50页游戏的url

上一篇 2023年4月11日

python 爬虫基本库使用urllib之urlopen(一)

下一篇 2023年4月11日

爬虫基础知识及requests常用方法总结

一、浏览器Disable cache 和 Preserve log的作用 . . 二、复制url乱码情况 from urllib.parse import urlencode . 三、requests请求 res=resquests.get(url) print(res) #得到的是对象 print(res.text) #文本 print(res.conte…

爬虫 2023年4月10日
000
Python基于爬虫实现全网搜索并下载音乐

Python基于爬虫实现全网搜索并下载音乐说明本文档将介绍如何基于 Python 爬虫技术实现全网音乐的搜索和下载，包括以下步骤：确定音乐搜索目标网站使用 requests 库模拟请求获取页面信息使用 BeautifulSoup 库解析页面HTML 使用正则表达式提取音乐链接和名称使用 urllib 库下载音乐文件 1. 确定音乐搜索目标网站在…

python 2023年5月14日
001
Python爬虫入门

一. from urllib import requestres=request.urlopen(‘https://www.douban.com’)data = res.read()print(data.decode(‘utf-8’))通过以上代码可以获取到豆瓣网页源码。1.urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功…

爬虫 2023年4月13日
000
爬虫

二十八 Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

cookie禁用就是在Scrapy的配置文件settings.py里禁用掉cookie禁用，可以防止被通过cookie禁用识别到是爬虫，注意，只适用于不需要登录的网页，cookie禁用后是无法登录的 settings.py里禁用掉cookie禁用 COOKIES_ENABLED = False 禁用cookie # Disable cookies (ena…

2023年4月13日
000
一文掌握Python爬虫XPath语法

一文掌握Python爬虫XPath语法攻略什么是XPath XPath是一种用于在XML和HTML文档中进行导航和查找信息的语言。XPath的语法相对简洁明了，可以将多个条件组合起来进行查询，是爬虫中常用的解析技术之一。 XPath语法结构 XPath通过路径表达式来选取XML或HTML文档中的节点或元素。选取节点在XPath中，节点可以通过路径表达式…

python 2023年5月14日
000
爬虫

正则解析提速方案_爬虫

前言在爬爬爬的时候，有些网页的数据并不存在于html中，它们常出现在scrip标签或js文件里面，所有这时候使用xpath就有些不尽人意了。但是，我们可以直接使用re对script的内容进行提取，然后再转json格式，再通过字典索引的方法对数据逐个提取。但是，面对近百万字符的文本，正则的运行速度堪忧。使用re提取js文件的内容: 耗时：主要思路把获取到…

2023年4月8日
000
Python爬取网页信息的示例

让我为您详细讲解一下Python爬取网页信息的攻略：爬取网页信息的步骤第一步：确定目标网页的访问方式在进行爬取网页信息之前，我们首先需要明确目标网页的访问方式。通常，我们可以使用Python中的requests模块对网页进行访问，获取网页内容。第二步：获取网页内容通过requests模块可以快速地获取网页内容，示例如下： import reques…

python 2023年5月14日
000
爬虫获取邮箱，存入数据库，发送邮件java Mail

在网页上获取邮箱： package com.my.test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; import java.sql.Statement; i…

爬虫 2023年4月11日
000

合作推广

返回顶部

爬虫5:Beautiful Soup的css选择器

（1）通过标签名查找

（2）通过类名查找

（4）组合查找

（5）属性查找

相关文章