scrapy爬虫笔记(二)——交互式爬取

2023年4月11日上午2:24 • 爬虫

开始网页爬取：(1)交互式爬取

　　首先，我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”

　　如：scrapy shell “http://www.baidu.com”

　　（注意：此处一定要写清楚传输协议，否则将无法链接到对应网站，此例中为http://）

　　scrapy 会自动创建response对象，并自动将爬取下网页的源代码存入response.body中。

　　输入response.body 可看到其中的内容非常庞杂。

　　为了进一步析取网页，更精确地获取到所需要的信息，我们引入BeautifulSoup库

　　　　from bs4 import BeautifulSoup

　　　　soup = BeautifulSoup(response.body)

　　此时将response.body的内容通过BeautifulSoup的进一步解析，存入对象soup中，此时，soup已可以使用BeautifulSoup库中的方法。

　　如: print soup.find('a')打印出第一个<a>标签

　　　　print soup.findAll('p') 打印出所有的<p>标签

　　

　　这里只是简单举例，想要了解更多的BeautifulSoup方法请查看官方文档。

　　附：官方文档

　　　　BeautifulSoup　　http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

　　是不是很好玩呢～？

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：scrapy爬虫笔记(二)——交互式爬取 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

PYTHON 爬虫笔记七:Selenium库基础用法

上一篇 2023年4月11日

scrapy爬虫笔记(三)——写入源文件的爬取

下一篇 2023年4月11日

爬虫

python爬虫获取疫情信息并存入mysql数据库实践

上一次做了全国疫情统计可视化图表，这次尝试着能不能实现数据库里的更新操作，首先考虑的就是python爬虫，因为它易操作，并且python学习也是日后必须的。通过从网上查阅学习，代码如下： import requests from bs4 import BeautifulSoup import re import pymysql import…

2023年4月11日
000
Python异步爬虫（aiohttp版）

此仅为个人aiohttp学习笔记，记录分享学习经验，有写的不对的请指正。异步协程不太了解的话可以去看我上篇博客：https://www.cnblogs.com/Red-Sun/p/16934843.htmlPS：本博客是个人笔记分享，不需要扫码加群或必须关注什么的（如果外站需要加群或关注的可以直接去我主页查看）欢迎大家光临ヾ(≧▽≦*)o我的博客首页htt…

爬虫 2023年4月12日
000
Python爬虫进阶之Beautiful Soup库详解

Python爬虫进阶之Beautiful Soup库详解 Beautiful Soup是Python的一个HTML或XML的解析库，可以实现文档的解析、遍历和修改功能。相比其他解析库，Beautiful Soup具有简单、易学、灵活的特点。安装Beautiful Soup 可以使用以下命令安装Beautiful Soup库： pip install bea…

python 2023年5月14日
000
Python3—爬虫Post传参

前言 Python3 Post 传参主要用到的是urllib.request.urlopen(url,data)参数当中data。data参数主要是设置post的传参。修改时间：20191218 天象独行　　　　首先，在计划使用Post传参爬虫的时，我们需要确定几点：　　1；需要访问的URL。　　2；请求对象（使用urllib.request.Req…

爬虫 2023年4月11日
000
python爬虫工具例举说明

Python爬虫工具例举说明在网络数据采集与处理过程中，使用Python编写爬虫程序已成为日常工作的基本技能。Python提供了丰富的爬虫工具，结合各种库的使用，我们可以快速构建一个高效、稳定、易维护的数据采集系统。本文将介绍常用的Python爬虫工具及其使用方法。 Requests Requests是Python标准库的一个第三方包，用于发送HTTP请求…

python 2023年5月14日
000
Scrapy学习-15-降低被识别为爬虫的方法

3种常见的方法 1. 在settings中配置禁用cookies 1 COOKIES_ENABLED = False 2. scrapy限速处理，scrapy为我们提供了扩展模块，它能动态的限制下载速度 # http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/autothrottle.html # 在se…

爬虫 2023年4月13日
000
使用Requests库来进行爬虫的方式

使用Requests库是Python中最为常用的网络爬虫方式之一。这个库非常易用，支持HTTP/HTTPS/FTP协议的请求和响应处理，同时还能够自定义请求头、cookie等参数，方便地实现网站的爬取。下面是使用Requests库来进行爬虫的完整攻略：安装Requests库使用pip命令安装Requests库： pip install requests …

python 2023年5月14日
000
python-爬虫-selenium模块

一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium import webdriver browser=webd…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部