爬虫的基本流程

2023年4月11日上午1:36 • 爬虫

爬虫的基本流程

爬虫的基本流程

1.发送请求
使用http库向目标站点发起请求，即发送一个Request
Request包含：请求头、请求体、路由等

2.获取响应内容
如果服务器能正常响应，则会得到一个Response
包含：html页面，json,图片


3.解析内容
解析html数据：正则表达式，第三方解析库如bs4
解析json数据：json模块
解析二进制数据：以b的方式写入文件

4.保存数据
数据库
文件

Request请求

1.请求方式
常用的请求方式：GET,POST
其他请求方式：HEAD,PUT,DELETE,OPTHONS

注意：post和get请求最终都会拼接成这种形式：k1=xxx&k2=yyy
post请求的参数放在请求体内： （参数可以放在data中传递）
    可用浏览器查看，存放于form data内
get请求的参数直接放在url后面 (把参数放在params中传递)

2.请求头
    User-agent:请求头中没有user-agent客户端配置，服务端可能将你作为一个非法用户
    host
    cookies:cookie用来保存登录信息

一般做爬虫都会带上请求头

3.请求体
    如果是get方式，请求体没有内容
    如果是post方式，请求体是form data，通过浏览器查看

注意：

1.登录窗口，文件上传等信息都会附加到请求体内

2.登录，输入错误的用户密码，然后提交，就可以看到post,正确登录后页面通常会跳转，无法捕捉到post

Request源码中显示的可以设置的参数

爬虫的基本流程

Response响应

1.响应状态码
    200：代表成功
    301：代表跳转
    404：文件不存在
    403：权限
    502：服务器错误

2.Response header
    set-cookie:可能有多个，是来告诉浏览器，把cookie保存下来

3、preview就是网页源代码
    最主要的部分，包含了请求资源的内容
    如网页html,图片
    二进制数据等

总结

1.总结爬虫流程：
    爬取--->解析--->存储

2.爬虫所需工具
    请求库：request,selenium
    解析库：正则，beautifulsoup,pyquery
    存储库：文件，MySQL，Mongodb,Redis

3.爬虫常用框架：scrapy

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫的基本流程 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫爬取汽车页面信息，并附带分析（静态爬虫）

上一篇 2023年4月11日

下一篇 2023年4月11日

爬虫

Socket爬虫：Python版

对于爬虫底层实现的学习笔记，requests，httpx等，都是基于该原理实现的，理解学习socket实现更好理解底层运行情况。简述：较为底层的爬虫实现，用于了解爬虫底层实现的具体流程，现在各种好用的爬虫库（如requests，httpx…等）都是基于此进行封装的。PS：本文只作为实现请求的代码记录，基础部分不做过多阐述。一、什么是socket 简称…

2023年4月8日
000
python3 爬虫4–解析链接

1.urlparse() 属于urllib.parse 在urlparse世界里面，一个标准的URL链接格式如下 scheme://nrtlooc/path;paramters?query#fragment 所以，一个url=’http://www.baidu.com/index.html;user?id=5#comment’ 我们使用urlparse的话，…

爬虫 2023年4月11日
000
python3爬虫初探（三）之正则表达式

　　前面已经写了如何获取网页源码，那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。　　首先，找个要抓取图片的网站，获取源码。 import requests import re # 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/’ data = requ…

爬虫 2023年4月10日
000
使用代理的爬虫

信息源是搜狗微信，就爬到的数据保存到MySQL中搜狗对微信公众号和文章做了整合，我们可以直接通过链接搜索到相关的公众号和文章例如搜索NBA，搜索的结果的URL中有很多无关的GET请求的参数，手动将无关的请求参数去掉，其中只保留type和query，其中type表示的是搜索微信文章，query表示搜索关键词为NBA https://weixin.…

爬虫 2023年4月16日
000
python 基于aiohttp的异步爬虫实战详解

Python基于aiohttp的异步爬虫实战详解攻略本文将介绍基于aiohttp实现简单的异步爬虫的步骤和方法，让您轻松掌握异步爬虫开发！安装aiohttp 首先，我们需要安装aiohttp库，执行以下命令： pip install aiohttp 简单的异步爬虫示例下面，我们将使用aiohttp实现简单的异步爬虫。要爬取的网址是https://www…

python 2023年5月14日
000
爬虫之BeautifulSoup

BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后便可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。 from bs4 import BeautifulSoup html_doc = “”” <html><head><title&g…

爬虫 2023年4月13日
000
使用Python的Scrapy框架编写web爬虫的简单示例

首先我们来介绍下Scrapy框架和web爬虫的概念。Scrapy是Python语言下的一个高级网络爬虫框架，用于快速、高效的定义可重用的爬取方法，从网站上收集数据。接下来我们来讲解下如何使用Scrapy框架编写web爬虫的简单示例。安装Scrapy框架首先，我们需要安装Scrapy框架。在命令行中输入以下命令： pip install scrapy 若…

python 2023年5月14日
000
Python爬虫包 BeautifulSoup 递归抓取实例详解

下面开始详细讲解“Python爬虫包 BeautifulSoup 递归抓取实例详解”。 1. 前言为了更好的理解本文内容，你需要有一定的 Python 编程基础和 HTML 基础。如果你还不了解，可以先去了解一下。在本文中，我们将使用 BeautifulSoup 这个 Python 爬虫包来实现递归抓取目标数据的功能。递归抓取的含义是：不断的按照某一规律…

python 2023年5月14日
000

合作推广

合作推广

返回顶部