爬虫学习1——request使用

爬虫

什么是爬虫:

- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

爬虫究竟是合法还是违法的?

  • 在法律中是不被禁止
  • 具有违法风险
  • 善意爬虫 恶意爬虫

爬虫带来的风险可以体现在如下2方面:
- 爬虫干扰了被访问网站的正常运营
- 爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?

- 时常的优化自己的程序,避免干扰被访问网站的正常运行
    - 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私
    商业机密等敏感内容需要及时停止爬取或传播
爬虫在使用场景中的分类
    - 通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
    - 聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
    - 增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

反爬机制:门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。

robots.txt协议: 君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

requests模块

1.什么是requests模块
    - python原生一个基于网络请求的模块,模拟浏览器发起请求。
- 2.为什么要使用requests模块
    - 1.自动处理url编码 
    - 2.自动处理post请求的参数
    - 3.简化cookie的代理的操作:
        cookie操作:
        - 创建一个cookiejar对象
        - 创建一个handler对象
        - 创建一个operner

        代理操作:
        - 创建handler对象,代理ip和端口封装到该对象
        - 创建openner对象
- 3.requests如何被使用
    - 安装:pip install  requests
    - 使用流程:
        - 1.指定url
        - 2.使用requests模块发起请求
        - 3.获取响应数据
        - 4.进行持久化存储
- 4.通过5个基于requests模块的爬虫项目对该模块进行系统学习和巩固
    - get请求
    - post请求
    - ajax的get
    - ajax的post
    - 综合

如何使用:(requests模块的编码流程)
- 指定url
- UA伪装
- 请求参数的处理
- 发起请求
- 获取响应数据
- 持久化存储

实战编码:
- 需求:爬取首页的页面数据

#指定url
url = "https://www.luffycity.com/"
#发起请求
#获取响应数据
res = requests.get(url = url)
data = res.text

image-20221230163129339

网页采集器

image-20230117130911876

动态搜索的话,我们需要自定义请求

#处理url携带的参数:封装到字典中
    kw = input('enter a word:')
    param = {
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
  res = requests.get(url=url, params=param) #带参数对指定url发起请求
    page_text = res.text
    print(page_text)

UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器

UA:User-Agent(请求载体的身份标识)

UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,

说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求

为不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求。

image-20230117131827557

这是正常浏览器所以使用的用户代理,将这个写到代码中就会伪装成浏览器请求

header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
        #这一步也可以通过抓包拦截获取
    }
    url = 'https://www.sogou.com/web?'
    kw = input()
    param ={
        "query" :kw
    }
    res = requests.get(url=url, params=param,headers=header) #带参数对指定url发起请求

破解百度翻译

image-20230117132650446

蓝色框是我们想要得到的东西。

当在搜索框中输入之后,服务器会通过ajax请求提交,所以我们可以去捕获XHR类型的请求

以输入regina为例,可以得到以下的数据包,一共是6个sug和其他文件。依次打开,我们会发现每输入一个字母

image-20230117133938906

浏览器就会提交一次ajax请求,所以我们可以找到最后一次提交的文件

Request URL: https://fanyi.baidu.com/sug
Request Method: POST
Status Code: 200 OK
Remote Address: 103.235.46.58:443
Referrer Policy: strict-origin-when-cross-origin
Content-Type: application/json
Date: Tue, 17 Jan 2023 05:38:54 GMT
FORM DATA:
kw:regina

数据是通过post请求提交,并且参数有一个我们要输入的东西,url如上所示

image-20230117134206035

#1.指定url
    post_url = 'https://fanyi.baidu.com/sug'
    #2.进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

    }
    #3.post请求参数处理(同get请求一致)
    word = input('enter a word:')
    data = {
        'kw':word
    }
    #4.请求发送
    response = requests.post(url=post_url,data=data,headers=headers)

我们看到响应数据是json类型,可以使用json方法来得到结果

#5.获取响应数据:json()方法返回的是obj(如果确认响应数据是json类型的,才可以使用json())
    dic_obj = response.json()
#持久化存储
    fileName = word+'.json'
    fp = open(fileName,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False) #中文无法ascii码编码

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:爬虫学习1——request使用 - Python技术站

(0)
上一篇 2023年3月31日 下午9:07
下一篇 2023年3月31日 下午9:07

相关文章

  • pandas数据清洗

    数据清洗 数据清洗是对一些没有用的数据进行处理的过程。 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,就需要对这些没有用的数据进行处理。 在这个教程中,我们将利用 Pandas包来进行数据清洗。 处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 为什么在数据分析中需要用到的是浮…

    2023年4月2日
    00
  • phpt文件内容解析

    phpt测试文件说明 phpt文件用于PHP的自动化测试,这是PHP用自己来测试自己的测试数据用例文件。 测试脚本通过执行PHP源码根目录下的run-tests.php,读取phpt文件执行测试。 phpt文件包含 TEST,FILE,EXPECT 等多个段落的文件。在各个段落中,TEST、FILE、EXPECT是基本的段落, 每个测试脚本都必须至少包括这三…

    PHP 2023年4月19日
    00
  • matplotlib画图基础知识

    matplotlib plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() import matplotlib.pyplot as …

    2023年4月2日
    00
  • linux使用php-ast方法

    php-ast php-cs-fixer PHP-CS-Fixer 是一个开源工具,它可以强制执行和检测违反 PHP 编码风格的行为。 使用预定义的规则,它可以使您拥有严格的编码风格,该风格由工具强制执行,因此您可以将时间花在更重要的事情上。 安装过程 在github上其实给出了很多种安装方式,我直接下载了php-cs-fixer.phar文件并将其存储在计…

    PHP 2023年4月17日
    00
  • django_响应对象

    Django_响应对象 响应对象 响应对象有三种形式: HttpResponse() render() Redirect() (1) HttpResponse() django服务器接收到客户端发来的请求之后,会将提交上来的数据封装成一个HttpResponse对象传给视图函数。视图函数在处理完相关逻辑之后,也需要一个返回响应给浏览器。而这个响应方式,我们必…

    2023年4月2日
    00
  • django的auth模块学习

    auth 1.我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统。此时我们需要实现包括用户注册、用户登录、用户认证、注销、修改密码等功能,这还真是个麻烦的事情呢。 2.Django作为一个完美主义者的终极框架,当然也会想到用户的这些痛点。它内置了强大的用户认证系统–auth,它默认使用 auth_user 表来存储用户数据。 Django默认已经…

    2023年4月2日
    00
  • linux下c语言的crypt函数怎么用?

    linux的crypt 最近学校布置了一个网安的小作业,要用到linux里面的这个crypt函数,写一篇总结一下。首先我们要了解这个函数是用来做什么的。 密码影子文件中存储了每一个用户的用户明文和其单向哈希过的秘文 cipher = “$1$C68vnJ27$1ttFZ1/Rylq/xi350A0NI0”; 密码字段用\(id\)salt$hashed的格式…

    Linux 2023年4月17日
    00
  • Django_request学习

    Django_request (1)请求方式 这里使用一个接口测试软件postman 可以看到里面有非常多的发起请求的方式,最常用的就是GET和POST请求,但是这些方法无法在网页的url里显示 在学习request参数之前,django框架中首先接到浏览器发来的请求第一站是经过框架自带的wsgi.py文件 “”” WSGI config for djang…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部