爬虫 Archives - Page 98 of 133

python爬虫中遇到的问题以及解决方法

（1）运行后报错：“TypeError: cannot use a string pattern on a bytes-like” 原因：content用decode(‘utf-8’)进行解码，由bytes变成string。py3的urlopen返回的不是string是bytes。解决方案：把’content’类型调整一下：content.decode(‘…

爬虫 2023年4月11日

000

爬虫笔记（十）——学会使用Fiddler

Fiddler是一个常见的抓包分析软件，同时我们可以利用它详细地对HTTP请求进行分析，并模拟对应的HTTP请求。为什么使用Fiddler软件？网络爬虫是自动爬取网页的程序，在爬取的过程中必然涉及客户端和服务器端之间的通信，自然也需要发送一些HTTP请求，并接收服务器返回的结果。在一些稍复杂的网络请求中，我们直接看网址变化是看不出规律的，此时如果要…

爬虫 2023年4月11日

000

爬虫笔记（二）——浏览器的模拟（Headers属性）

有的时候，我们无法爬取一些网页，会出现403错误，因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息，应该怎么办呢？可以设置一些Headers信息，模拟成浏览器去访问这些网站，此时，就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。 1.首先打开任意网页，按…

爬虫 2023年4月11日

000

爬虫笔记（十二）——浏览器伪装技术

为什么要进行浏览器伪装技术？有一些网站为了避免爬虫的恶意访问，会设置一些反爬虫机制，对方服务器会对爬虫进行屏蔽。常见的饭爬虫机制主要有下面几个： 1. 通过分析用户请求的Headers信息进行反爬虫 2. 通过检测用户行为进行反爬虫，比如通过判断同一个IP在短时间内是否频繁访问对应网站等进行分析 3. 通过动态页面增加爬虫的爬取难度，达到反爬虫的…

爬虫 2023年4月11日

000

爬虫笔记(十三)——lxml库的使用

HTML示例代码： text = ”’ <div> <ul> <li class=”item-0″><a href=”link1.html”>first item</a></li> <li class=”item-1″><a href=”link2.html”>…

爬虫 2023年4月11日

000

python爬虫伪装请求头—fake-useragent

在编写爬虫进行网页数据的时候，大多数情况下，需要在请求是增加请求头，下面介绍一个python下非常好用的伪装请求头的库：fake-useragent，具体使用说明如下：安装fake-useragent库 pip install fake-useragent 获取各浏览器的fake-useragent from fake_useragent import U…

爬虫 2023年4月11日

000

小白从零自学python爬虫之福彩3d实战

　　因为学校举办了一个大数据挖掘小比赛，我觉得这是一个入门python爬虫的机会，主动报名参加。在这之前自学不到半个月的python，看的是《python基础教程》这本书，也看了小甲鱼的视频，说实话入门看看他的视频真是不错，实战教程，浅显易懂。半个月大概学习了一些知识点，但不深入，也不牢固（学习了列表，元组，字典，字符串，循环，条件，函数）。就以这些前提下，…

爬虫 2023年4月11日

000

Python爬虫爬企查查数据

因为制作B2b网站需要，需要入库企业信息数据。所以目光锁定企查查数据，废话不多说，开干！ #-*- coding-8 -*- import requests import lxml import sys from bs4 import BeautifulSoup import xlwt import time import urllib de…

爬虫 2023年4月11日

001

记一次 excel vba 参考手册爬虫实战，不必要的一次爬虫。

目的：基于办公与互联网隔离，自带的office软件没有带本地帮助工具，因此在写vba程序时比较不方便(后来发现07有自带，心中吐血，瞎折腾些什么）。所以想到通过爬虫在官方摘录下来作为参考。目标网站：https://docs.microsoft.com/zh-cn/office/vba/api/overview/ 所使工具: python3.7,re…

爬虫 2023年4月11日

000

python + selenium 爬虫模拟登录破解无原图滑动验证码

爬虫模拟登录破解无原图滑动验证码： https://www.cnblogs.com/98WDJ/p/11050559.html 需求：部分网站在频繁的使用之后，会弹出滑块验证码（极验）。有别于过去，现在的原图并不会出现，因此较过去的思路转变为以下： 1、截取带缺口的图片； 2、寻找原图，并截图； 3、比较两张图片，寻找到缺口位置距离； 4、计算运动过程，并驱…

爬虫 2023年4月11日

000