爬虫遇到取到网页为reload的问题

2023年4月11日下午11:07 • 爬虫

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码：

<html>
   <head>
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
   </head>
   <body>
      <iframe height="0" width="0" style="border: 0px;" src="http://www.***.cn/***/***_cookie.html"></iframe>
      <script type="text/javascript">
setTimeout(function(){
         this.window.location.reload();
                }, 1000);
</script></body>
</html>

这样你就取不到他的网页内容了，但是浏览器可以正常显示

这时候你需要在爬虫的时候添加cookie，比较直接的就是静态的添加上浏览器访问时的cookie，也可以根据他的地址动态取（我没有试过动态取）

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫遇到取到网页为reload的问题 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

【自用】爬虫配置XML时拼接URL中文转Unicode问题（例如北京转成%u5317%u4EAC）

上一篇 2023年4月11日

爬虫（14） – Scrapy-Redis分布式爬虫(1) | 详解

下一篇 2023年4月11日

爬虫测试webmagic (一)

目标：统计斗鱼(www.douyu.com)人数思路： 1. 目录找到douyu播出的所有游戏 http://www.douyutv.com/directory 2. 借助 chrome 定位到每个游戏的目录页面，正则表达式为 /directory/game/\\w+ 　比如对于LOL来说，找到 href=/directory/game/LOL 3. 进…

爬虫 2023年4月13日
000
python网络爬虫实战

Python网络爬虫实战攻略 Python网络爬虫可以帮助我们自动化地从互联网上获取需要的信息，有非常广泛的应用。本攻略基于Python语言，介绍了如何使用Python进行网络爬虫开发，包括爬虫基础知识、网络协议、URL解析、网页解析和数据持久化等内容。爬虫基础知识在进行网络爬虫开发前，我们需要掌握一些爬虫基础知识，包括：网络协议：HTTP、HTTPS…

python 2023年5月14日
000
java微博爬虫

微博爬取要做到每日百万级的数据量，需要解决很多问题。 1.springboot自带@Scheduled注解是一个轻量级的quartz，可以完成定时任务。只需要在运行方法上加一个@Scheduled注解即可。该注解有许多属性值 initiaDelay 从程序开始延长一定时间后首次执行。 fixedRate 首次后，该方法固定执行间隔。 cron 定时表…

爬虫 2023年4月11日
000
python爬虫 – js逆向之猿人学第十九题突破ja3指纹验证

前言废话不多说，直接干，再来猿人学19题分析看了下，没有加密参数：然后拿着接口直接请求：有结果的，不会吧，这么简单？没有加密参数？这次这么草率？用代码访问，唉，卧槽，就是他妈的不行，果然有猫腻换requests: 确实不行，用postman看看，可以的这他妈就很秀啊，上一次这种感觉还是h…

爬虫 2023年4月12日
000
python爬虫之BeautifulSoup

# -*- coding: UTF-8 -*- import re from bs4 import BeautifulSoup import requests import codecs import sys reload(sys) sys.setdefaultencoding(‘utf8’) def mei_url(): url = ‘http://mdl…

爬虫 2023年4月13日
000
python爬虫爬取腾讯招聘信息（静态爬虫）

环境： windows7，python3.4 代码：（亲测可正常执行） 1 import requests 2 from bs4 import BeautifulSoup 3 from math import ceil 4 5 header = { 6 ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) …

爬虫 2023年4月11日
000
Python新手爬虫一：爬取影片名称评分等

豆瓣网站：https://movie.douban.com/chart 先上最后的代码： from bs4 import BeautifulSoup from lxml import html import xml import requests from fake_useragent import UserAgent #ua库 import xlwt …

爬虫 2023年4月10日
000
爬虫

python爬虫基础教程

爬虫介绍爬虫就是程序,是从互联网中,各个网站上爬取数据(能浏览到的网页才可以爬),做数据清洗,入库爬虫本质: 模拟http请求,获取数据,入库网站/app > 抓包我们日常使用的baidu其实就是一个大爬虫,一刻不停的在互联网中爬取各个页面爬取完后保存到自己的数据库中你在百度搜索框中搜索百度去自己的数据库查询关键字返回回来 SEO 汉译为搜索引…

2023年4月8日
000

合作推广

返回顶部

爬虫遇到取到网页为reload的问题

相关文章