爬虫 Archives - Page 45 of 92

电子科技大学易查分网站爬虫批量爬取成绩

暑假一个人在寝室，闲来无事。某天，辅导员恰好发了学年查分的链接，一看，发现是易查分平台，再加上手头的数据，有搞头啊，遂开始设计爬虫。易查分这网站很怪，PC版需要输入验证码，手机版就不需要了。为了方便爬取，果断选择手机版。(本来还想训练个自动填充验证码的神经网络的，可难度有些大，有空了以后补上吧) 该爬虫使用selenium的webdriver技术实现。速度…

爬虫 2023年4月11日

000

大规模爬虫流程总结大规模爬虫流程总结

爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不是1*n这么简单，还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有API API是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不…

爬虫 2023年4月11日

000

基于nodejs 的多页面爬虫

前言前端时间再回顾了一下node.js，于是顺势做了一个爬虫来加深自己对node的理解。主要用的到是request，cheerio，async三个模块 request 用于请求地址和快速下载图片流。 https://github.com/request/request cheerio 为服务器特别定制的，快速、灵活、实施的jQuery核心实现. 便于解析…

爬虫 2023年4月11日

000

python的基础爬虫（利用requests和bs4）

1、将请求网上资源： 1 import requests 2 res=requests.get(‘http://*******’) 3 res.encoding=’utf-8′ 4 print(res.text) 这里面使用requests的get方法来获取html，具体是get还是post等等要通过网页头信息来查询：比如百度的方法就是可以利用get得到。…

爬虫 2023年4月11日

000

爬虫day 04(通过登录去爬虫解决django的csrf_token)

#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { ‘Connection’: ‘Keep-Alive’, ‘Accept’: ‘text/html, application/xhtml+xml, */*’, ‘Acc…

爬虫 2023年4月11日

000

跟潭州学院的强子老师学习网络爬虫—爬取全书网

真是太白了，python之路还有很长，今天我从这里开始，留作自己备忘。2018-04-05 花了一个下午学习个爬小说的，总的来说是因为自己没什么基础，哪里不会补哪里，磕磕绊绊的，总算是能运行，先把代码放这里，以后请教高手帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : E…

爬虫 2023年4月11日

000

爬虫

爬虫（二）-制作自定义字体反爬

看到字体反爬自己做一遍 1.准备一个字体库，http://www.zhaozi.cn/html/fonts/china/benmo/2019-02-01/25085.html，命名成：bmyy.ttf 2.提取字符用到fonttools fonttools安装： pip install fonttools 使用方法： pyftsubset <字体文件&…

2023年4月11日

000

爬虫（五）-openlaw

地址：http://openlaw.cn/login.jsp 需要登陆，Form data 找到_csrf和password，_csrf，在登陆页面找加密password的js代码，ctrl+F搜索password，重新填入input 找到加密函数KeyEncrypt 找到JSEncrypt，CryptoJs 执行用execjs执行js或者用js…

爬虫 2023年4月11日

000

爬虫（七）-信用中国

刷新找到接口1 分析query需要encryStr和MmEwMD，实际只需要encryStr 搜索encryStr 找到接口2 分析参数可以看出encryStr是加密后的公司名称字符串，接口2通过加密的字符串获得黑名单信息，接口1通过明文字符串获得加密字符串 1.用接口1获取encryStr 2.用接口2输入encryStr获取黑名单信息

爬虫 2023年4月11日

000

爬虫（四）-大众点评，css+svg

地址：http://www.dianping.com/shop/9964442 好多字没了，替代的是<x class=”xxx”></x>这种css标签定位到位置找到文字 SVG svg可以写字，xy是相对svg标签的坐标，单位px textPath 用xlink:href标记文字路径，就是文字排列方向，文字按方…

爬虫 2023年4月11日

000