爬虫
-
电子科技大学 易查分网站 爬虫 批量爬取成绩
暑假一个人在寝室,闲来无事。 某天,辅导员恰好发了学年查分的链接,一看,发现是易查分平台,再加上手头的数据,有搞头啊,遂开始设计爬虫。易查分这网站很怪,PC版需要输入验证码,手机版就不需要了。为了方便爬取,果断选择手机版。(本来还想训练个自动填充验证码的神经网络的,可难度有些大,有空了以后补上吧) 该爬虫使用selenium的webdriver技术实现。速度…
-
大规模爬虫流程总结 大规模爬虫流程总结
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不…
-
基于nodejs 的多页面爬虫
前言 前端时间再回顾了一下node.js,于是顺势做了一个爬虫来加深自己对node的理解。 主要用的到是request,cheerio,async三个模块 request 用于请求地址和快速下载图片流。 https://github.com/request/request cheerio 为服务器特别定制的,快速、灵活、实施的jQuery核心实现. 便于解析…
-
python的基础爬虫(利用requests和bs4)
1、将请求网上资源: 1 import requests 2 res=requests.get(‘http://*******’) 3 res.encoding=’utf-8′ 4 print(res.text) 这里面使用requests的get方法来获取html,具体是get还是post等等要通过网页头信息来查询: 比如百度的方法就是可以利用get得到。…
-
爬虫day 04(通过登录去爬虫 解决django的csrf_token)
#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { ‘Connection’: ‘Keep-Alive’, ‘Accept’: ‘text/html, application/xhtml+xml, */*’, ‘Acc…
-
跟潭州学院的强子老师学习网络爬虫—爬取全书网
真是太白了,python之路还有很长,今天我从这里开始,留作自己备忘。2018-04-05 花了一个下午学习个爬小说的,总的来说是因为自己没什么基础,哪里不会补哪里,磕磕绊绊的,总算是能运行,先把代码放这里,以后请教高手帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : E…
-
爬虫(二)-制作自定义字体反爬
看到字体反爬自己做一遍 1.准备一个字体库,http://www.zhaozi.cn/html/fonts/china/benmo/2019-02-01/25085.html,命名成:bmyy.ttf 2.提取字符用到fonttools fonttools安装: pip install fonttools 使用方法: pyftsubset <字体文件&…
-
爬虫(五)-openlaw
地址:http://openlaw.cn/login.jsp 需要登陆,Form data 找到_csrf和password,_csrf,在登陆页面 找加密password的js代码,ctrl+F搜索password,重新填入input 找到加密函数KeyEncrypt 找到JSEncrypt,CryptoJs 执行 用execjs执行js或者用js…
-
爬虫(七)-信用中国
刷新找到接口1 分析query需要encryStr和MmEwMD,实际只需要encryStr 搜索encryStr 找到接口2 分析参数 可以看出encryStr是加密后的公司名称字符串,接口2通过加密的字符串获得黑名单信息,接口1通过明文字符串获得加密字符串 1.用接口1获取encryStr 2.用接口2输入encryStr获取黑名单信息
-
爬虫(四)-大众点评,css+svg
地址:http://www.dianping.com/shop/9964442 好多字没了,替代的是<x class=”xxx”></x>这种css标签 定位到位置 找到文字 SVG svg可以写字,xy是相对svg标签的坐标,单位px textPath 用xlink:href标记文字路径,就是文字排列方向,文字按方…