爬虫 Archives - Page 86 of 133

爬虫day 04(通过登录去爬虫解决django的csrf_token)

#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { ‘Connection’: ‘Keep-Alive’, ‘Accept’: ‘text/html, application/xhtml+xml, */*’, ‘Acc…

爬虫 2023年4月11日

000

跟潭州学院的强子老师学习网络爬虫—爬取全书网

真是太白了，python之路还有很长，今天我从这里开始，留作自己备忘。2018-04-05 花了一个下午学习个爬小说的，总的来说是因为自己没什么基础，哪里不会补哪里，磕磕绊绊的，总算是能运行，先把代码放这里，以后请教高手帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : E…

爬虫 2023年4月11日

000

爬虫

爬虫（二）-制作自定义字体反爬

看到字体反爬自己做一遍 1.准备一个字体库，http://www.zhaozi.cn/html/fonts/china/benmo/2019-02-01/25085.html，命名成：bmyy.ttf 2.提取字符用到fonttools fonttools安装： pip install fonttools 使用方法： pyftsubset <字体文件&…

2023年4月11日

000

爬虫（五）-openlaw

地址：http://openlaw.cn/login.jsp 需要登陆，Form data 找到_csrf和password，_csrf，在登陆页面找加密password的js代码，ctrl+F搜索password，重新填入input 找到加密函数KeyEncrypt 找到JSEncrypt，CryptoJs 执行用execjs执行js或者用js…

爬虫 2023年4月11日

000

爬虫（七）-信用中国

刷新找到接口1 分析query需要encryStr和MmEwMD，实际只需要encryStr 搜索encryStr 找到接口2 分析参数可以看出encryStr是加密后的公司名称字符串，接口2通过加密的字符串获得黑名单信息，接口1通过明文字符串获得加密字符串 1.用接口1获取encryStr 2.用接口2输入encryStr获取黑名单信息

爬虫 2023年4月11日

000

爬虫（四）-大众点评，css+svg

地址：http://www.dianping.com/shop/9964442 好多字没了，替代的是<x class=”xxx”></x>这种css标签定位到位置找到文字 SVG svg可以写字，xy是相对svg标签的坐标，单位px textPath 用xlink:href标记文字路径，就是文字排列方向，文字按方…

爬虫 2023年4月11日

000

Python爬虫requests请求库

requests：pip install request 安装实例： import requestsurl = ‘http://www.baidu.com’response = requests.get(url=url)print(type(response)) #请求类型print(response.status_code) #网站响应状态码print…

爬虫 2023年4月11日

000

Python 爬虫十六式 – 第五式：BeautifulSoup-美味的汤

BeautifulSoup 美味的汤学习一时爽,一直学习一直爽！ Hello，大家好，我是Connor，一个从无到有的技术小白。上一次我们说到了 Xpath 的使用方法。Xpath 我觉得还是比较绕该怎么办呢？？？有没有更加简单易懂的方法呢？答案是肯定的，当然有更加简单易懂的方法了，那就是 BeautifulSoup 美味的汤。这个方法对于正则和 X…

爬虫 2023年4月11日

000

爬虫实战 —— 天气网合肥地区天气数据

抓取天气网中合肥地区11年到18年所有天气数据，并对输出的数据进行可视化。目标网址：http://lishi.tianqi.com/hefei/index.html 一抓取网站数据代码如下： import requests import re from bs4 import BeautifulSoup import time def get_re…

爬虫 2023年4月11日

000

网络爬虫爬取邮箱，并将其存入xml中作为数据库

package com.bjsxt.ly; import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.…

爬虫 2023年4月11日

000