爬虫
-
爬虫 ajax网页(Cobra)
http://lobobrowser.org/cobra.jsp有js逻辑的页面,对网络爬虫的信息抓取工作造成了很大障碍。DOM树,只有执行了js的逻辑才可以完整的呈现。而有的时候,有要对js修改后的 dom树进行解析。在搜寻了大量资料后,发现了一个开源的项目cobra。cobra支持JavaScript引擎,其内置的JavaScript引擎是 mozill…
-
C# 爬虫批量下载文件
public static void DownFile(string url, string path, string fileName) { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.UserAgent = “Mozilla/5.0 (Windows; …
-
爬虫 – 169tp图片
一、目标 爬取网址 https://www.169tp.com/gaogensiwa/ 前20页的美女图片 二、准备 通过pip安装第三方库 request、PyQuery、fake_useragent pip install request pip install PyQuery pip install fake_useragen…
-
(参考)爬虫5-爬取中国大学排名情况
最好大学网 2018大学排名 功能描述: 输入:大学排名url链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests库和bs4库 定向爬虫:仅对输入的URL进行爬取,不扩展爬取 步骤: 1、输入url网址,查看源代码,发现信息都在HTML文件中 2、打开http://www.zuihaodaxue.cn/robots.tx…
-
(参考)爬虫8-re库的match对象,贪婪匹配,最小匹配
import re match=re.search(r'[1-9]\d{5}’,’BIT100081′) if match: print(match.group(0)) #输出 100081 type(match)#输出 _sre.SRE_Match import re m=re.search(r'[1-9]\d{5}’,’BIT100081 VHT16…
-
【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
Jsoup爬虫入门实战 数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网页,以从中提取感兴趣的信息。 开始,一个简单获取京东商品的小Demo。 eg:比如我搜索java关键字 https://search.jd.com/Search?keywor…
-
python爬虫篇之 性能相关
一.背景 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:串行并不意味着低效,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高,之所以爬虫程序的串行低效,是因为爬虫程序是明显的IO密集型程序。 二.同步,异步,回调机…
-
python gevent 爬虫
”’ 协程 并发 爬网页 使用urllib 和 gevent 的时候,一般要添加一个人补丁monkey ”’ from urllib import request from gevent import monkey import gevent #把当前程序的所有 io 操作的做了标记 monkey.patch_all() def f(url): prin…
-
python爬虫:http请求头部(header)详解
本文根据RFC2616(HTTP/1.1规范),参考 http://www.w3.org/Protocols/rfc2068/rfc2068 http://www.w3.org/Protocols/rfc2616/rfc2616 http://www.ietf.org/rfc/rfc3229.txt 通常HTTP消息包括客户机向服务器的请求消息和服务器向客户…
-
Python 爬虫 (三) – Socket 网络编程
原文出处: Andrew_liu python的网络变成比c语言简单许多, 封装许多底层的实现细节, 方便程序员使用的同时, 也使程序员比较难了解一些底层的东西, 我觉得学网络编程还是用c语言更好一点. 写这篇博文, 也希望回顾并整理一下以前学过的c语言和linux下一些东西, 会将一些Linux网络编程的函数和Python网络变成函数做一个简单的对照…