爬虫
-
Python爬虫学习笔记(一)
1.urllib2简介 urllib2的是爬取URL(统一资源定位器)的Python模块。它提供了一个非常简单的接口,使用urlopen函数。它能够使用多种不同的协议来爬取URL。它还提供了一个稍微复杂的接口,用于处理常见的情况 – 如基本身份验证,cookies,代理等。 2.抓取URLs 使用urlib2的简单方式可以像下面一样: import urll…
-
(转)Python爬虫学习笔记(2):Python正则表达式指南
以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于…
-
爬虫实践——数据存储到Excel中
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识。 如何解决这个问题,我选择先百度查找如何解决这个问题。 百度查到的方法千万种,我先选择看得懂的文章下手,不断尝试,最后解决了问题 那么到底如何解决这个问题呢? 解决这个问题要用到三个模块分别是xlwt、xlrd和xlutils …
-
8 爬取EOS whales网站出现的ssl验证问题以及无法建立websocket握手问题(北京大学出版社的《python 爬虫与反爬虫开发》书中错误)
案例来源于北京大学出版社的《python 爬虫与反爬虫开发》 1.对于ssl验证问题的解决 采取firefox打开eos whales,点击小锁标志,查看证书,下载pem证书,然后利用openssl命令将pem证书转变为cer证书,并安装到本机中,之后使用AIOwebsocket的方法,就不会报出ssl验证失败的问题。 因为在Aiowebsocket的查询证…
-
用C#实现蜘蛛/爬虫程序的多线程控制
【引自Felomeng的博客】在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的: 1.分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行的。也…
-
优酷评论爬虫+词云图
最近在优酷看了杨洋和zs主演的某部青春爱情电视剧。所以想到观察一下它的评论,同时学习一下Python文本处理的基础知识。 首先第一部分就是获取评论数据。 import json import requests import pickle url = ‘https://p.comments.youku.com/ycp/comment/pc/commentLis…
-
python爬虫概述
网络爬虫的概念:模拟客户端(主要指浏览器),发送网络请求,获取网络响应数据的自动化程序。 爬虫的应用场景: 数据采集 通过python爬虫爬取微博事件评论,进行舆情分析;通过爬取互联网岗位信息,进行行业分析;天气预报等数据采集 软件测试 使用selenium进行软件测试 短信轰炸、12306买票等 http协议与https协议 http协议,超文…
-
网上遇到的两个php写的爬虫程序,感觉不错,收集进来,一块瞅瞅
网上遇到的两个php写的爬虫程序,感觉不错,收集进来,一块瞅瞅:sphider:(http://www.sphider.eu/)Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow li…
-
【python爬虫】用python编写LOL战绩查询
介绍一个简单的python爬虫,通过Tkinter创建一个客户端,当输入要查询的LOL用户名称的时候,可以显示出当前用户的所在服务器,当前战力和当前段位。 爬取网页地址:http://lol.duowan.com/zdl/ python版本:2.7 需要用到的模块:Tkinter urllib2 json sys 实例代码: import url…
-
爬虫必备—性能相关(异步非阻塞)
在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。 1. 同步执行 1 import requests 2 3 def fetch_async(url): 4 response = requests.get(url) 5 return response 6 7 8 url_list = [‘htt…