爬虫
-
爬虫 spider
python 2.x # -*- coding: utf-8 -*-import reimport urlliburl = ‘http://tieba.baidu.com/p/4872795764’page = urllib.urlopen(url)html = page.read()r = ‘src=”(.*?\.jpg)” size’ # 注意此处?的作…
-
用python写爬虫笔记(一)
https://bitbucket.org/wswp/code http://example.webscraping.com http://www.w3schools.com selenium.googlecode.com/git/docs/api/py/index.html 什么是XPath:http://www.w3.org/TR/xpath/ XP…
-
python爬虫之xpath的基本使用
一、简介 Xpath是一门在XML文档中查找信息的语言。Xpath可用来在XML文档中对元素和属性进行遍历。Xpath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。 二、安装 pip3 install lxml 三、XPath语法 节点关系 (1)父(Parent) 每个元素以及属性都有一个父。 …
-
python爬虫 – Urllib库及cookie的使用
lz提示一点,python3中urllib包括了py2中的urllib+urllib2。[python2和python3的区别、转换及共存 – urllib] 怎样扒网页? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。 如果把网页比作一个人,…
-
Python3爬虫(3)_urllib.error
注:参照https://blog.csdn.net/c406495762/article/details/59488464 urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法,URLError和HTTPError。如下图所示: URLError是OSError的一个子类,HTTPError是…
-
Python3爬虫(2)_利用urllib.urlopen发送数据获得反馈信息
一、urlopen的url参数 Agent url不仅可以是一个字符串,例如:https://baike.baidu.com/。url也可以是一个Request对象,这就需要我们先定义一个Request对象,然后将这个Request对象作为urlopen的参数使用, 代码: 1 from urllib import request 2 3 if __nam…
-
网络爬虫(4)–正则表达式
正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取,正则表达式能够极大的简化我们对信息的筛选过程。 对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html 我们以对一个邮箱的正则匹配为例,介绍正则表达式的应用。 一个邮箱地址可…
-
网络爬虫(3)–Beautiful页面解析
前面2节中对页面内容的访问都是直接通过标签访问的,这样虽然也可以达到解析页面内容的目的,但是在网页复杂,页面结构发生变化时,爬虫就失效了。为了使爬虫能够更加鲁棒的工作,我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法: findAll(tag, attribute, recursive, …
-
网络爬虫(5)–小实战
到目前为止,我们学习了如何访问远程网站,如何解析页面内容,是时候开始应用一下了。在这里,我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例,这个网站会告诉我们爬虫应该向哪里链接,直到爬到通过为止。 首先我们需要查看网页的源代码,确定我们需要的信息在哪里。通过查看源代码,我们可以…
-
网络爬虫(2)–异常处理
上一节中对网络爬虫的学习的准备工作作了简要的介绍,并以一个简单的网页爬取为例子。但网络是十分复杂的,对网站的访问并不一定都会成功,因此需要对爬取过程中的异常情况进行处理,否则爬虫在遇到异常情况时就会发生错误停止运行。 让我们看看urlopen中可能出现的异常: html = urlopen(“http://www.heibanke.com/lesson/cr…