开始网页爬取:(1)交互式爬取

  首先,我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”

  如scrapy shell “http://www.baidu.com”

  (注意:此处一定要写清楚传输协议,否则将无法链接到对应网站此例中为http://)

  scrapy 自动创建response对象,并自动将爬取下网页的源代码存入response.body

  输入response.body 可看到其中的内容非常庞杂。

 

  为了进一步析取网页,更精确地获取到所需要的信息我们引入BeautifulSoup

    from bs4 import BeautifulSoup

    soup = BeautifulSoup(response.body)

  此时将response.body的内容通过BeautifulSoup的进一步解析,存入对象soup,此时,soup已可以使用BeautifulSoup库中的方法。

  如:   print soup.find('a')打印出第一个<a>标签

    print soup.findAll('p') 打印出所有的<p>标签

  

  这里只是简单举例,想要了解更多的BeautifulSoup方法请查看官方文档。

  附:官方文档

     BeautifulSoup  http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 

 

  是不是很好玩呢~?