Python爬虫框架Scrapy实例代码

下面我就为您介绍Python爬虫框架Scrapy实例代码的完整攻略，内容涵盖以下几个方面：

Scrapy框架及其核心组件的介绍
Scrapy爬虫的构建流程
Scrapy爬虫示例代码及其说明

1. Scrapy框架及其核心组件的介绍

Scrapy是一款Python爬虫框架，主要用于从网站中提取结构化数据，并将其保存到本地或数据库中。其核心组件包括：

Spiders：定义如何提取网页中的信息，以及如何跟踪链接。
Items：定义爬取到的数据结构。
Pipelines：定义数据的存储方式，包括数据清洗、验证、修改等操作。
Settings：用于全局配置Scrapy的参数，如爬取延迟、User-agent等。

除了这些核心组件，Scrapy还提供了强大的中间件，用于处理一些通用的功能，如User-agent和cookie的管理、HTTP代理的使用等。同时，Scrapy也支持多种存储方式，如CSV、JSON和MySQL等。

2. Scrapy爬虫的构建流程

构建一个Scrapy爬虫的流程可以概括为以下几个步骤：

创建一个Scrapy项目。
创建一个Spider。
定义Item。
编写Pipeline。
配置Settings。

3. Scrapy爬虫示例代码及其说明

下面通过两个示例代码来详细说明Scrapy的使用：

示例1：爬取豆瓣电影Top250

创建一个Scrapy项目

在命令行中输入以下命令，创建一个名为douban的Scrapy项目：

scrapy startproject douban

创建Spider

在douban/spiders目录下创建一个名为douban_spider.py的文件，内容如下：

# 导入Scrapy库
import scrapy

# 定义Spider类
class DouBanSpider(scrapy.Spider):
    # 定义Spider的名称
    name = 'douban'
    # 定义Spider爬取的起始链接
    start_urls=['https://movie.douban.com/top250']

    # 定义解析函数
    def parse(self, response):
        # 获取电影信息的所有节点
        movie_items = response.xpath('//div[@class="hd"]')
        for item in movie_items:
            # 抽取电影名称
            title = item.xpath('a/span[@class="title"]/text()').extract_first()
            # 输出结果
            yield {'title': title}

定义Item

在douban/items.py中定义Item：

import scrapy

class DoubanItem(scrapy.Item):
    title = scrapy.Field()

编写Pipeline

在douban/pipelines.py中编写Pipeline，将数据保存到本地：

import json

class DoubanPipeline(object):
    def __init__(self):
        self.file = open('douban_top250.json', 'w')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + '\n'
        self.file.write(line)
        return item

配置Settings

在douban/settings.py中配置如下参数：

ITEM_PIPELINES = {
    'douban.pipelines.DoubanPipeline': 300,
}

运行Spider

在终端中输入以下命令运行Spider：

scrapy crawl douban

示例2：爬取CSDN博客的标题和链接

创建一个Scrapy项目

在命令行中输入以下命令，创建一个名为csdn的Scrapy项目：

scrapy startproject csdn

创建Spider

在csdn/spiders目录下创建一个名为csdn_spider.py的文件，内容如下：

# 导入Scrapy库
import scrapy

# 定义Spider类
class CsdnSpider(scrapy.Spider):
    # 定义Spider的名称
    name = 'csdn'
    # 定义Spider爬取的起始链接
    start_urls=['https://blog.csdn.net/']

    # 定义解析函数
    def parse(self, response):
        # 获取所有博客信息的节点
        blog_items = response.xpath('//div[@class="article-list"]/div[@class="article-item-box csdn-tracking-statistics"]')
        for item in blog_items:
            # 抽取标题
            title = item.xpath('h4/a/@title').extract_first()
            # 抽取链接
            href = item.xpath('h4/a/@href').extract_first()
            # 将结果输出
            yield {'title': title, 'href': href}

定义Item

在csdn/items.py中定义Item：

import scrapy

class CsdnItem(scrapy.Item):
    title = scrapy.Field()
    href = scrapy.Field()

编写Pipeline

在csdn/pipelines.py中编写Pipeline，将数据保存到本地：

import json

class CsdnPipeline(object):
    def __init__(self):
        self.file = open('csdn_blog.json', 'w')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + '\n'
        self.file.write(line)
        return item

配置Settings

在csdn/settings.py中配置如下参数：

ITEM_PIPELINES = {
    'csdn.pipelines.CsdnPipeline': 300,
}

运行Spider