scrapy爬虫简单入门

2023年4月16日下午8:55 • 爬虫

1. 使用cmd+R命令进入命令行窗口，并进入你需要创建项目的目录

cd 项目地址

2. 创建项目

scrapy startproject <项目名>
cd <项目名>

例如

scrapy startproject quote
cd quote

3. 编写item.py文件（定义需要爬取的文件）

import scrapy
class QuoteItem(scrapy.Item):
    # define the fields for your item here like:
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

4. 创建爬虫文件

scrapy genspider <爬虫文件名> <域名>

例如

scrapy genspider myspider quotes.toscrape.com

5. 编写myspider.py文件

import scrapy
from quote.items import QuoteItem

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']
 
    def parse(self, response):
        for each in response.xpath('//div[@class="quote"]'):
            item = QuoteItem()
            item['text'] = each.xpath('./span/text()').extract()[0]
            item['author'] = each.xpath('.//small/text()').extract()[0]
            list = each.xpath('.//a[@class="tag"]/text()').extract()
            #列表形式的文件不能存入mysql,需要弄成str形式
            item['tags']= '/'.join(list)
            yield item
 
        next = response.xpath('//li[@class="next"]/a/@href').extract()[0]
        url = response.urljoin(next)
        yield scrapy.Request(url=url,callback=self.parse)

6. 编写pipelines.py（如果需要存入到数据库）

import pymysql.cursors
 
class QuotePipeline(object):
    def __init__(self):
        self.connect = pymysql.connect(
            host='localhost',
            user='root',
            password='',
            database='quotes',
            charset='utf8',
        )
        self.cursor = self.connect.cursor()
         
    def process_item(self, item, spider):
        item = dict(item)
        sql = 'insert into quote(text,author,tags) values(%s,%s,%s)'
        self.cursor.execute(sql,(item['text'],item['author'],item['tags']))
        self.connect.commit()
        return item
     
    def close_spider(self,spider):
        self.cursor.close()
        self.connect.close()

7. 修改setting.py文件

ROBOTSTXT_OBEY = True

8. 运行

scrapy crawl myspider

9. 保存为csv文件

scrapy crawl quotes –o quotes.csv

参考资料

https://www.cnblogs.com/shuimohei/p/10491833.html
https://blog.csdn.net/ck784101777/article/details/104468780/

阅读剩余 55%

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：scrapy爬虫简单入门 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python网络爬虫之三种数据解析方式

上一篇 2023年4月16日

猫眼100 爬虫

下一篇 2023年4月16日

python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题

爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据或者数据少问题。那为什么会造成这种结果呢？其原因是由于Spider的速率比较快，而scapy操作数据库操作比较慢，导致pipeline中的方法调用较慢，这样当一个变量正在处理的时候，一个新的变量过来，之前的变量的值就会被覆盖。就比如pipline的速率是1TPS，而spider的速率是5T…

爬虫 2023年4月11日
000
Python爬虫总结

基本的读取 import urllib2http=urllib2.urlopen(“http://xxxxx”).read().decode(‘utf-8’)使用代理import urllib2proxy=urllib2.ProxyHandler({‘http’:’http://xxxxxx:xxxx’})opener=urllib2.build_opene…

爬虫 2023年4月13日
000
爬虫 http原理,梨视频,github登陆实例,requests请求参数小总结

回顾:http协议基于请求响应的方式，请求：请求首行请求头{‘keys’:vales} 请求体；响应:响应首行，响应头{‘keys’:’vales’}，响应体。 import socket sock=socket.socket() sock.bind((“127.0.0.1”,8808)) sock.listen(5) while 1: print(“s…

爬虫 2023年4月12日
000
python编程实现12306的一个小爬虫实例

Python编程实现12306的一个小爬虫实例爬虫实例介绍本爬虫实例主要是用Python编写的，通过模拟用户登录和查询车票的方式来获取查询结果。在本实例中，我们将使用requests库和正则表达式来进行实现，最终可以输出符合条件的车票信息。实现步骤步骤一：模拟登录首先，我们需要模拟用户登录。通过F12或其他抓包工具，可以查看12306网站登录时提交…

python 2023年5月14日
000
python-爬虫

概述 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说…

爬虫 2023年4月13日
000
我的第一个python爬虫程序

程序用来爬取糗事百科上的图片的，程序设有超时功能，具有异常处理能力下面直接上源码： #-*-coding:utf-8-*- ”’ Created on 2016年10月20日 @author: audi ”’ import urllib2 import re from bs4 import BeautifulSoup import sys reload…

爬虫 2023年4月13日
000
python制作小说爬虫实录

Python制作小说爬虫实录前言在互联网的信息化时代，越来越多的人选择读取网络上发布的小说来进行休闲和娱乐。而Python语言在爬虫技术方面表现出了很大的优势，因此我们可以利用Python语言来进行小说爬虫实现，让读者能够像在阅读小说网站一样去阅读自己指定的小说内容，从而让我们更加方便地获取小说内容进行阅读。实现步骤分析网站的HTML页面结构，提取需…

python 2023年5月14日
000
简单介绍Python的Tornado框架中的协程异步实现原理

Python的Tornado框架是一个轻量级的Web框架，采用非阻塞的编程方式实现了高性能的异步处理。在Tornado框架中，最为核心的部分就是协程（Coroutine）异步实现原理，可以帮助我们更加深入了解Tornado框架的底层实现。什么是协程？首先，我们需要了解什么是协程。协程是一种用户态线程，不同于操作系统调度线程，协程可自己控制进程中的多个任务…

python 2023年5月14日
000

合作推广

合作推广

返回顶部