python爬虫项目(scrapy-redis分布式爬取房天下租房信息) python爬虫scrapy项目（二）

2023年4月11日上午1:33 • 爬虫

　　爬取目标：房天下全国租房信息网站（起始url：http://zu.fang.com/cities.aspx）

　　爬取内容：城市；名字；出租方式；价格；户型；面积；地址；交通

　　反反爬措施：设置随机user-agent、设置请求延时操作、

1、开始创建项目

1 scrapy startproject fang

2、进入fang文件夹，执行启动spider爬虫文件代码，编写爬虫文件。

1 scrapy genspider zufang "zu.fang.com"

　　命令执行完，用Python最好的IDE---pycharm打开该文件目录

3、编写该目录下的items.py文件，设置你需要爬取的字段。

 1 import scrapy
 2 
 3 
 4 class HomeproItem(scrapy.Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7 
 8     city = scrapy.Field()  #城市
 9     title = scrapy.Field()  # 名字
10     rentway = scrapy.Field()  # 出租方式
11     price = scrapy.Field()    #价格
12     housetype = scrapy.Field()  # 户型
13     area = scrapy.Field()  # 面积
14     address = scrapy.Field()  # 地址
15     traffic = scrapy.Field()  # 交通

4、进入spiders文件夹，打开hr.py文件,开始编写爬虫文件

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from homepro.items import HomeproItem
 4 from scrapy_redis.spiders import RedisCrawlSpider
 5 # scrapy.Spider
 6 class HomeSpider(RedisCrawlSpider):
 7     name = 'home'
 8     allowed_domains = ['zu.fang.com']
 9     # start_urls = ['http://zu.fang.com/cities.aspx']
10     
11     redis_key = 'homespider:start_urls'
12     def parse(self, response):
13         hrefs = response.xpath('//div[@class="onCont"]/ul/li/a/@href').extract()
14         for href in hrefs:
15             href = 'http:'+ href
16             yield scrapy.Request(url=href,callback=self.parse_city,dont_filter=True)
17 
18 
19     def parse_city(self, response):
20         page_num = response.xpath('//div[@>)
21         # print('*' * 100)
22         # print(page_num)
23         # print(response.url)
24 
25         for page in range(1, int(page_num)):
26             if page == 1:
27                 url = response.url
28             else:
29                 url = response.url + 'house/i%d' % (page + 30)
30             print('*' * 100)
31             print(url)
32             yield scrapy.Request(url=url, callback=self.parse_houseinfo, dont_filter=True)
33 
34     def parse_houseinfo(self, response):
35         divs = response.xpath('//dd[@class="info rel"]')
36         for info in divs:
37             city = info.xpath('//div[@class="guide rel"]/a[2]/text()').extract()[0].rstrip("租房")
38             title = info.xpath('.//p[@class="title"]/a/text()').extract()[0]
39             rentway = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[0].extract().replace(" ", '').lstrip('\r\n')
40             housetype = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[1].extract().replace(" ", '')
41             area = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[2].extract().replace(" ", '')
42             addresses = info.xpath('.//p[@class ="gray6 mt12"]//span/text()').extract()
43             address = '-'.join(i for i in addresses)
44             try:
45                 des = info.xpath('.//p[@class ="mt12"]//span/text()').extract()
46                 traffic = '-'.join(i for i in des)
47             except Exception as e:
48                 traffic = "暂无详细信息"
49 
50             p_name = info.xpath('.//div[@class ="moreInfo"]/p/text()').extract()[0]
51             p_price = info.xpath('.//div[@class ="moreInfo"]/p/span/text()').extract()[0]
52             price = p_price + p_name
53 
54             item = HomeproItem()
55             item['city'] = city
56             item['title'] = title
57             item['rentway'] = rentway
58             item['price'] = price
59             item['housetype'] = housetype
60             item['area'] = area
61             item['address'] = address
62             item['traffic'] = traffic
63             yield item

5、设置setting.py文件，配置scrapy运行的相关内容

 1 # 指定使用scrapy-redis的调度器
 2 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
 3 
 4 # 指定使用scrapy-redis的去重
 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
 6 
 7 # 指定排序爬取地址时使用的队列，
 8 # 默认的 按优先级排序(Scrapy默认)，由sorted set实现的一种非FIFO、LIFO方式。
 9 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
10 
11 REDIS_HOST = '10.8.153.73'
12 REDIS_PORT = 6379 
13 # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空
14 SCHEDULER_PERSIST = True

6、然后把代码发给其他附属机器,分别启动.子程序redis链接主服务器redis。

1 redis-cli   -h  主服务器ip

7、主服务器先启动redis-server，再启动redis-cli

1 lpush homespider:start_urls   起始的url

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫项目(scrapy-redis分布式爬取房天下租房信息) python爬虫scrapy项目（二） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫项目-爬取雪球网金融数据（关注、持续更新）

上一篇 2023年4月11日

Python爬虫一步步抓取房产信息

下一篇 2023年4月11日

爬虫– 初级

普通同步代码耗时 import requests from functools import wraps import time def time_count(func): @wraps(func) def inner_func(*args,**kw): start = time.time() result = func(*args,**kw) end =…

爬虫 2023年4月16日
000
python爬虫 – js逆向之某评的逆向分析笔记

前言最近长期混迹在很多技术交流群里，大部分时间都是在看，很少参与讨论，发现里面大佬太多了，像他们那样的大佬每天都在学习，是真的觉得自愧不如啊，某数，某美，各大滑块，某易，某迅，某验，jsl，还有国外的akamai，cloudflare(俗称5秒盾)，obfuscator，jsfuck，啥啥全都不用费太大力就能搞定。前面说的还是web端的逆向，ap…

爬虫 2023年4月12日
000
python爬虫之深度爬取实例

写了一个之前没完成的项目，代码优化不够，速度有点慢，应该也有错误的地方，望大佬看了之后能给点建议。。。。。。。。。这是开始的url，先看一下它的网页结构：http://www.cymodel.net/deaafc/13143.html，可以观察到，整个网页大致分为六部分内容，中间的正文部分，右边的四部分新闻板块，还有最下面的一部分社会新闻。而每一个新闻链接…

爬虫 2023年4月11日
000
爬虫学习笔记：酷狗音乐榜单TOP500

一、背景酷狗音乐热门榜单-酷狗TOP500（网页版）链接为： # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可二、实操 1.加载模块 import pandas as pd impor…

爬虫 2023年4月12日
000
python爬取各类文档方法归类汇总

python爬取各类文档方法归类汇总在Python中，我们可以使用多种方式爬取各类文档，包括但不限于html、pdf、doc等格式的文档。下面将对几种常用的爬取方法进行介绍。爬取HTML文档在Python中，我们可以使用requests库和BeautifulSoup库来爬取HTML文档。其中，requests库用于发送请求并获得响应，而Beautifu…

python 2023年5月14日
000
爬虫—分析Ajax爬取今日头条图片

　　以今日头条为例分析Ajax请求抓取网页数据。本次抓取今日头条的街拍关键字对应的图片，并保存到本地一，分析　　打开今日头条主页，在搜索框中输入街拍二字，打开开发者工具，发现浏览器显示的数据不在其源码里面。这样可以出初步判断这些内容是由 Ajax加载，然后使用JavaScript渲染出来的。　　　　　　　　　　切换到XHR过滤选项卡，查看其Ajax请…

爬虫 2023年4月13日
000
python 爬虫实例（二）

环境： OS：Window10 python：3.7 描述打开下面的网址，之后抓取其中的图片 https://music.163.com/#/artist/album?id=101988&limit=120&offset=0 安装一些库文件首先看你的网页版本，查看方法，打开【https://sites.google.com/a/chromium.…

爬虫 2023年4月10日
000
Python网络爬虫(数据解析-bs4模块)

一、实现数据爬取流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储　　在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。二、BeautifulSoup环境安装　　环境配置 – 需要将pip源设置为国内源，阿里源…

爬虫 2023年4月12日
000

合作推广

合作推广

返回顶部