python爬虫爬取大众点评并导入redis

2023年4月8日下午5:48 • 爬虫

直接上代码，导入redis的中文编码没有解决，日后解决了会第一时间上代码！新手上路，多多包涵！

# -*- coding: utf-8 -*-
import re
import requests
from time import sleep, ctime
from urllib.request import urlopen
from urllib.request import Request
from lxml import etree
import redis
import MySQLdb


r = redis.Redis(host='192.168.60.112', port=6379,db=0)#host自己的ip地址

# 添加模拟浏览器协议头
headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
for page in range(1，3):#爬取第1页到第3页。
　　#大众点评链接，用了字符串拼串
    url = "http://www.dianping.com/search/category/2/10/g112p%i"%(page)+"?aid=90308842%2C21171398%2C22974252%2C77259356%2C79709316%2C69011566%2C93070619%2C75101541%2C5724122%2C21559834&cpt=90308842%2C21171398%2C22974252%2C77259356%2C79709316%2C69011566%2C93070619%2C75101541%2C5724122%2C21559834&tc=1"#字符串拼接
    # print(url)
    req_timeout = 5#延时
    req = Request(url=url, headers=headers)
    f = urlopen(req, None, req_timeout)
    s = f.read()
    s = s.decode('utf-8')
    ss = str(s)
    # lxml提取
    selector = etree.HTML(ss)
#爬的内容
    links = selector.xpath(
        '//div[@class="txt"]/div[@class="tit"]/a/@href|//div[@class="txt"]/div[@class="tit"]/a/h4/text()')

    for link in links:
        print(link)
#写入redis，用的list类型（栈结构）
        r.lpush('mylist',link)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫爬取大众点评并导入redis - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

scrapyd 爬虫服务的安装与项目部署

上一篇 2023年4月8日下午5:48

爬虫必备—BeautifulSoup

下一篇 2023年4月8日

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

这篇攻略是针对使用Python3实现基于爬虫爬取赶集网列表功能，包含如下几个步骤：步骤一：请求赶集网数据首先需要安装Python中的requests模块，使用requests.get()方法请求赶集网的数据，代码示例如下： import requests response = requests.get(‘https://bj.ganji.com/zuli…

python 2023年5月14日
000
Python爬取微信小程序通用方法代码实例详解

针对题目中提到的“Python爬取微信小程序通用方法代码实例详解”，我来给出一个完整的攻略。 1. 了解微信小程序及其数据接口要开始爬取微信小程序的数据，首先需要了解微信小程序自身的概念、特点，以及其数据接口的类型和规范。微信小程序是微信内的一种轻量级应用，它的数据接口分为两种类型：URL模式和js模式。前者是可以直接通过URL调用的标准HTTP接口，后…

python 2023年5月14日
000
Python网络爬虫与信息提取 – requests库入门

requests：HTTP for Humans http://www.python-requests.org 1. requests 库的安装　　Run => cmd => pip install requests 2. requests 的安装小测试：抓取百度主页内容(IDLE) >>> import request…

爬虫 2023年4月11日
000
python + selenium 爬虫模拟登录破解无原图滑动验证码

爬虫模拟登录破解无原图滑动验证码： https://www.cnblogs.com/98WDJ/p/11050559.html 需求：部分网站在频繁的使用之后，会弹出滑块验证码（极验）。有别于过去，现在的原图并不会出现，因此较过去的思路转变为以下： 1、截取带缺口的图片； 2、寻找原图，并截图； 3、比较两张图片，寻找到缺口位置距离； 4、计算运动过程，并驱…

爬虫 2023年4月11日
000
如何设置爬虫的用户代理？

当我们使用 Python 编写爬虫时，有时候需要设置爬虫的用户代理（User-Agent）来模拟浏览器的请求。用户代理是一个 HTTP 请求头部信息，其中包含了使用该浏览器的操作系统及浏览器版本等信息。通过设置爬虫的用户代理，我们可以模拟多种类型的浏览器请求，绕过一些反爬措施或者获取更好的数据体验。下面我来详细讲解如何设置爬虫的用户代理。 1.使用urll…

爬虫 2023年4月20日
000
2017.07.23 Python网络爬虫之爬虫常用模块

1.涉及网络这块，必不可少的模块就是urllib2了。顾名思义这个模块主要负责打开URL和HTTP协议之类的，还有一个模块叫urllib，但它们不是升级版的关系 2.urllib2请求返回网页（1）urllib2最贱的应用就是urllib2.urlopen函数了： urllib2.urlopen(url[,data[,timeout[,cafile[,…

爬虫 2023年4月11日
000
关于python爬虫的编码错误

现在才发现很多错误只有自己一点点的去尝试才能发现。不管之前别人怎么和你说，总是不可能面面俱到，所以提升自己的方法就是亲手实践，自己一点点的去发现问题，并一个个的解决。慢慢享受其中无言的快感。今天就发现了一个：运行爬虫时出现了这个错误： UnicodeEncodeError: ‘ascii’ codec can’t encode character u’…

爬虫 2023年4月16日
001
Python爬取网页的所有内外链的代码

当我们进行网站开发或是SEO优化的时候，很有可能需要爬取某个网站的所有内外链。在Python中，我们可以使用第三方库beautifulsoup4和requests来实现这个功能。下面是爬取网页的所有内外链的完整攻略：步骤1：安装必要的库首先，在使用Python爬取网页的所有内外链之前，需要确保已经安装了必要的库。在这里主要需要用到beautifulso…

python 2023年5月14日
000

合作推广

合作推广

返回顶部