爬虫八之爬取京东商品信息

2023年4月11日上午1:57 • 爬虫

注：代码放在github上，这里只讨论出现的问题和解决办法。

本来是爬取淘宝的，但是淘宝在搜索关键词时要登陆；使用selenium我还不会添加cookies, 因此比较麻烦，所以转而爬取不需要登陆的京东。

爬取时，应安装好需要的包，以及需要有一个Chrome浏览器，以及配置好Chromedriver.

京东网页有个问题就是，如果你不下拉，那么商品图片将不会加载。

解决办法：

在读取每一个商品前，加入以下代码：

browser.maximize_window()
time.sleep(0.05)
    for i in range(0, 100):
        time.sleep(0.07)
        js = "window.scrollTo(0,%s)" % (i*100)
        browser.execute_script(js)

该代码可实现自动向下滚动窗口。循环里的sleep time 要根据自己网速来调整，如果网速略慢则需要将时间调大点；

我只是将图片url保存在了本地，并没有读取及下载，因为我担心大量下载也会被京东反爬，目前我还没有防止反爬比较好的技巧。

在运行程序时，会跳出Chrome浏览器运行。如果不想让其跳出，可使用PhantomJS; 我没有尝试，仅提一下有该方法。

代码链接：

https://github.com/GhostSteven/Crawler/tree/master/JD

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫八之爬取京东商品信息 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

java微博爬虫

上一篇 2023年4月11日

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

下一篇 2023年4月11日

ancconda创建爬虫项目

# 安装 conda env list conda create -n <envname> conda activate <envname> conda install scrapy scrapy # 检测安装是否成功 # 创建项目 cd /d 目标路径目录 scrapy startproject <projectname&gt…

爬虫 2023年4月16日
000
Python爬取网页的所有内外链的代码

当我们进行网站开发或是SEO优化的时候，很有可能需要爬取某个网站的所有内外链。在Python中，我们可以使用第三方库beautifulsoup4和requests来实现这个功能。下面是爬取网页的所有内外链的完整攻略：步骤1：安装必要的库首先，在使用Python爬取网页的所有内外链之前，需要确保已经安装了必要的库。在这里主要需要用到beautifulso…

python 2023年5月14日
000
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫

使用的系统：Windows 10 64位 Python 语言版本：Python 2.7.10 V 使用的编程 Python 的集成开发环境：PyCharm 2016 04 我使用的 urllib 的版本：urllib2 注意：我没这里使用的是 Python2 ，而不是Python3 一 . 简介编写网络爬虫的第一步就是下载网页，这个过程叫做：爬取。 …

爬虫 2023年4月13日
000
Python 爬虫杂记 – Chrome Headless

测试 Chrome 版本： 62.0.3202.89（正式版本）（64 位) Python环境：python2.7 注： Headless模式需要59版本及以上！ Chrome的安装与配置不在此赘述，不过需要注意的是：版本号与驱动的映射关系！版本号与驱动的映射关系！！版本号与驱动的映射关系！！！ Chrome与Chromedriver的映射关系表: …

爬虫 2023年4月11日
000
Python爬虫进阶之爬取某视频并下载的实现

以下是详细的攻略步骤：确定目标网站首先要确定需要爬取的网站地址，以及目标视频的播放页地址。不同的网站可能存在不同的反爬机制和网站结构，爬取策略也不同。模拟浏览器访问由于大多数网站都会通过UA来检测访问者的身份，所以我们需要模拟浏览器来访问目标网站。Python中可以通过selenium库来实现，需要下载对应的浏览器驱动。解析目标视频播放页通过模拟…

python 2023年5月14日
000
一个入门级python爬虫教程详解

一个入门级Python爬虫教程详解本教程旨在介绍基本的Python爬虫知识，帮助初学者了解如何使用Python爬取网页内容。在本教程中，我们使用BeautifulSoup、Requests等库来实现。 1. 安装必要的库为了使用Python爬虫，需要安装以下库： pip install requests pip install beautifulsoup…

python 2023年5月14日
000
爬虫基础知识

目录一、requests模块二、requests携带参数的方式三、get请求URL解码编码四、post请求携带数据编码格式四、get请求携带请求头五、post请求携带参数六、requests.session的使用(可以不用带cookie) 七、response对象八、爬取图片和视频(前提是没有做防盗链) 爬虫是什么？；爬虫就是程序—&gt…

爬虫 2023年4月8日
000
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImagesh-3.2# chmod -R 777 liuyifeiImage/ 二.分析图片特征 1.解决分页url部分：我们爬虫的start_url是”http://movie.douban.com/celebrity/1049732/phot…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部