爬虫 Archives - Page 28 of 92

node.js+mongodb 爬虫

demo截图：本demo爬瓜子二手车北京区的数据 (注:需要略懂 node.js / mongodb 不懂也没关系因为我也不懂啊~~~) 之所以选择爬瓜子二手车网站有两点：一、网站无需登录，少做模拟登录；二、数据链接没有加密，直接可以用；网上很多node.js爬虫的栗子但大多是一个页面的栗子，很少跟数据库结合的所以我这个栗子是糖炒的我的基本思…

爬虫 2023年4月13日

000

爬虫–python3如何安装scrapy？

直接使用pip3 install scrapy会报很多错误，所以试试以下步骤。（1） https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在这个python第三方库里下载三个包：分别是lxml，twisted，scrapy。【按照自己的电脑和Python版本下载相应的包】（2） cd 到放这三个包的文件夹下，依次pip…

爬虫 2023年4月13日

000

python 爬虫猫眼视频榜单top100

一直在学习python，语法什么学习了很久，今天记录一下python实战，使用pyhton爬虫爬取猫眼网站最热电影top100，下面是代码与我编写遇到的坑，有注释很清晰代码可能有一些缩进问题，复制到编辑器自行调整 #首先分析网站结构，请求链接，分析数据所在的标签 #首先打开网站，可以看的他的链接 ‘https://maoyan.com/…

爬虫 2023年4月13日

000

python爬虫人门（十）Scrapy框架之Downloader Middlewares

设置下载中间件（Downloader Middlewares）下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）；在下…

爬虫 2023年4月13日

000

python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取–>>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 -*- import scrapy c…

爬虫 2023年4月13日

000

python爬虫入门（七）Scrapy框架之Spider类

Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为： _…

爬虫 2023年4月13日

000

python爬虫入门（八）Scrapy框架之CrawlSpider类

CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进lin…

爬虫 2023年4月13日

000

python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTT…

爬虫 2023年4月13日

000

python爬虫入门（二）Opener和Requests

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能：　　1.使用相关的Hand…

爬虫 2023年4月13日

000

python爬虫入门（三）XPATH和BeautifulSoup4

XML和XPATH 用正则处理HTML文档很麻烦，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML …

爬虫 2023年4月13日

000