爬虫 Archives - Page 69 of 133

python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取–>>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 -*- import scrapy c…

爬虫 2023年4月13日

000

python爬虫入门（七）Scrapy框架之Spider类

Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为： _…

爬虫 2023年4月13日

000

python爬虫入门（八）Scrapy框架之CrawlSpider类

CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进lin…

爬虫 2023年4月13日

000

python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫？爬虫：就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。 HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTT…

爬虫 2023年4月13日

000

python爬虫入门（二）Opener和Requests

Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例，我们之前一直在使用urlopen，它是一个特殊的opener(也就是我们构建好的)。但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能：　　1.使用相关的Hand…

爬虫 2023年4月13日

000

python爬虫入门（三）XPATH和BeautifulSoup4

XML和XPATH 用正则处理HTML文档很麻烦，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML …

爬虫 2023年4月13日

000

python爬虫入门(六) Scrapy框架之原理介绍

Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted[‘twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯…

爬虫 2023年4月13日

000

web爬虫，requests请求

requests请求，就是用yhthon的requests模块模拟浏览器请求，返回html源码模拟浏览器请求有两种，一种是不需要用户登录或者验证的请求，一种是需要用户登录或者验证的请求一、不需要用户登录或者验证的请求这种比较简单，直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- …

爬虫 2023年4月13日

000

python爬虫 – js逆向之某评的逆向分析笔记

前言最近长期混迹在很多技术交流群里，大部分时间都是在看，很少参与讨论，发现里面大佬太多了，像他们那样的大佬每天都在学习，是真的觉得自愧不如啊，某数，某美，各大滑块，某易，某迅，某验，jsl，还有国外的akamai，cloudflare(俗称5秒盾)，obfuscator，jsfuck，啥啥全都不用费太大力就能搞定。前面说的还是web端的逆向，ap…

爬虫 2023年4月12日

000

python爬虫 – js逆向之svg字体反爬破解

前言同样的，接上一篇 python爬虫 – js逆向之woff字体反爬破解，而且也是同一个站的数据，只是是不同的反爬网址： aHR0cDovL3{防查找，删除我，包括花括号}d3dy5kaWFuc{防查找，删除我，包括花括号}GluZy5jb20vcmV2aWV3L{防查找，删除我，包括花括号}zEwMDM1NDgxNjI= 分析打开网站： …

爬虫 2023年4月12日

000