爬虫

  • python爬虫入门(九)Scrapy框架之数据库保存

    豆瓣电影TOP 250爬取–>>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库  items.py # -*- coding: utf-8 -*- import scrapy c…

    爬虫 2023年4月13日
    00
  • python爬虫入门(七)Scrapy框架之Spider类

     Spider类 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。 主要用到的函数及调用顺序为: _…

    爬虫 2023年4月13日
    00
  • python爬虫入门(八)Scrapy框架之CrawlSpider类

    CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进lin…

    爬虫 2023年4月13日
    00
  • python爬虫入门(一)urllib和urllib2

    爬虫简介  什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTT…

    爬虫 2023年4月13日
    00
  • python爬虫入门(二)Opener和Requests

    Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener(也就是我们构建好的)。 但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能。所有要支持这些功能:   1.使用相关的Hand…

    爬虫 2023年4月13日
    00
  • python爬虫入门(三)XPATH和BeautifulSoup4

     XML和XPATH 用正则处理HTML文档很麻烦,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML …

    爬虫 2023年4月13日
    00
  • python爬虫入门(六) Scrapy框架之原理介绍

    Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted[‘twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯…

    爬虫 2023年4月13日
    00
  • web爬虫,requests请求

    requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码   模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求   一、不需要用户登录或者验证的请求 这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- …

    爬虫 2023年4月13日
    00
  • python爬虫 – js逆向之某评的逆向分析笔记

    前言   最近长期混迹在很多技术交流群里,大部分时间都是在看,很少参与讨论,发现里面大佬太多了,像他们那样的大佬每天都在学习,是真的觉得自愧不如啊,某数,某美,各大滑块,某易,某迅,某验,jsl,还有国外的akamai,cloudflare(俗称5秒盾),obfuscator,jsfuck,啥啥全都不用费太大力就能搞定。   前面说的还是web端的逆向,ap…

    爬虫 2023年4月12日
    00
  • python爬虫 – js逆向之svg字体反爬破解

    前言 同样的,接上一篇 python爬虫 – js逆向之woff字体反爬破解 ,而且也是同一个站的数据,只是是不同的反爬 网址: aHR0cDovL3{防查找,删除我,包括花括号}d3dy5kaWFuc{防查找,删除我,包括花括号}GluZy5jb20vcmV2aWV3L{防查找,删除我,包括花括号}zEwMDM1NDgxNjI=   分析 打开网站:   …

    爬虫 2023年4月12日
    00
合作推广
合作推广
分享本页
返回顶部