爬虫
-
爬虫小例子
package com.textPa.two; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.nio.charset.Charset; import org.apache.http.HttpEntity; import or…
-
Java正则表达式—小应用—简易爬虫
在上一篇中,学习了正则表达式的四个功能。即匹配、分割、替换、获取。 利用获取功能,可以实现简单的网页爬虫。 4,获取:将字符串中的符合规则的子串取出。 获取功能的操作步骤: 1,将正则表达式封装成对象。2,让正则对象和要操作的字符串相关联。3,关联后,获取正则匹配引擎。4,通过引擎对符合规则的子串进行操作,比如取出。 举例如下: pa…
-
selenium 无界面模式下 反爬虫解决方案
在无界面模式下发现请求地址全部报404,在有界面的模式下就是正常运行的。在网上查了半天,发现这种情况,由于爬取的网站进行了selenium反爬虫导致的。 1.尝试使用开启开发者模式 opt = webdriver.ChromeOptions() # 把chrome设置成无界面模式,不论windows还是linux都可以,自动适配对应参数opt.set_hea…
-
项目: python爬虫 福利 煎蛋网妹子图
嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了 一下午的时间, 一个字母一个字母 对过去, 发现没有错, 就是爬不下来- -. 后来 在交流群里问大神, 大神们,说代码时间太久 不能用了, 然后就放弃了, 后来…
-
01 爬虫基本原理.md
一. 爬虫是什么 ![](01 爬虫基本原理.assets/1036857-20171102182154154-1486674926.jpg) # 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 # 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的, …
-
网络爬虫技术Jsoup
Jsoup介绍:Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容 Jsoup主要有以下功能: 1. 从一个URL,文件或字符串中解析HTML 2. 使用DOM或CSS选择器来查找、取出数据 3. 对HTML元素、属性、文本进行操作 4. 清除不受信任的HTML (来防止XSS攻击) <dependency&…
-
02 爬虫请求库之requests库
一. 介绍 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 # 安装:pip3 install requests # 各…
-
04 爬虫解析库之xpath库
一. 什么是Xpath? XPath 是 XML 的查询语言,本节介绍该语言的语法。 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 二. 快速使用 1. 前期准备 doc = ”’ <html> <head> <base href=’htt…
-
03 爬虫解析库之bs4库
一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中…
-
05 爬虫请求库之selenium库
一. 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 官网: https://selenium-python.readthedocs.io…