爬虫 Archives - Page 7 of 92

爬虫小例子

package com.textPa.two; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.nio.charset.Charset; import org.apache.http.HttpEntity; import or…

爬虫 2023年4月16日

000

Java正则表达式—小应用—简易爬虫

在上一篇中，学习了正则表达式的四个功能。即匹配、分割、替换、获取。利用获取功能，可以实现简单的网页爬虫。 4，获取:将字符串中的符合规则的子串取出。获取功能的操作步骤： 1，将正则表达式封装成对象。2，让正则对象和要操作的字符串相关联。3，关联后，获取正则匹配引擎。4，通过引擎对符合规则的子串进行操作，比如取出。举例如下： pa…

爬虫 2023年4月16日

000

selenium 无界面模式下反爬虫解决方案

在无界面模式下发现请求地址全部报404，在有界面的模式下就是正常运行的。在网上查了半天，发现这种情况，由于爬取的网站进行了selenium反爬虫导致的。 1.尝试使用开启开发者模式 opt = webdriver.ChromeOptions() # 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数opt.set_hea…

爬虫 2023年4月16日

000

项目: python爬虫福利煎蛋网妹子图

嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了一下午的时间, 一个字母一个字母对过去, 发现没有错, 就是爬不下来- -. 后来在交流群里问大神, 大神们,说代码时间太久不能用了, 然后就放弃了, 后来…

爬虫 2023年4月16日

000

01 爬虫基本原理.md

一. 爬虫是什么 ![](01 爬虫基本原理.assets/1036857-20171102182154154-1486674926.jpg) # 1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。 # 2、互联网建立的目的？互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的， …

爬虫 2023年4月16日

000

网络爬虫技术Jsoup

Jsoup介绍：Jsoup 是一个 Java 的开源HTML解析器，可直接解析某个URL地址、HTML文本内容 Jsoup主要有以下功能： 1. 从一个URL，文件或字符串中解析HTML 2. 使用DOM或CSS选择器来查找、取出数据 3. 对HTML元素、属性、文本进行操作 4. 清除不受信任的HTML (来防止XSS攻击) <dependency&…

爬虫 2023年4月16日

000

02 爬虫请求库之requests库

一. 介绍 # 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求 # 安装：pip3 install requests # 各…

爬虫 2023年4月16日

000

04 爬虫解析库之xpath库

一. 什么是Xpath? XPath 是 XML 的查询语言，本节介绍该语言的语法。 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。二. 快速使用 1. 前期准备 doc = ”’ <html> <head> <base href=’htt…

爬虫 2023年4月16日

000

03 爬虫解析库之bs4库

一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中…

爬虫 2023年4月16日

000

05 爬虫请求库之selenium库

一. 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器官网: https://selenium-python.readthedocs.io…

爬虫 2023年4月16日

000