爬虫
-
01 爬虫基本原理.md
一. 爬虫是什么 ![](01 爬虫基本原理.assets/1036857-20171102182154154-1486674926.jpg) # 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 # 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的, …
-
网络爬虫技术Jsoup
Jsoup介绍:Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容 Jsoup主要有以下功能: 1. 从一个URL,文件或字符串中解析HTML 2. 使用DOM或CSS选择器来查找、取出数据 3. 对HTML元素、属性、文本进行操作 4. 清除不受信任的HTML (来防止XSS攻击) <dependency&…
-
02 爬虫请求库之requests库
一. 介绍 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 # 安装:pip3 install requests # 各…
-
04 爬虫解析库之xpath库
一. 什么是Xpath? XPath 是 XML 的查询语言,本节介绍该语言的语法。 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 二. 快速使用 1. 前期准备 doc = ”’ <html> <head> <base href=’htt…
-
03 爬虫解析库之bs4库
一. 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中…
-
05 爬虫请求库之selenium库
一. 介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 官网: https://selenium-python.readthedocs.io…
-
Python爬虫技术:爬虫时如何知道是否代理ip伪装成功?
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 python爬虫时如何知道是否代理ip伪装成功: 有时候我们的爬虫程序添加了代理,但是我们不知道程序是否获取到了ip,尤其是动态转发模式的,这时候就需要进行检测了,以下是一种代理是否伪装成功的检测方式,这里推介使用亿牛云提供的代码示例。…
-
Python爬虫如何提取百度搜索到的内容?案例教你
搜索引擎用的很频繁,现在利用Python爬虫提取百度搜索内容,同时再进一步提取内容分析就可以简便搜索过程。详细案例如下: 完整代码: # coding=utf8 import urllib2 import string import urllib import re import random #设置多个user_agents,防止百度限制IP user…
-
爬虫-request(3)
import requests # GET请求 r = requests.get(‘http://httpbin.org/get’) print(r.status_code, r.reason) print(‘GET请求’, r.text) # 带参数的GET请求 r = requests.get(‘http://httpbin.org/get’, para…
-
python爬虫输入标题百度百科获取内容
##原始诉求,经过标题获取内容翻译英文再翻译中文,提高原创度 import requests import re from lxml import etree from translate import Translator import urllib.request import urllib.parse import json de…