爬虫 Archives - Page 108 of 133

爬虫系列(九) xpath的基本使用

一、xpath 简介究竟什么是 xpath 呢？简单来说，xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树，例如，下面是一份简单的 XML 文档： <html> <body> <div> <p>Hello world<p> <a href=”/h…

爬虫 2023年4月11日

000

爬虫系列(八) 用requests实现天气查询

这篇文章我们将使用 requests 调用天气查询接口，实现一个天气查询的小模块，下面先贴上最终的效果图 1、接口分析虽然现在网络上有很多免费的天气查询接口，但是有很多网站都是需要注册登陆的，过程比较繁琐几经艰辛，博主终于找到一个不用注册可以直接使用的天气查询接口，以下是该接口的使用说明：接口查询格式： https://www.sojson.com/o…

爬虫 2023年4月11日

000

爬虫系列(十三) 用selenium爬取京东商品

这篇文章，我们将通过 selenium 模拟用户使用浏览器的行为，爬取京东商品信息，还是先放上最终的效果图： 1、网页分析（1）初步分析原本博主打算写一个能够爬取所有商品信息的爬虫，可是在分析过程中发现，不同商品的网页结构竟然是不一样的所以，后来就放弃了这个想法，转为只爬取笔记本类型商品的信息如果需要爬取其它类型的商品信息，只需把提取数据的规则改变一…

爬虫 2023年4月11日

000

爬虫系列(三) urllib的基本使用

一、urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库，无需复杂的安装过程即可正常使用，十分适合爬虫入门 urllib 中包含四个模块，分别是 request：请求处理模块 parse：URL 处理模块 error：异常处理模块 robotparser：robots.txt 解析模块以下我们将会分别讲解 urllib 中各模块…

爬虫 2023年4月11日

000

爬虫系列(五) re的基本使用

1、简介究竟什么是正则表达式 (Regular Expression) 呢？可以用下面的一句话简单概括：正则表达式是一组特殊的字符序列，由一些事先定义好的字符以及这些字符的组合形成，常常用于匹配字符串在 Python 中，re 模块就是一个用于处理正则表达式的模块，详细信息可以参考官方文档另外，这里再给大家推荐一个博主常用的测试正则表达式的网…

爬虫 2023年4月11日

000

Python网络爬虫与信息提取 – requests库入门

requests：HTTP for Humans http://www.python-requests.org 1. requests 库的安装　　Run => cmd => pip install requests 2. requests 的安装小测试：抓取百度主页内容(IDLE) >>> import request…

爬虫 2023年4月11日

000

Python 开发简单爬虫 – 基础框架

1. 目标：开发轻量级爬虫（不包括需登陆的和 Javascript异步加载的）　　不需要登陆的静态网页抓取 2. 内容：　　2.1 爬虫简介　　2.2 简单爬虫架构　　2.3 URL管理器　　2.4 网页下载器（urllib2）　　2.5 网页解析器（BeautifulSoup）　　2.6 完整实例：爬取百度百科Python词条相关的1000…

爬虫 2023年4月11日

000

python scrapy爬虫存储数据库方法带去重步骤

import pymongo import requests import random import time import pymysql db = pymongo.MongoClient()[‘cs’][‘dn’] db1 = pymysql.connect(user=’root’,password=’root’,db=’cs’,charset=’ut…

爬虫 2023年4月11日

000

爬虫笔记(四)——关于BeautifulSoup4解析器与编码

前言：本机环境配置：ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述　　如同前几章笔记，当我们输入: soup=BeautifulSoup(response.body) 　　对网页进行析取时，并未规定解析器，此时使用的是python内部默认的解析器“html.parser”。　　解析器是什么呢？ Beaut…

爬虫 2023年4月11日

000

python_爬虫_爬取京东商品信息

一爬取京东商品信息代码： import requests# url = “https://item.jd.com/2967929.html”url = “https://item.jd.com/100011585270.html”try: r = requests.get(url) r.raise_for_status() r.enco…

爬虫 2023年4月11日

000