爬虫常用库的安装

2023年4月13日上午1:22 • 爬虫

urllib 库

urllib.request库

re库

以上三个基本上python3内置

剩下的用第三方pip安装

1、pip install requsets

 >>>import requests
 >>>requests.get('http://www.baidu.com')

返回响应status

2、pip install selenium（驱动浏览器、自动化测试）

大多数网页存在js渲染，普通requests无法读，可以通过驱动浏览器渲染读取

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

报错，缺少浏览器驱动

3、安装浏览器驱动（chromedriver）

//（版本对应表）

将解压的exe文件移动到pip执行目录中（大概率是script文件夹）

命令行执行chromedriver，成功，继续2的代码

>>>import selenium
>>>from selenium import webdriver
>>>driver=webdriver.Chrome()

成功调用chrome

>>>driver.get('http://www.baidu.com')
>>>driver.page_source//打印渲染过的源代码

4、phantomjs安装

3步骤的渲染每次都需要掉用浏览器驱动，比较多余，可以用phantomjs来省略

下载解压得到exe，添加到环境变量中

>>>from selenium import webdriver
>>>driver=webdriver.PhontomJS()
>>>driver.get('http://www.daidu.com')
driver.page_source//直接得到渲染过的源代码

5、pip install lxml

此处介绍另一种直接安装‘轮子’的方法，下载对应whl文件

命令行执行 pip install ***（***为轮子的路径）即可

6、beautifulsoup安装(需要先安装5)

pip install beautifulsoup4

>>> from bs4 import BeautifulSoup
>>> soup=BeautifulSoup('<html></html>','lxml')
>>> print(soup)
<html></html>

7、pyquery库的安装

pip install pyquery

>>> from pyquery import PyQuery as pq
>>> doc=pq('<html><h1>你好</h1></html>')
>>> result=doc('html').text()//此处调用的jquery的语法
>>> result
'你好'

8、mongdb

安装好后在bin文件夹下面（不是里面）新增‘logs’文件夹，内新增文件mongo.log。。。

9、redis数据库

>>> import redis
>>> r= redis.Redis('localhost',6379)
>>> r.set('name','bob')
True
>>> r.get('name')
b'bob'
>>>

10、flask（web库,设置代理）

pip install flask

11、django

12、jupyter（可以在线执行python代码的工具）

pip install jupyter

>>>import jupyter
>>>jupyter notebbok//跳转浏览器

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫常用库的安装 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

requests（爬虫常用）库的使用

上一篇 2023年4月13日

爬虫学习笔记：创建随机User-Agent池

下一篇 2023年4月13日

一篇文章带你了解Python之Selenium自动化爬虫

让我为您详细讲解一下“一篇文章带你了解Python之Selenium自动化爬虫”的攻略。什么是Selenium自动化爬虫 Selenium自动化爬虫是一种基于Selenium Web Driver框架实现对网站信息的爬取和收集的方法。它通过模拟用户的操作行为，来访问网站并获取网页内容，可以轻松实现动态网站的爬取。前期准备安装Python 在开始使用Se…

python 2023年5月14日
000
网络爬虫re模块的findall()函数

findall()函数匹配所有符合规律的内容，并以列表的形式返回结果。 a = ‘”<div>指数’ \ ‘</div>”‘ word = re.findall(‘<div>(.*?)</div>’,a,re.S) print(word) 第一个参数，正则表达式第二个参数，搜索的a 第三个参数，匹配…

爬虫 2023年4月10日
000
python实现从web抓取文档的方法

下面是 Python 实现从 Web 抓取文档的方法的完整攻略：安装请求库请求库是 Python 抓取 Web 数据的重要工具，常见的有 requests、urllib 等。在本攻略中我们以 requests 为例，首先需要安装 requests。安装 requests 的方法有很多，在命令行中可以使用 pip 工具安装： pip install re…

python 2023年5月14日
000
crawler4j图片爬虫

该实例主要演示下如何爬取指定网站的图片；代码中有详细注释：首先写一个ImageCrawler类： package com.demo.imageCrawler4j; import java.io.File; import java.io.IOException; import java.util.UUID; import java.util.reg…

爬虫 2023年4月8日
000
2017.07.26 Python网络爬虫之Scrapy爬虫实战之今日影视

1.创建项目：前提是在环境变量中添加了: 可以运行命令scrapy：（1）.scrapy startproject todayMovie （2）.scrapy genspider wuHanMovieSpider jycinema.com（搜索域）创建scrapy项目后的文件目录结构是： 2.Scrapy文件介绍： scra…

爬虫 2023年4月11日
000
爬虫基本流程及简单爬取网页

一基本流程: #1、发起请求使用http库向目标站点发起请求，即发送一个Request Request包含：请求头、请求体等 #2、获取响应内容如果服务器能正常响应，则会得到一个Response Response包含：html，json，图片，视频等 #3、解析内容解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery…

爬虫 2023年4月13日
000
python爬虫：使用BeautifulSoup修改网页内容

BeautifulSoup除了可以查找和定位网页内容，还可以修改网页。修改意味着可以增加或删除标签，改变标签名字，变更标签属性，改变文本内容等等。每一个标签在BeautifulSoup里面都被当作一个标签对象，这个对象可以执行以下任务：修改标签名修改标签属性增加新标签删除存在的标签修改标签的文本内容修改标签的名字只需要修改…

爬虫 2023年4月12日
000
第一课：网络爬虫准备

一、本课知识路线　　1、Requests框架：自动爬取HTML页面与自动网络请求提交　　2、robots.txt:网络爬虫排除标准　　3、BeautifulSoup框架：解析HTML页面　　4、Re框架：正则框架，提取页面关键信息　　5、Scrapy框架：网络爬虫原理介绍，专业爬虫框架介绍 #抓取百度页面 import requests r = r…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部