Python爬虫入门

2023年4月13日上午1:21 • 爬虫

一.

from urllib import request

res=request.urlopen('https://www.douban.com')
data = res.read()
print(data.decode('utf-8'))
通过以上代码可以获取到豆瓣网页源码。

1.
urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。
2.req=request.urlopen('https://www.douban.com')

首先我们调用的是request模块里面的urlopen方法，传入一个URL，这个网址是豆瓣首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下：

urlopen(url, data, timeout)

第一个参数url即为URL（必须传入），第二个参数data是访问URL时要传送的数据（非必须），第三个timeout是设置超时时间（非必须）。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了豆瓣的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

3.

data = res.read()

res对象有一个read方法，可以返回获取到的网页内容。如果不通过read()方法而直接print res对象，会打印出该对象的描述，而不是网页代码。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫入门 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫二：爬取糗事百科段子

上一篇 2023年4月13日

C#爬虫辅助类

下一篇 2023年4月13日

python爬虫常用的模块分析

Python爬虫常用的模块分析在Python中，爬虫是很常见的一个应用场景。Python作为一门强大的脚本语言，有很多强大的库可以用于爬虫。下面就对Python爬虫常用的模块进行分析。 requests模块 requests模块是Python中最常用的http请求库之一。可以使用它发送get、post等http请求。该模块提供了很多常用的方法，如get()…

python 2023年5月14日
000
python爬虫的一些小小问题、python动态正则表达式

1.首先urllib不能用了，需要引入的是urllib2，正则re。 #coding=utf-8 # import urllib import urllib2 import re def getHtml(url): page = urllib2.urlopen(url) html = page.read() return html def getCountr…

爬虫 2023年4月13日
000
爬虫部署 — scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程

———scrapyd部署爬虫—————1.编写爬虫2.部署环境pip install scrapyd pip install scrapyd-client 启动scrapyd的服务：cmd:>scrapyd（必须处于开启状态）在爬虫根目录执行：scrapyd-deploy,如果提示不是内部命令，需要修改配置文件。 3.发…

爬虫 2023年4月11日
000
Python爬虫实战之用selenium爬取某旅游网站

Python爬虫实战之用selenium爬取某旅游网站是一个比较常见的应用场景。下面我将详细讲解这个完整攻略的实现过程，包括环境配置、代码编写和执行。在过程中我也提供两条示例说明。环境配置在使用selenium之前我们需要确保已经安装了最新版的chromedriver，这个在使用selenium的过程中是必不可少的。下载chromedriver 由于不…

python 2023年5月14日
000
scrapy 解决爬虫IP代理池，数据轻松爬。

现在越来越多的人在工作中使用到爬虫，各个网站的反爬虫机制也越来越严格，下面就自己构建一个代理ip池。手动更新ip池 1.1在setting配置文件中新增ip池 IPPOOL=[ {“ipaddr”:”61.129.70.131:8080”}, {“ipaddr”:”61.152.81.193:9100”}, {“ipaddr”:”120.204.85.29…

爬虫 2023年4月11日
000
【Python爬虫错误】’scrapyd-deploy’ 不是内部或外部命令，也不是可运行的程序或批处理文件

【问题描述】在编写好 python 爬虫程序，准备部署到云服务器上时，遇到一个问题。scrapyd-deploy 1.0 -p caigou 执行上述部署的命令时，提示：’scrapyd-deploy’ 不是内部或外部命令，也不是可运行的程序或批处理文件。【解决办法】找到 Python 的安装路径，进入 Scripts 文件夹。创建两个文件，scrap…

爬虫 2023年4月13日
000
python 多线程爬虫

环境搭建 requests：获取数据 lxml：解析数据本次爬去糗事百科，爬取地址：http://www.qiushibaike.com/8hr/page/1/ python3 代码示例 import requests import threading from queue import Queue from lxml import etree imp…

爬虫 2023年4月13日
000
爬虫day 04(通过登录去爬虫解决django的csrf_token)

#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { ‘Connection’: ‘Keep-Alive’, ‘Accept’: ‘text/html, application/xhtml+xml, */*’, ‘Acc…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部