python 爬虫基本库使用urllib之urlopen(一)

2023年4月11日上午1:06 • 爬虫

urllib是python内置的请求库。它主要包含四个模块：

request :是最基本的HTTP请求模块，可以用来模拟发送请求。
error:异常处理模块，如果请求出现错误，可以捕获异常，然后进行其他操作，保证程序不会意外终止。
parse:工具模块，提供了很多URL处理方法，比如拆分、解析、合并等。
robotparser:主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬。

使用urllib的request模块中的方法urlopen抓取python官网，这样我们想要的东西就可以提取出来了

import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(type(response))  #类型
print(response.read().decode('utf-8'))

python 爬虫基本库使用urllib之urlopen(一)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python 爬虫基本库使用urllib之urlopen(一) - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

爬虫5:Beautiful Soup的css选择器

上一篇 2023年4月11日

爬虫(自学)之User Agent 第三方库my_fake_useragent 和 fake_useragent

下一篇 2023年4月11日

爬虫高性能相关

阅读目录一背景知识二同步、异步、回调机制三高性能一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程…

爬虫 2023年4月13日
000
一文教会你用Python获取网页指定内容

一文教会你用Python获取网页指定内容介绍本篇文章将通过Python语言教会你如何获取任意网页中的指定内容。我们将使用Python第三方库requests和BeautifulSoup来实现这个目标，并分别介绍它们的使用方法。安装requests和BeautifulSoup 在介绍使用方法之前，我们需要先安装requests和BeautifulSoup…

python 2023年5月14日
000
python_爬虫_爬取7*24小时财经新闻

import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_first: task_q = dat…

爬虫 2023年4月11日
000
在scrapy框架下爬虫中如何实现翻页请求

通过scrapy.Request实现翻页请求： scrapy.Request(url, callback=None, method=’GET’, headers=None, body=None, cookies=None, meta=None, encoding=’utf-8′, priority=0, dont_filter=False, errback=…

爬虫 2023年4月10日
000
python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取–>>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 -*- import scrapy c…

爬虫 2023年4月13日
000
通过python爬虫赚钱的方法

通过Python爬虫赚钱的方法 Python爬虫是一种非常强大的工具，可以帮助我们获取互联网上的各种数据。通过Python爬虫，我们可以获取并分析大量的数据，从而找到商机，实现收益。下面是通过Python爬虫赚钱的一些方法和技巧。 1. 数据商业化通过Python爬虫可以获取各种各样的数据，我们可以将这些数据进行整理分析，然后将分析报告、行业研究等推广出去…

python 2023年5月14日
000
爬虫

Python爬虫采集商品评价信息–京东

python采集电商平台的商品评价信息并保存 1.数据采集逻辑在进行数据采集之前，明确哪些数据为所需，制定数据Schema为爬取工作做出要求，并根据数据Schema制定出有针对性的爬取方案和采集逻辑。 2.数据Schema 3.数据爬取抓取京东平台任一商品的评论信息，此案例抓取的商品是某一店铺的车厘子评价信息。评论信息是由JS动态加载的，所以直…

2023年4月8日
000
python3爬虫初探（四）之文件保存

　　接着上面的写，抓取到网址之后，我们要把图片保存到本地，这里有几种方法都是可以的。　　#—–urllib.request.urlretrieve—– 　　 import urllib.request imgurl = ‘http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupia…

爬虫 2023年4月10日
000

合作推广

返回顶部

python 爬虫 基本库使用urllib之urlopen(一)

相关文章

python 爬虫基本库使用urllib之urlopen(一)