python3爬虫初探（一）之urllib.request

2023年4月10日下午11:38 • 爬虫

---恢复内容开始---

#小白一个，在此写下自己的python爬虫初步的知识.如有错误，希望谅解并指出。

#欢迎和大家交流python爬虫相关的问题

#2016/6/18

#----第一把武器-----urllib.request---------

　　urllib.request是python3自带的库（python3.x版本特有），我们用它来请求网页，并获取网页源码。话不多说，上代码。

import urllib.request  #调入要使用的库

url = 'http://www.baidu.com'
data = urllib.request.urlopen(url)  #urlopen用来打开一个网页
data = data.read()   #这里的rend()是必须的，否则不能打印源码。
print(data)     #在python3里面print是要加括号的
#b'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/
#这是部分源码，现在已经成功走出第一步了，之后就是解析网页了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫初探（一）之urllib.request - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫再探实战（一）——爬取智联招聘职位信息

上一篇 2023年4月10日

Python爬虫：scrapy 的运行流程和各模块的作用

下一篇 2023年4月10日

当当网爬虫

当当网爬虫利用python的requests 库和lxml库，来爬取当当网的图书信息，包括图书名称，图书购买页面url和图书价格，本次以爬取python书籍为例 1、确定url地址进入当当网，搜索python书籍，得到如下所以可以知道，当你搜索书籍时，书籍的名字会放在key的后面 2、获取地址后，就发送请求获取数据，再返回element对象 3、在Ch…

爬虫 2023年4月12日
000
Python爬虫,获取,解析,存储详解

Python爬虫获取、解析、存储详解准备工作在开始爬虫之前，我们需要确保自己安装了以下两个库： requests：用于发送HTTP请求和获取响应数据 BeautifulSoup4：解析HTML/XML数据安装方式，可以使用pip命令进行安装： pip install requests pip install beautifulsoup4 获取数据在使…

python 2023年5月14日
000
Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源：李英杰链接： https://segmentfault.com/a/1190000015798452 听说你写代码没动力？本文就给你动力，爬取妹子图。如果这也没动力那就没救了。 GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%8…

爬虫 2023年4月11日
000
如何使用PhantomJS模拟浏览器行为？

PhantomJS是一个流行的无头浏览器，它可以模拟浏览器的行为，并能够进行网页截图、网络监测、网页自动化等任务。在这里，我将为你详细讲解如何使用PhantomJS模拟浏览器行为。安装PhantomJS 首先需要在官方网站(https://phantomjs.org/) 下载并安装PhantomJS。使用示例在这里，我将为你演示两个基本的用例：用例一…

爬虫 2023年4月20日
000
Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据

这篇文章主要介绍了Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python爬虫之怎么使用BeautifulSoup和Requests抓取网页数据文章都会有所收获，下面我们一起来看看吧。一、简介网络爬虫的实现原理可以归纳为以下几个步骤：发送H…

爬虫 2023年4月8日
000
爬虫遇到取到网页为reload的问题

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码： <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″> </head>…

爬虫 2023年4月11日
000
用Python编写简单的微博爬虫

用Python编写简单的微博爬虫攻略简介微博作为中国最大的社交媒体平台，对于数据分析和挖掘非常有用。为了获取微博的相关数据，我们需要使用爬虫对其进行抓取。本攻略将介绍如何使用Python编写简单的微博爬虫并获取有用的数据。步骤 1. 获取cookie 我们需要对微博进行模拟登陆，首先需要获取登陆后的cookie信息。可以使用chrome浏览器自带的开发…

python 2023年5月14日
000
如何在Pycharm中制作自己的爬虫代码模板

下面是详细讲解如何在Pycharm中制作自己的爬虫代码模板的完整攻略：在Pycharm中创建一个新的模板打开Pycharm，选择File -> New Project，创建一个新的Python项目。然后在项目中创建一个新的Python文件，这将是我们将要制作模板的文件。在该文件中编写代码，将我们想要在爬虫中复用的代码放入函数中，并以注释的方式在代…

python 2023年5月14日
000

合作推广

合作推广

返回顶部