网络爬虫（1）–准备工作

2023年4月13日下午8:54 • 爬虫

网络爬虫是根据一定的规则自动的对网络信息进行抓取，为了对爬虫有更深的了解，学习爬虫前有必要先了解一下一个网页打开的完整过程，可以参考http://blog.csdn.net/saiwaifeike/article/details/8789624

接下来就是需要安装和了解常用的2个相关库，一个是urllib ,另一是BeautifulSoup。urllib是Python自带的标准库，不需要另外安装，而BeautifulSoup需要自己安装，可以通过pip或者easy_install来安装。可以直接命令行easy_install BeautifulSoup安装。

urllib分为几个子模块：urllib.request, urllib.parse, urllib.error。具体功能可以从名字得出。其中使用最频繁的是urllib.request中的urlopen，这个函数用来打开并获取从网络获取的远程对象。其他函数参考https://docs.python.org/3/library/urllib.html

这两个库配合使用就已经可以完成简单的爬虫任务了，我们以打开一个简单的网页为例：

http://www.heibanke.com/lesson/crawler_ex00/

    我们用urlopen访问这个网页，然后用BeautifulSoup转换成BeautifulSoup对象，最后输出其中的<h1>标签中的文本，代码如下：

1 __author__ = 'f403'
2 #coding = utf-8
3 from urllib.request import urlopen
4 from bs4 import BeautifulSoup
5 html = urlopen("http://www.heibanke.com/lesson/crawler_ex00/")
6 bsobj = BeautifulSoup(html,"html.parser")
7 print(bsobj.h1)

运行脚本后输出结果为：

<h1>这里是黑板客爬虫闯关的第一关</h1>

小结：

urlopen完成访问远程网站以及读取的过程。

BeautifulSoup完成对html的转换，转换成BeautifulSoup结构：

网络爬虫（1）--准备工作

来自为知笔记(Wiz)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：网络爬虫（1）–准备工作 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python 爬虫下载英语听力新闻(npr news)为mp3格式

上一篇 2023年4月13日

网络爬虫（2）–异常处理

下一篇 2023年4月13日

爬虫与反爬虫技术简介

本文一方面从爬虫与反反爬的角度来说明如何高效的对网络上的公开数据进行爬取，另一方面也会介绍反爬虫的技术手段，为防止外部爬虫大批量的采集数据的过程对服务器造成超负载方面提供些许建议。 vivo 互联网安全团队- Xie Peng 互联网的大数据时代的来临，网络爬虫也成了互联网中一个重要行业，它是一种自动获取网页数据信息的爬虫程序，是网站搜索引擎的重要组成部分。…

爬虫 2023年4月15日
000
上手简单,功能强大的Python爬虫框架——feapder

Feapder是一款使用Python语言编写的爬虫框架。它具有上手简单、功能强大的特点，可以帮助爬虫程序员快速开发出高效、稳定的爬虫程序。以下是使用Feapder编写爬虫的攻略：安装 Feapder的安装非常简单，使用以下命令即可： pip install feapder 特点 Feapder具有以下特点：简单易用，只需定义爬虫任务、配置爬虫参数，可以快…

python 2023年5月14日
000
爬虫系列(八) 用requests实现天气查询

这篇文章我们将使用 requests 调用天气查询接口，实现一个天气查询的小模块，下面先贴上最终的效果图 1、接口分析虽然现在网络上有很多免费的天气查询接口，但是有很多网站都是需要注册登陆的，过程比较繁琐几经艰辛，博主终于找到一个不用注册可以直接使用的天气查询接口，以下是该接口的使用说明：接口查询格式： https://www.sojson.com/o…

爬虫 2023年4月11日
000
scrapy使用selenium时在爬虫类中关闭浏览器的方法

from scrapy import signals # 此为官方推荐的信号使用方法，用来关闭浏览器 @classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(YourSpider, cls).from_crawler(crawler, *args, **kwar…

爬虫 2023年4月16日
000
百度爬虫为什么这样没有轻重的爬呢？

网站昨天持续打开很慢，经过分析发现是百度爬虫频繁抓取导致，改了rorots.txt还是不起作用，后来业务同事催得急，急中生智在阿里云后台设置了安全组规则，用cidr一下解决问题。网段如下 123.125.71.74/24 220.181.108.139/24 111.206.198.46/16 可能会误伤一些用户的IP。虽然这样做，百度可能会将网…

爬虫 2023年4月11日
000
python实现知乎高颜值图片爬取

Python实现知乎高颜值图片爬取攻略简介本文介绍了如何使用Python爬取知乎上的高颜值图片，主要涉及到如何使用requests库发起HTTP请求，如何使用BeautifulSoup解析HTML页面，以及如何美化输出。步骤 1.导入所需库我们需要使用requests、BeautifulSoup库，因此我们首先需要导入这两个库。 import req…

python 2023年5月14日
000
Python爬虫入门有哪些基础知识点

Python爬虫入门有哪些基础知识点背景介绍爬虫是一种按照一定规则自动抓取网页信息的程序，近年来日益风行，因其便于获取大量网络数据而受到广泛关注。Python语言作为一种简单易用、生态丰富的编程语言，自然成为了开发爬虫的首选工具。本文将详细介绍Python爬虫入门所需的基础知识点，旨在帮助初学者快速入门，开启自己的爬虫之路。知识点一：HTML与CSS…

python 2023年5月14日
000
Python爬虫实例——爬取美团美食数据

这里是Python爬虫实例——爬取美团美食数据的完整攻略。目录前言爬虫流程说明代码实现第一步：分析网页源码第二步：获取网页信息第三步：解析网页信息第四步：保存数据总结前言本篇文章将介绍如何使用Python爬虫爬取美团美食数据，爬取的内容包括美食店名、店铺评分、店铺地址和人均消费等信息。为了方便展示，我们将把数据保存成Excel表格，并在…

python 2023年5月14日
000

合作推广

合作推广

返回顶部