Python网络爬虫之Web网页基础
Python网络爬虫是一种获取互联网信息的技术,目的是从Web网页中获取数据。Web网页作为能够展示信息的载体,是爬虫爬取数据的主要目标对象。本文将向读者介绍Python网络爬虫之Web网页基础。
Web网页基础
Web网页是HTML文档,它是由标记文本、标记标签以及一些超链接组成的。HTML文档的基本语法如下:
<!DOCTYPE html>
<html>
<head>
<title>Web网页的标题</title>
</head>
<body>
<h1>Web网页的标题</h1>
<p>Web网页的段落</p>
<a href="http://www.example.com">链接文本</a>
</body>
</html>
上面的代码描述了一个典型的HTML文档,它由DOCTYPE定义、html、head和body标记组成。head标记中定义了Web网页的标题,在浏览器中标题显示在浏览器标签栏左侧;body标记是Web网页的主要内容,其中包含了标题、段落以及超链接等元素。
Python爬虫实例
我们使用Python的requests、bs4库来解析Web网页。以下是一个Python爬虫的示例代码:
import requests
from bs4 import BeautifulSoup
# 请求网页数据
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
r = requests.get(url)
# 解析网页数据
soup = BeautifulSoup(r.content, "html.parser")
# 打印页面标题
print(soup.title.string)
# 找到所有的a标记,并打印链接文本和对应的url
for link in soup.find_all('a'):
print(link.get('href'), link.string)
运行这段代码,将会输出网页的标题,以及页面所有链接的url和文本。
另外一个示例是访问现代诗歌网站"Why Poetry",并抓取上面的现代诗歌,以下是Python爬虫的示例代码:
import requests
from bs4 import BeautifulSoup
# 请求网页数据
url = "https://www.whypoetry.net"
r = requests.get(url)
# 解析网页数据
soup = BeautifulSoup(r.content, "html.parser")
# 找到现代诗歌标记及诗人姓名
for poem in soup.find_all(class_='poem'):
title = poem.find('h3').text
author = poem.find(class_='credit').text
print(title, '\n', author)
print('------------------------------')
运行这段代码,将会输出"Why Poetry"网站上现代诗歌的标题和作者。
总结
Python网络爬虫之Web网页基础是Python网络爬虫中最基本的部分。本文向读者介绍了Web网页的基础知识和Python爬虫的基本流程,同时提供了两个示例说明。希望这篇文章能够帮助读者更好的理解Python网络爬虫的基础知识。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python网络爬虫之Web网页基础 - Python技术站