Python网络爬虫之Web网页基础

Python网络爬虫是一种获取互联网信息的技术，目的是从Web网页中获取数据。Web网页作为能够展示信息的载体，是爬虫爬取数据的主要目标对象。本文将向读者介绍Python网络爬虫之Web网页基础。

Web网页基础

Web网页是HTML文档，它是由标记文本、标记标签以及一些超链接组成的。HTML文档的基本语法如下：

<!DOCTYPE html>
<html>
<head>
    <title>Web网页的标题</title>
</head>
<body>
    <h1>Web网页的标题</h1>
    <p>Web网页的段落</p>
    <a href="http://www.example.com">链接文本</a>
</body>
</html>

上面的代码描述了一个典型的HTML文档，它由DOCTYPE定义、html、head和body标记组成。head标记中定义了Web网页的标题，在浏览器中标题显示在浏览器标签栏左侧；body标记是Web网页的主要内容，其中包含了标题、段落以及超链接等元素。

Python爬虫实例

我们使用Python的requests、bs4库来解析Web网页。以下是一个Python爬虫的示例代码：

import requests
from bs4 import BeautifulSoup

# 请求网页数据
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
r = requests.get(url)

# 解析网页数据
soup = BeautifulSoup(r.content, "html.parser")

# 打印页面标题
print(soup.title.string)

# 找到所有的a标记，并打印链接文本和对应的url
for link in soup.find_all('a'):
    print(link.get('href'), link.string)

运行这段代码，将会输出网页的标题，以及页面所有链接的url和文本。

另外一个示例是访问现代诗歌网站"Why Poetry"，并抓取上面的现代诗歌，以下是Python爬虫的示例代码：

import requests
from bs4 import BeautifulSoup

# 请求网页数据
url = "https://www.whypoetry.net"
r = requests.get(url)

# 解析网页数据
soup = BeautifulSoup(r.content, "html.parser")

# 找到现代诗歌标记及诗人姓名
for poem in soup.find_all(class_='poem'):
    title = poem.find('h3').text
    author = poem.find(class_='credit').text
    print(title, '\n', author)
    print('------------------------------')

运行这段代码，将会输出"Why Poetry"网站上现代诗歌的标题和作者。

总结

Python网络爬虫之Web网页基础是Python网络爬虫中最基本的部分。本文向读者介绍了Web网页的基础知识和Python爬虫的基本流程，同时提供了两个示例说明。希望这篇文章能够帮助读者更好的理解Python网络爬虫的基础知识。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python网络爬虫之Web网页基础 - Python技术站

Python网络爬虫之Web网页基础

Python网络爬虫之Web网页基础

Web网页基础

Python爬虫实例

总结

相关文章