Python抓取百度查询结果的方法

Python抓取百度查询结果的方法

在Python中使用第三方库BeautifulSoup和requests可以非常方便地实现对百度查询结果的抓取。

步骤一:获取查询结果的网页源代码

使用requests库发起GET请求获取查询结果的网页源代码。

import requests

def get_page_source(keyword):
    url = f"https://www.baidu.com/s?wd={keyword}"
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers, timeout=10)
    response.encoding = "utf-8"
    return response.text

其中keyword是查询的关键词,url根据关键词拼装出百度查询结果的网址,headers则是为了模拟浏览器发送请求的消息头,timeout则是请求超时时间。

步骤二:解析网页源代码

使用BeautifulSoup库解析网页源代码,获取需要的信息。

from bs4 import BeautifulSoup

def parse_page_source(page_source):
    bs = BeautifulSoup(page_source, "html.parser")
    results = bs.find_all("div", class_="result c-container ")
    search_results = []
    for result in results:
        title = result.find("h3").text
        link = result.find("a").get('href')
        summary = result.find("div", class_="c-abstract").text
        search_results.append({'title': title, 'link': link, 'summary': summary})
    return search_results

首先使用BeautifulSoup将网页源代码解析为BeautifulSoup的对象bs,然后根据页面结构和相关类名进行元素查找,提取出标题、链接和摘要等信息,并将这些信息封装为一个包含这些信息的字典,最后将所有的字典放到一个列表中返回。

示例一:查询Python

keyword = "Python"
page_sourc = get_page_source(keyword)
results = parse_page_source(page_sourc)
for result in results:
    print(result['title'])
    print(result['link'])
    print(result['summary'])
    print()

示例二:查询人工智能

keyword = "人工智能"
page_sourc = get_page_source(keyword)
results = parse_page_source(page_sourc)
for result in results:
    print(result['title'])
    print(result['link'])
    print(result['summary'])
    print()

以上两个示例分别演示了Python对关键词“Python”和“人工智能”的百度查询结果的抓取和输出。其中,get_page_source()函数用于获取查询结果的网页源代码,parse_page_source()函数则用于解析网页源代码并提取有用的信息。最后,通过for循环遍历所有搜索结果的字典,打印出字典中的标题、链接和摘要等信息。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python抓取百度查询结果的方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • padas 生成excel 增加sheet表的实例

    下面来详细讲解如何使用Python中的Pandas库来创建Excel文件并增加Sheet表格的实例。 准备工作 首先,需要安装pandas库。可以使用pip命令在终端中安装: pip install pandas 完成安装后,就可以开始使用Pandas来生成Excel文件了。 创建Excel文件并增加Sheet表 以下是一个简单的Pandas示例代码,用于创…

    python 2023年5月13日
    00
  • python编写图书管理系统

    Python编写图书管理系统 简述 本文将介绍使用Python编写图书管理系统的完整攻略。图书管理系统是一种常见的信息管理系统,它可以对图书进行基本的管理和查询操作。Python作为一种高效、简洁的编程语言,适合用来编写此类小型应用程序。 开发环境 本文使用Python 3.6及以上版本进行开发,并在Windows、MacOS和Linux操作系统上测试通过。…

    python 2023年5月30日
    00
  • python区块及区块链的开发详解

    Python区块链开发可以分为以下几步: 1. 安装必要的库 首先需要安装必要的Python库,例如: Flask:用于构建Web应用程序 Requests:用于发送HTTP请求 Cryptography:用于加密解密数据 PyCryptodome:加密解密 2. 定义区块和区块链类 定义区块类,包含以下几个属性: Index:记录区块位置。 Timesta…

    python 2023年6月3日
    00
  • Python中字符串类型代码的执行函数——eval()、exec()和compile()详解

    Python中字符串类型代码的执行函数——eval()、exec()和compile()详解 在Python中,eval()、exec()和compile()都是用于执行字符串类型代码的函数,它们的使用方法和具体的作用有所不同,下面我们分别进行详细的介绍。 eval函数 eval()函数接收一个字符串参数,将其作为表达式进行解析并计算结果。如果表达式不合法,…

    python 2023年5月31日
    00
  • 基于Python Dash库制作酷炫的可视化大屏

    基于Python Dash库制作酷炫的可视化大屏的攻略如下: 步骤1:安装必要的库 在Python中,我们需要安装Dash库和Plotly库。Dash库用于构建Web应用程序,Plotly库用于绘制交互式图表。使用以下命令安装这两个库: pip install dash plotly 步骤2:创建Dash应用程序 在Python中,我们可以使用Dash库创建…

    python 2023年5月15日
    00
  • Python 如何优雅的将数字转化为时间格式的方法

    将数字转化为时间格式是Python常见的需求之一,Python提供了众多的时间操作库,如datetime、time、arrow等,下面就让我来讲解一下Python如何优雅的将数字转化为时间格式的方法。 使用datetime库 datetime库是Python日期处理中最常用的库之一,它提供了一个datetime类,它能够轻松地将数字转化为时间格式。 具体实现…

    python 2023年6月2日
    00
  • Python 处理数据的实例详解

    Python处理数据的实例详解 Python是一种流行的编程语言,广泛用于数据处理和分析。本文将介绍如何使用Python处理数据的实例详解,包括数据读取、数据清洗、分析和可视化等方面。 数据读取 在Python中,我们可以使用pandas库来读取各种格式的数据文件,如、Excel、JSON。以下是一个示例,演示如何使用pandas库读取CSV文件: impo…

    python 2023年5月13日
    00
  • 利用Python破解验证码实例详解

    我将为您详细讲解“利用Python破解验证码实例详解”的完整攻略。首先,分析验证码破解的主要过程: 识别验证码图片中的数字或文字; 将其与预期结果进行比较,判断是否破解成功。 下面我们将分别介绍这两个过程的实现方法。 识别验证码图片中的数字或文字 识别验证码图片中的数字或文字是验证码破解的第一步,常见的识别方法包括: 1. 图像处理 图像处理是最常用的验证码…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部