python的基础爬虫（利用requests和bs4）

2023年4月11日下午9:32 • 爬虫

1、将请求网上资源：

1 import requests
2 res=requests.get('http://*******')
3 res.encoding='utf-8'
4 print(res.text)

这里面使用requests的get方法来获取html，具体是get还是post等等要通过网页头信息来查询：

python的基础爬虫（利用requests和bs4）

比如百度的方法就是可以利用get得到。

2、将得到的网页利用BeautifulSoup进行剖析

1 from bs4 import BeautifulSoup
2 soup=BeautifulSoup(res.text,'html.parser')
3 print(soup)#可以看到网页的内容
4 for news in soup.select('.news-item'):#爬取一些新闻信息
5     header=news.select（'h1'）[0].text#新闻标题
6     time=news.select('.time')[0]#时间
7     print（header,time)

这里面需要注意的是结点的问题，在查看网页的源代码的时候要分清信息存储的位置，一步一步进行剖析，合理使用for循环。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python的基础爬虫（利用requests和bs4） - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

爬虫day 04(通过登录去爬虫解决django的csrf_token)

上一篇 2023年4月11日

基于nodejs 的多页面爬虫

下一篇 2023年4月11日

一文读懂python Scrapy爬虫框架

一文读懂python Scrapy爬虫框架 1. Scrapy是什么 Scrapy是一个Python爬虫框架，可以用它快速地开发爬虫程序。它有强大的处理HTTP请求和Websocket的能力，支持多个爬虫并发运行。Scrapy还集成了XPath和CSS选择器等多种解析方式，可以轻松地获取所需的数据。 2. Scrapy的安装 Scrapy依赖于Twisted…

python 2023年5月14日
000
Python新手爬虫一：爬取影片名称评分等

豆瓣网站：https://movie.douban.com/chart 先上最后的代码： from bs4 import BeautifulSoup from lxml import html import xml import requests from fake_useragent import UserAgent #ua库 import xlwt …

爬虫 2023年4月10日
000
python爬虫之BeautifulSoup4使用

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。本章我们再来聊另一个高效的神器：Beautiful Soup4。相比于传统正则表达方式去解析网页源代码，这个就简单得多，实践是检验真理的唯一标准，话不多说直接上号开搞验证。 Beautiful …

爬虫 2023年4月12日
000
如何用六步教会你使用python爬虫爬取数据

我来详细讲解如何用六步教会你使用Python爬虫爬取数据。 1. 学习Python基础知识首先，在使用Python爬虫之前，你需要对Python有一定的了解。比如，掌握Python语言基础、了解常用的第三方库等等。建议先学习Python基础知识，这样会对后面的爬虫开发非常有帮助。 2. 确定爬取的目标网站接下来，你需要确定你要爬取的目标网站。这可能是一个…

python 2023年5月14日
000
使用selenium做简单爬虫的实例

selenium 是一个Web自动化测试的软件包，可以用于自动测试Web应用，也可以用于当作简单的爬虫制作工具，这是一个简单的demo，用于爬取Google APP Store中的一个类别: # -*- coding: utf-8 -*- from selenium import webdriver from selenium.webdriver.co…

爬虫 2023年4月11日
000
python如何爬取网站数据并进行数据可视化

Python是一种通用编程语言，具有广泛的应用场景，其中包括网络爬虫和数据可视化。在这个攻略中，我们将使用Python爬虫库Scrapy和数据可视化库Matplotlib来提取和可视化网站数据。爬取网站数据 1. 安装Scrapy 在开始爬取数据之前，我们需要安装Scrapy爬虫框架。可以使用以下命令通过Python包管理器pip安装Scrapy： pip…

python 2023年5月14日
000
爬虫笔记（二）——浏览器的模拟（Headers属性）

有的时候，我们无法爬取一些网页，会出现403错误，因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息，应该怎么办呢？可以设置一些Headers信息，模拟成浏览器去访问这些网站，此时，就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。 1.首先打开任意网页，按…

爬虫 2023年4月11日
000
八个超级好用的Python自动化脚本(小结)

以下就是详细讲解“八个超级好用的Python自动化脚本(小结)”的完整攻略：一、引言 Python语言的简洁性、易读性、高效性、免费性成为了自动化领域不可替代的工具，本文旨在总结分享八个Python自动化脚本的使用技巧及实例教程，帮助读者快速掌握Python自动化脚本的编写和应用方法。二、八个Python自动化脚本 1. 批量更改文件名思路通过Pyt…

python 2023年5月14日
000

合作推广

返回顶部

python的基础爬虫（利用requests和bs4）

相关文章