python爬虫–爬取豆瓣top250电影名

2023年4月10日下午11:42 • 爬虫

关于模拟浏览器登录的header，可以在相应网站按F12调取出编辑器，点击netwook，如下：

python爬虫--爬取豆瓣top250电影名

以便于不会被网站反爬虫拒绝。

 1 import requests
 2 from bs4 import BeautifulSoup
 5 def get_movies():
 6     headers = {
 7         'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
 8         'Host': 'movie.douban.com'
 9     }
10     movie_list = []                                                       #定义序列
11     for i in range(0, 10):
12         link = 'https://movie.douban.com/top250?start=' + str(i * 25)     #通过循环，下载第二页，第三页
13         r = requests.get(link, headers=headers, timeout=10)               #timeout=10，响应时长
14         print(str(i + 1), "页响应状态码:", r.status_code)                   #显示状态码，返回200，请求成功
15 
16         soup = BeautifulSoup(r.text, "lxml")
17         div_list = soup.find_all('div', class_='hd')                     #如下图显示，电影名字在div标签之后
18         for each in div_list:
19             movie = each.a.span.text.strip()                              #span后的文本
20             movie_list.append(movie)                                      #append(movie)，在movie_list中添加movie序列
21     return movie_list 
24  movies = get_movies() 
25  print(movies)

python爬虫--爬取豆瓣top250电影名

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫–爬取豆瓣top250电影名 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫笔记（二）：爬取药监局所有详情页数据

上一篇 2023年4月10日下午11:41

Python爬虫学习笔记7：动态渲染页面爬取

下一篇 2023年4月10日

python爬虫中遇到的问题以及解决方法

（1）运行后报错：“TypeError: cannot use a string pattern on a bytes-like” 原因：content用decode(‘utf-8’)进行解码，由bytes变成string。py3的urlopen返回的不是string是bytes。解决方案：把’content’类型调整一下：content.decode(‘…

爬虫 2023年4月11日
000
爬虫

爬虫的基本流程

爬虫的基本流程 1.发送请求使用http库向目标站点发起请求，即发送一个Request Request包含：请求头、请求体、路由等 2.获取响应内容如果服务器能正常响应，则会得到一个Response 包含：html页面，json,图片 3.解析内容解析html数据：正则表达式，第三方解析库如bs4 解析json数据：json模块解析二进制数据：以b的…

2023年4月11日
000
浅谈Python爬虫基本套路

浅谈Python爬虫基本套路关于爬虫爬虫是指通过程序自动访问互联网资源，获取所需数据的一种技术手段。在信息爆炸的时代，利用自动化工具抓取大量数据并从中寻找自己需要的信息是一种非常重要的技术手段。 Python爬虫 Python可谓是轻巧、易上手的程序语言，也非常适合用于爬虫开发。它前端框架的便利性、运算速度和数据处理能力，让它成为了大家的首选。爬虫的基…

python 2023年5月14日
000
爬虫3 css选择器和xpath选择器, selenium的使用, 爬取京东商品信息

1 css选择器和xpath选择器 # css选择器 ####### #1 css选择器 ####### # 重点 # Tag对象.select(“css选择器”) # #ID号 # .类名 # div>p：儿子和div p：子子孙孙 # 找div下最后一个a标签 div a:last-child # css选择器，xpath选择器会用了，它就是个通…

爬虫 2023年4月16日
000
爬虫(自学)之User Agent 第三方库my_fake_useragent 和 fake_useragent

my_fake_useragent 和 fake_useragent实质基本一致，可以调用里面的方法User Agent 　　例my_fake_useragent 底层 class UserAgent(): parsed_json_data = load_parsed_json_data() def __init__(self, family=None, o…

爬虫 2023年4月11日
000
python爬虫容易学吗

Python爬虫容易学吗 Python爬虫指的是使用Python编写的程序，可以自动化地从网站上抓取数据并进行处理和分析。它可以帮助我们快速而有效地获取大量的数据，带来了很多便利。但是，初学者是否能够轻松地上手学习Python爬虫呢？本文将提供完整的攻略，帮助你了解Python爬虫的基本流程和技能点。 Python爬虫的基本流程 Python爬虫的基本流程通…

python 2023年5月14日
000
如何处理爬取速度过快的问题？

当我们在爬取网页的时候，如果请求速度过快，可能会给被爬网站造成较大的负担，甚至可能会触发反爬措施。因此，我们需要控制爬取速度，避免对被爬网站造成不良影响。以下是处理爬取速度过快问题的攻略： 1. 设置请求头我们可以在发送请求时设置请求头中的User-Agent字段，将其设置为浏览器的User-Agent，以达到伪装自己的目的。此外，我们还可以在请求头中加…

爬虫 2023年4月20日
000
【scrapy网络爬虫】之五 CrawlSpider操作【python网络爬虫】之requests相关模块

有个问题了：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？　　方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。　　方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。 CrawlSpider 一.简介　　CrawlSpider其实是Spider的一…

爬虫 2023年4月12日
000

合作推广

合作推广

返回顶部