爬虫基本库request使用—爬取猫眼电影信息

2023年4月13日上午1:20 • 爬虫

　　使用request库和正则表达式爬取猫眼电影信息。

1.爬取目标

　　猫眼电影TOP100的电影名称，时间，评分，等信息，将结果以文件存储。

2.准备工作

　　安装request库。

3.代码实现

 1 import json
 2 import requests
 3 from requests.exceptions import RequestException
 4 import re
 5 import time
 6 
 7 
 8 def get_one_page(url):
 9     try:
10         headers = {
11             'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
12         }
13         response = requests.get(url, headers=headers)
14         if response.status_code == 200:
15             return response.text
16         return None
17     except RequestException:
18         return None
19 
20 
21 def parse_one_page(html):
22     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
23                          + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
24                          + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
25     items = re.findall(pattern, html)
26     for item in items:
27         yield {
28             'index': item[0],
29             'image': item[1],
30             'title': item[2],
31             'actor': item[3].strip()[3:],
32             'time': item[4].strip()[5:],
33             'score': item[5] + item[6]
34         }
35 
36 
37 def write_to_file(content):
38     with open('result.txt', 'a', encoding='utf-8') as f:
39         f.write(json.dumps(content, ensure_ascii=False) + '\n')
40 
41 
42 def main(offset):
43     url = 'http://maoyan.com/board/4?offset=' + str(offset)
44     html = get_one_page(url)
45     for item in parse_one_page(html):
46         print(item)
47         write_to_file(item)
48 
49 
50 if __name__ == '__main__':
51     for i in range(10):
52         main(offset=i * 10)
53         time.sleep(2)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫基本库request使用—爬取猫眼电影信息 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫—文件存储—CSV存储

上一篇 2023年4月13日

爬虫—Requests高级用法

下一篇 2023年4月13日

pytho简单爬虫_模拟登陆西电流量查询_实现一键查询自己的校园网流量

闲来无事，由于校园内网络是限流量的，查询流量很是频繁，于是萌生了写一个本地脚本进行一键查询自己的剩余流量。整个部分可以分为三个过程进行：对登陆时http协议进行分析利用python进行相关的模拟登陆后期整合第一部分：对登陆时http协议进行分析　　模拟浏览器进行登陆，那么就需要知道当浏览器进行登陆时发生了什么事情。对此可以参见下面这张自制的图，它…

爬虫 2023年4月10日
000
scrapy爬虫框架

0x00 scrapy爬虫框架 scrapy库的安装：可以直接使用pip install scrapy来安装，如果IDE是pycharm的话参考之前requests库的安装 scrapy爬虫框架结构： scrapy采用5+2的结构，五个主要模块加上两个中间键详细介绍一下各个组件：引擎(Engine)用来处理整个系统的数据流, 触发事务(框架核心) …

爬虫 2023年4月13日
000
python简单爬虫用lxml库解析数据

目标：爬取湖南大学2018年本科招生章程 url:http://admi.hnu.edu.cn/info/1026/2993.htm 页面部分图片：使用工具： Python3.7 火狐浏览器 PyCharm 步骤： 1.打开浏览器的开发者工具查看页面元素 2.html代码如下： <div class=”page-content”> …

爬虫 2023年4月11日
000
Python 爬虫学习笔记之多线程爬虫

首先我们来讲解一下“Python 爬虫学习笔记之多线程爬虫”的攻略。 Python 爬虫学习笔记之多线程爬虫什么是多线程爬虫多线程爬虫指同时使用多个线程对目标网站进行爬取数据的方法。相较于单线程爬虫，多线程爬虫能够更快速地完成数据的抓取，提高爬行效率。如何实现多线程爬虫实现多线程爬虫的方法有很多，这里我们介绍使用Python的多线程库threadin…

python 2023年5月14日
000
一个简单的Python爬虫+写入文本

import osimport requestsfrom bs4 import BeautifulSoup# 获取HTML文档def get_html(url): response = requests.get(url) response.encoding = ‘uft-8’ return response.text# 获取笑话def get_joke(ht…

爬虫 2023年4月10日
000
Python抓取百度查询结果的方法

Python抓取百度查询结果的方法在Python中使用第三方库BeautifulSoup和requests可以非常方便地实现对百度查询结果的抓取。步骤一：获取查询结果的网页源代码使用requests库发起GET请求获取查询结果的网页源代码。 import requests def get_page_source(keyword): url = f&qu…

python 2023年5月14日
000
python爬虫：http请求头部（header）详解

本文根据RFC2616(HTTP/1.1规范),参考 http://www.w3.org/Protocols/rfc2068/rfc2068 http://www.w3.org/Protocols/rfc2616/rfc2616 http://www.ietf.org/rfc/rfc3229.txt 通常HTTP消息包括客户机向服务器的请求消息和服务器向客户…

爬虫 2023年4月12日
000
记一次 excel vba 参考手册爬虫实战，不必要的一次爬虫。

目的：基于办公与互联网隔离，自带的office软件没有带本地帮助工具，因此在写vba程序时比较不方便(后来发现07有自带，心中吐血，瞎折腾些什么）。所以想到通过爬虫在官方摘录下来作为参考。目标网站：https://docs.microsoft.com/zh-cn/office/vba/api/overview/ 所使工具: python3.7,re…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部