python爬虫项目-爬取雪球网金融数据（关注、持续更新）

2023年4月11日上午1:32 • 爬虫

爬取目标：雪球网（起始url：https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1）

爬取内容：雪球网深沪股市情况

使用工具：requests库实现发送请求、获取响应。　　

　　　　　json格式的动态加载数据实现数据解析、提取。　　

　　　　　pymysql进行数据存储

思路：对该网站的动态加载数据的请求方式进行控制变量的发送请求，最终得到实际有效的参数。

项目重点：使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

直接放代码（详细说明在注释里，欢迎同行相互交流、学习~）：

 1 import requests
 2 import json
 3 import pymysql
 4 
 5 class mysql_conn(object):
 6     # 魔术方法, 初始化, 构造函数
 7     def __init__(self):
 8         self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')
 9         self.cursor = self.db.cursor()
10     # 执行modify(修改)相关的操作
11     def execute_modify_mysql(self, sql):
12         self.cursor.execute(sql)
13         self.db.commit()
14     # 魔术方法, 析构化 ,析构函数
15     def __del__(self):
16         self.cursor.close()
17         self.db.close()
18 
19 headers = {
20 # 使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点
21     'Cookie':  xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a; 
22     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
23 }
24 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'
25 
26 response = requests.get(url,headers=headers)
27 
28 res_dict = json.loads(response.text)
29 
30 list_lsit = res_dict['list']
31 
32 db ={}
33 for list_item_dict in list_lsit:
34     data_dict = json.loads(list_item_dict['data'])
35 
36     db['id'] = data_dict['id']
37     db['title'] = data_dict['title']
38     db['description'] = data_dict['description']
39     db['target'] = data_dict['target']
40     try:
41         sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)
42         mc = mysql_conn()
43         mc.execute_modify_mysql(sql)
44     except:
45         pass

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫项目-爬取雪球网金融数据（关注、持续更新） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫（二十） select方法

上一篇 2023年4月11日

python爬虫项目(scrapy-redis分布式爬取房天下租房信息) python爬虫scrapy项目（二）

下一篇 2023年4月11日

python爬虫（八） requests库之 get请求

requests库比urllib库更加方便，包含了很多功能。 1、在使用之前需要先安装pip，在pycharm中打开：写入pip install requests命令，即可下载在github中有关于requests库的介绍，网址：https://github.com/requests/requests 2、Get请求 response=re…

爬虫 2023年4月11日
000
python_爬虫_multiprocessing.dummy以及multiprocessing

”’ # 代码范本任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数； ”’ from multiprocessing import Pool as processPoll from multiprocessing.dummy import Pool as ThreadPool def get_page(): # 任务执行 pass de…

爬虫 2023年4月11日
000
Python爬虫框架Scrapy简介

Python爬虫框架Scrapy简介 Scrapy是一款用Python编写的Python爬虫框架，它可以帮助我们快速、高效地抓取互联网上的数据，特别是那些合法且开放的数据。使用Scrapy不仅仅可以完成简单的数据抓取任务，它还具备自动化爬取、数据存储、数据处理等多个功能，让我们专注于核心业务逻辑开发，提高了开发效率和数据可靠性面。 Scrapy的主要特点 1…

python 2023年5月14日
000
python爬虫基础教程：requests库（二）代码实例

我来为你详细讲解“python爬虫基础教程：requests库（二）代码实例”这篇文章的完整攻略。 1. 文章基本信息文章名称：python爬虫基础教程：requests库（二）代码实例文章作者：Python大本营文章地址：https://www.py.cn/faq/python/115088.html 2. 文章主要内容这篇文章主要介绍了使用Pyt…

python 2023年5月14日
000
python爬虫：Python2.7 Opener和Handler的使用和实例

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl()：这个返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的UR…

爬虫 2023年4月12日
000
八个超级好用的Python自动化脚本(小结)

以下就是详细讲解“八个超级好用的Python自动化脚本(小结)”的完整攻略：一、引言 Python语言的简洁性、易读性、高效性、免费性成为了自动化领域不可替代的工具，本文旨在总结分享八个Python自动化脚本的使用技巧及实例教程，帮助读者快速掌握Python自动化脚本的编写和应用方法。二、八个Python自动化脚本 1. 批量更改文件名思路通过Pyt…

python 2023年5月14日
000
爬虫—文件存储—CSV存储

一，简介　　　　　　CSV，全称Comma—Separated Values，可以称为逗号分隔或者字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以有任意的数目记录组成，记录间已某种换行符分隔。每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。相比EXcel更加简洁，就是特定字符分隔的纯文本。二，写入CSV…

爬虫 2023年4月13日
000
Python使用scrapy爬取阳光热线问政平台过程解析

Python使用Scrapy爬取阳光热线问政平台过程解析简介阳光热线问政平台是一个为民服务的政府网站，它提供了公民的各种问题咨询服务，数据对于公共治理和政策制定都有很重要的意义。在下面的攻略中，我们将使用Python的Scrapy框架来爬取阳光热线问政平台的数据。 Scrapy的安装与设置 Scrapy是一个由Python编写的爬虫框架，它可以帮助我们快…

python 2023年5月14日
000

合作推广

合作推广

返回顶部