编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

2023年4月11日上午1:58 • 爬虫

1.准备工作：

1.1安装requests: cmd >> pip install requests

1.2 安装lxml: cmd >>  pip install lxml

1.3安装wheel: cmd >>  pip install wheel

1.4 安装xlwt: cmd >> pip install xlwt

1.5 安装pymongo: cmd >> pip install pymongo

完整代码

import requests
from lxml import etree
import xlwt
from pymongo import MongoClient

#设置浏览器的请求头，告诉服务器我们是从浏览器来的，作用是阻止被网站反爬
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'Connection': 'keep-alive'
}

# 创建数据库
client = MongoClient()
database = client['Chapter6']
collection = database['webdata']



for i in range(1, 21):
    url = "http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html".format(i)
    #发送请求 得到数据
    response = requests.get(url=url,headers=headers)
    #print(response.text)

    #将数据改成xpath结构
    res_xpath = etree.HTML(response.text)
    trs = res_xpath.xpath('/html/body/table//tr')


    # 将数据写入MongoDB数据库
    for tr in trs[2:-1]:
        data = {
            '开奖日期': tr.xpath("./td[1]/text()")[0],
            '期号': tr.xpath("./td[2]/text()")[0],
            '中奖号码1': tr.xpath("./td[3]/em[1]/text()")[0],
            '中奖号码2': tr.xpath("./td[3]/em[2]/text()")[0],
            '中奖号码3': tr.xpath("./td[3]/em[3]/text()")[0],
            '销售额(元)': tr.xpath("./td[4]/text()")[0],
            '返奖比例': tr.xpath("./td[5]/text()")[0]
        }
        collection.insert_one(data);

实现效果

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：编写python爬虫采集彩票网站数据，将数据写入mongodb数据库 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫八之爬取京东商品信息

上一篇 2023年4月11日

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）

下一篇 2023年4月11日

python爬虫抓取时常见的小问题总结

Python爬虫抓取时常见的小问题总结 1. 403 Forbidden 当使用Python爬虫进行抓取时，有时会遇到403 Forbidden的错误，这是因为目标网站可能设置了反爬虫机制，拒绝了我们的请求。这时可以使用以下几种方法：修改爬虫的User-Agent，使其伪装成浏览器请求。可以使用requests库的headers参数来设置User-Agen…

python 2023年5月14日
000
用Python实现爬取百度热搜信息

下面是用Python实现爬取百度热搜信息的完整攻略： 1. 确定爬取目标首先，我们需要确定需要爬取的内容。在本例中，我们的爬取目标是百度热搜列表。 2. 获取页面源码我们需要使用Python获取百度热搜页面的源码。这可以通过requests库来实现。具体代码如下： import requests url = ‘https://www.baidu.com/…

python 2023年5月14日
000
python 学习之爬虫练习

通过学习python，写两个简单的爬虫，没用线程，本地抓取速度还不错，有些瑕疵就是抓的图片有些显示不出来，代码做个笔记记录下： # -*- coding:utf-8 -*- import re import urllib.request import os url = “http://www.58pic.com/yuanchuang/0/day-” def …

爬虫 2023年4月13日
000
Python网络爬虫(requests模块应用1)

一、什么是requests模块？　　requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。二、为什么要使用requests模块因为在使用urllib模块的时候，会有诸多不便之处，总结如下：手动处理url编码手动处理post请求参数处理cookie…

爬虫 2023年4月12日
000
10个python爬虫入门实例(小结)

下面详细讲解一下“10个python爬虫入门实例(小结)”这篇文章的攻略。文章概述该文章是一篇教学性质的文章，主要介绍了10个Python爬虫的入门实例，内容涵盖了网络爬虫的基础知识、常用工具和技巧等。该文章共分为10个小节，每个小节介绍了一个不同的Python爬虫实例。攻略分析该篇文章的攻略可以分为以下几个步骤：确定学习目标：想要学习爬虫的哪些知…

python 2023年5月14日
000
Python制作简单的网页爬虫

下面我来详细讲解一下Python制作简单的网页爬虫的完整攻略。步骤一：准备工作在开始编写网页爬虫之前，我们需要进行一些准备工作。安装Python：我们需要先安装Python环境，推荐使用Python3以上版本。安装爬虫库：Python有很多爬虫库，比如requests、BeautifulSoup、Scrapy等，需要根据需要选择合适的进行安装和使用。…

python 2023年5月14日
000
04 Python网络爬虫 <<爬取get/post请求的页面数据>>之requests模块

一. urllib库　　urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中就是urllib和urllib2。二.requests库　　- 安装: pip install requests 　　-…

爬虫 2023年4月8日
000
Python网络爬虫之三种数据解析方式

requests实现数据爬取的流程： 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储三种数据解析方式 1.正则解析 2.xpath解析 3.bs4解析一、正解解析常用正则表达式回顾：单字符： . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 …

爬虫 2023年4月16日
000

合作推广

合作推广

返回顶部