【原创】python爬虫获取网站数据并存入本地数据库

2023年4月13日上午2:48 • 爬虫

#coding=utf-8
import urllib
import re
import MySQLdb
dbnumber = MySQLdb.connect('localhost', 'root', '*******', 'dbname')           #连接本地数据库
cursor = dbnumber.cursor()
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html

def getnumber(html):
    reg=r'm>(\d+)<'         #通过正则表达抓取网站数字
    number=re.compile(reg)
    numberlist=re.findall(number,html)
    return numberlist
html=getHtml("http://baidu.lecai.com/lottery/draw/list/50?type=range_date&start=2005-06-08&end=2003-02-23")          #目标网站页面

for i in range(10000):           #设置一个循环
    try:
        n = 7 * i
        sql_insert = "INSERT INTO dbnumber(red_1) VALUES(%s)" %getnumber(html)[n]            #将获取的数据存入本地数据库
        cursor.execute(sql_insert)
    except Exception:
        break
dbnumber.commit()
dbnumber.close()             #最后关闭数据库连接

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【原创】python爬虫获取网站数据并存入本地数据库 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

Python 002- 爬虫爬取淘宝上耳机的信息

上一篇 2023年4月13日上午2:47

【Python爬虫错误】’scrapyd-deploy’ 不是内部或外部命令，也不是可运行的程序或批处理文件

下一篇 2023年4月13日

爬虫.requests.exceptions.ConnectionErro

requests.exceptions.ConnectionError: HTTPConnectionPool(host=’jy-qj.com.cn’, port=80): Max retries exceeded with url: / (Caused by NewConnectionError(‘<requests.packages.urllib3…

爬虫 2023年4月11日
000
【scrapy网络爬虫】之七 UA池和代理池在scrapy中的应用【python网络爬虫】之requests相关模块

一.下载中间件下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 – 作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，下载中间件可以对响应进行一系列处理。比如进行gzip…

爬虫 2023年4月12日
000
Python–天猫详情页爬虫

淘宝天猫商品抓取分类： python 数据来源 –TTyb 2017-11-11 858 1833 本文基于 360 浏览器查看源码， python3.4 编码，爬虫基础需要学习的请看爬虫教程。淘宝天猫的网页反爬虫很严重，存在大量的验证码、登陆提示、浏览限制等等机制，但是毕竟一山还有一山高，机器永远比不上人的聪明，所以…

爬虫 2023年4月11日
000
python爬虫学习（3）：使用User-Agent和代理ip

使用User-Agent方法一，先建立head，作为参数传进去 import urllib.requestimport json content=input(“请输入需要翻译的内容:”)url=’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’ data={} d…

爬虫 2023年4月11日
000
爬虫分页信息的获取（ruby+selenium python+selenium）

在爬虫的时候，我们会遇到一些问题，即使获取到全文的url，但是可能page的连接获取不完整，就会导致我们爬虫的时候，比如说爬商品信息，就会拿不完整商品信息。页面信息大概有这两种情况：第一种：　　　　1，2，3，4，5，…，next，last 第二种：　　　　1，2，3，4，5，> 实现语言：ruby or python（提供两种）爬虫工…

爬虫 2023年4月11日
000
Python爬虫模拟登录带验证码网站

当我们需要从需要登录认证的网站获取数据时，就需要通过模拟登录来获取数据。以下是基于Python的爬虫模拟登录带验证码的完整攻略。选择合适的登录方式网站的登录方式有多种，包括用户名密码登录、短信验证码、第三方认证等等。基于不同的登录方式，我们需要使用不同的模拟登录方式。例如，如果是用户名密码登录，我们可以使用requests库发送POST请求实现模拟登录；…

python 2023年5月14日
000
step3: 创建jobbole爬虫

scrapy startproject Redbacktestcd Redbacktest 创建jobbole爬虫 scrapy genspider jobbole2 blog.jobbole.com 从pycharm中导入后创建main文件 from scrapy.cmdline import execute import sys sys.path.app…

爬虫 2023年4月13日
000
PHP抓取豆瓣读书爬虫代码

<?php//演示地址 http://asizu.sinaapp.com/reptile_douban.php//数据量不是特别大，没有写抓完数据便停止。喜欢的朋友拿去自己改改就好了header(“Content-Type:text/html;charset=utf-8”); define(“MYSQL_HOST”,SAE_MYSQL_HOST_M)…

爬虫 2023年4月11日
000

合作推广

返回顶部

【原创】python爬虫获取网站数据并存入本地数据库

相关文章