redis数据库属于非关系型数据库,数据存放在内存堆栈中,效率比较高。

其存储数据是以json格式字符串存储字典的,而类似的关系型数据库无法实现这种数据的存储。

在爬取数据时,将数据暂存到redis中,等数据采集完成后,在从redis里将数据读取,并写入mysql数据库中。

在数据采集方面不在多说,只需将项目settings文件下的pipelines管道文件里的本地数据管道注释,让redis来接收数据即可。

从redis写数据入mysql的代码实现:

其实就是一个独立的python脚本文件

import redis
import pymysql
import json,re


def table_exists(con, table_name):
    # 判断数据表是否已经创建
    sql = 'show tables;'
    con.execute(sql)
    tables = [con.fetchall()]
    table_list = re.findall('(\'.*?\')', str(tables))
    table_list = [re.sub("'", '', each) for each in table_list]  # 遍历并获得数据库表
    if table_name in table_list:
        return 1  # 创建了返回1
    else:
        return 0  # 不创建返回0


def process_item():
    #redis数据库创建连接池对象 并实例化一个连接
    pool=redis.ConnectionPool(host='127.0.0.1',port=6379,db=0,password='123456')
    redis_cli=redis.Redis(connection_pool=pool)

    #创建mysql数据库连接
    conn=pymysql.connect(user='root',  # 用户名
            password='1234',  # 密码
            db='lgweb',  # 数据库名
            host='127.0.0.1',  # 地址
            port=3306,
            charset='utf8')


    table_name = 'db_read'  # 数据库表
    # 没有对应数据库表则创建
    if (table_exists(conn.cursor(),table_name) != 1):
        sql = 'create table db_read(书名 VARCHAR (30),作者 VARCHAR (30),评分 VARCHAR (10),类型 VARCHAR (30),状态 VARCHAR (30),简介 VARCHAR (50),详情 VARCHAR (1000),最新章节 VARCHAR (50),封面 VARCHAR (100))'
        conn.cursor().execute(sql)  # 不存在则创建数据库表

    offset=0
    while True:

        #将数据从redis里pop出来
        source,data=redis_cli.blpop("read:items")
        #将redis字符串转为格式化的字典
        item=json.loads(data)
        #创建数据库游标
        cursor=conn.cursor()
        sql = "insert into db_read(书名,作者,评分,类型,状态,简介,详情,最新章节,封面)VALUES ('%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (
            item['book_name'],item['author'],item['score'],item['type'],item['state'],item['about'],item['story'],item['news'],item['photo'])
        cursor.execute(sql)     #执行数据插入
        conn.commit()           #提交记录

        cursor.close()          #关闭游标

        offset+=1
        print("正在保存第:"+str(offset)+"条记录")

if __name__ == '__main__':
    process_item()

redis数据库采用数据池连接的方式,更高效更方便。