用Python做一个小说下载器,从获取数据到编写GUI界面

对于广大书虫而言,没有小说看是最痛苦的,你身边有这样的人吗?

今天咱们分享一个小说下载器代码,打包成exe后,发给你的小伙伴也能直接使用…

用Python做一个小说下载器,从获取数据到编写GUI界面

思路流程

什么是爬虫?

按照一定的规则, 去采集互联网上面数据

爬虫可以做什么?

  • 采集数据: 定制化采集数据
  • 自动化脚本:自动点赞/评论/刷票/商品抢购脚本/自动发送弹幕

爬虫基本实现思路?

一、数据来源分析

  1. 明确需求:
    - 采集的网站是什么?
    https://www.biqudu.net/1_1631/3047505.html
    - 采集的数据是什么?
    标题/内容
  2. 分析 标题/内容 是从哪里来的
    通过浏览器自带工具: 开发者工具抓包分析
    - 打开开发者工具: F12 / 鼠标右键点击检查选择network
    - 刷新网页
    - 搜索数据, 找到数据包
    https://www.biqudu.net/1_1631/3047505.html

二. 代码实现步骤

  1. 发送请求, 模拟浏览器对于url地址发送请求
    请求链接: https://www.biqudu.net/1_1631/3047505.html
  2. 获取数据, 获取服务器返回响应数据内容
    开发者工具: response
  3. 解析数据, 提取我们想要的数据内容
    标题/内容
  4. 保存数据, 把数据保存本地文件

代码实现

在开始之前,为了防止大家代码看不懂,我特地录制了一套详细教程,教程和代码,直接加这个裙 708525271 自取就好了

 

用Python做一个小说下载器,从获取数据到编写GUI界面

 

一、单张小说下载

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回响应数据内容

import requests
# 请求链接
url = 'https://www.biqudu.net/1_1631/3047505.html'
# 模拟浏览器 headers 请求头
headers = {
    # user-agent 用户代理 表示浏览器基本身份信息
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# <Response [200]> 响应对象, 表示请求成功
print(response)

print(response.text)

 

解析数据,提取我们想要的数据内容。

import requests  # 数据请求
import re  # 正则
import parsel # 数据解析

# 请求链接
url = 'https://www.biqudu.net/1_1631/3047505.html'
# 模拟浏览器 headers 请求头
headers = {
    # user-agent 用户代理 表示浏览器基本身份信息
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# <Response [200]> 响应对象, 表示请求成功
print(response)

# 获取下来response.text <html字符串数据>, 转成可解析对象
selector = parsel.Selector(response.text)
# 提取标题
title = selector.xpath('//*[@class="bookname"]/h1/text()').get()
# 提取内容
content = '\n'.join(selector.xpath('//*[@id="content"]/text()').getall())
print(title)
print(content)

 

保存数据

# 数据请求模块 
import requests
# 正则表达式模块
import re
# 数据解析模块
import parsel
 
# 请求链接
url = 'https://www.biqudu.net/1_1631/3047505.html'
# 模拟浏览器 headers 请求头
headers = {
    # user-agent 用户代理 表示浏览器基本身份信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# <Response [200]> 响应对象, 表示请求成功
print(response)

# 获取下来response.text <html字符串数据>, 转成可解析对象
selector = parsel.Selector(response.text)
# 提取标题
title = selector.xpath('//*[@class="bookname"]/h1/text()').get()
# 提取内容
content = '\n'.join(selector.xpath('//*[@id="content"]/text()').getall())
print(title)
print(content)
# title <文件名> '.txt' 文件格式  a 追加保存 encoding 编码格式 as 重命名
with open(title + '.txt', mode='a', encoding='utf-8') as f:

    # 写入内容
    f.write(title)
    f.write('\n')
    f.write(content)
    f.write('\n')

 

二、整本小说下载

# 数据请求模块
import requests
# 正则表达式模块
import re
# 数据解析模块
import parsel
# 文件操作模块
import os
 
# 请求链接: 小说目录页
list_url = 'https://www.biqudu.net/1_1631/'
# 模拟浏览器 headers 请求头
headers = {
    # user-agent 用户代理 表示浏览器基本身份信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
html_data = requests.get(url=list_url, headers=headers).text
# 提取小说名字
name = re.findall('<h1>(.*?)</h1>', html_data)[0]
# 自动创建一个文件夹
file = f'{name}\\'
if not os.path.exists(file):
    os.mkdir(file)
 
# 提取章节url
url_list = re.findall('<dd> <a style="" href="(.*?)">', html_data)
# for循环遍历
for url in url_list:
    index_url = 'https://www.biqudu.net' + url
    print(index_url)

    headers = {
        # user-agent 用户代理 表示浏览器基本身份信息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    # 发送请求
    response = requests.get(url=index_url, headers=headers)
    # <Response [200]> 响应对象, 表示请求成功
    print(response)

    # 获取下来response.text <html字符串数据>, 转成可解析对象
    selector = parsel.Selector(response.text)
    # 提取标题
    title = selector.xpath('//*[@class="bookname"]/h1/text()').get()
    # 提取内容
    content = '\n'.join(selector.xpath('//*[@id="content"]/text()').getall())
    print(title)
    # print(content)
    # title <文件名> '.txt' 文件格式  a 追加保存 encoding 编码格式 as 重命名
    with open(file + title + '.txt', mode='a', encoding='utf-8') as f:

        # 写入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')

 

三、多线程采集

# 数据请求模块
import requests
# 正则表达式模块
import re
# 数据解析模块
import parsel
# 文件操作模块
import os
# 线程池
import concurrent.futures
 
 
def get_response(html_url):
    """
    发送请求函数
    :param html_url: 请求链接
    :return: response响应对象
    """
    # 模拟浏览器 headers 请求头
    headers = {
        # user-agent 用户代理 表示浏览器基本身份信息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response
 
 
def get_list_url(html_url):
    """
    获取章节url/小说名
    :param html_url: 小说目录页
    :return:
    """
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取小说名字
    name = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取章节url
    url_list = re.findall('<dd> <a style="" href="(.*?)">', html_data)
    return name, url_list
 
 
def get_content(html_url):
    """
    获取小说内容/小说标题
    :param html_url: 小说章节url
    :return:
    """
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取标题
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取内容
    content = re.findall('<div id="content">(.*?)<p>', html_data, re.S)[0].replace('<br/><br/>', '\n')
    return title, content
 
 
def save(name, title, content):
    """
    保存数据函数
    :param name: 小说名
    :param title: 章节名
    :param content: 内容
    :return:
    """
    # 自动创建一个文件夹
    file = f'{name}\\'
    if not os.path.exists(file):
        os.mkdir(file)
    with open(file + title + '.txt', mode='a', encoding='utf-8') as f:
        """
        第一章 标题
            小说内容
        第二章 标题
            小说内容
        """
        # 写入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')
    print(title, '已经保存')
 
 
def main(home_url):
    # index_url = 'https://www.biqudu.net' + url
    title, content = get_content(html_url=home_url)
    save(name, title, content)
 
 
if __name__ == '__main__':
    url = 'https://www.biqudu.net/1_1631/'
    name, url_list = get_list_url(html_url=url)
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=7)
    for url in url_list:
        index_url = 'https://www.biqudu.net' + url
        exe.submit(main, index_url)
    exe.shutdown()

 

四、采集排行榜所有小说

# 数据请求模块
import requests
# 正则表达式模块
import re
# 数据解析模块
import parsel
# 文件操作模块
import os
 
 
 
def get_response(html_url):
    """
    发送请求函数
    :param html_url: 请求链接
    :return: response响应对象
    """
    # 模拟浏览器 headers 请求头
    headers = {
        # user-agent 用户代理 表示浏览器基本身份信息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response
 
 
def get_list_url(html_url):
    """
    获取章节url/小说名
    :param html_url: 小说目录页
    :return:
    """
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取小说名字
    name = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取章节url
    url_list = re.findall('<dd> <a style="" href="(.*?)">', html_data)
    return name, url_list
 
 
def get_content(html_url):
    """
    获取小说内容/小说标题
    :param html_url: 小说章节url
    :return:
    """
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取标题
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取内容
    content = re.findall('<div id="content">(.*?)<p>', html_data, re.S)[0].replace('<br/><br/>', '\n')
    return title, content
 
 
def save(name, title, content):
    """
    保存数据函数
    :param name: 小说名
    :param title: 章节名
    :param content: 内容
    :return:
    """
    # 自动创建一个文件夹
    file = f'{name}\\'
    if not os.path.exists(file):
        os.mkdir(file)
    with open(file + title + '.txt', mode='a', encoding='utf-8') as f:
        """
        第一章 标题
            小说内容
        第二章 标题
            小说内容
        """
        # 写入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')
    print(title, '已经保存')
 
def get_novel_id(html_url):
    """
    获取小说ID
    :param html_url: 某分类的链接
    :return:
    """
    # 调用发送请求函数
    novel_data = get_response(html_url=html_url).text
    selector = parsel.Selector(novel_data)
    href = selector.css('.l .s2 a::attr(href)').getall()
    href = [i.replace('/', '') for i in href]
    return href
 
 
def main(home_url):
    href = get_novel_id(html_url=home_url)
    for novel_id in href:
        novel_url = f'https://www.biqudu.net/{novel_id}/'
        name, url_list = get_list_url(html_url=novel_url)
        print(name, url_list)
        for url in url_list:
            index_url = 'https://www.biqudu.net' + url
            title, content = get_content(html_url=index_url)
            save(name, title, content)
        break
 
 
if __name__ == '__main__':
    html_url = 'https://www.biqudu.net/biquge_1/'
    main(html_url)

 

五、搜索小说功能

模块

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入数据解析模块
import parsel
# 导入文件操作模块
import os
# 导入漂亮的表格
import prettytable as pt

 

发送请求函数

def get_response(html_url):
    # 模拟浏览器 headers 请求头
    headers = {
        # user-agent 用户代理 表示浏览器基本身份信息
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response

 

获取章节url/小说名

def get_list_url(html_url):
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取小说名字
    name = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取章节url
    url_list = re.findall('<dd> <a style="" href="(.*?)">', html_data)
    return name, url_list

 

获取小说内容/小说标题

def get_content(html_url):
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # 提取标题
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取内容
    content = re.findall('<div id="content">(.*?)<p>', html_data, re.S)[0].replace('<br/><br/>', '\n')
    return title, content

 

保存数据函数

def save(name, title, content):
    # 自动创建一个文件夹
    file = f'{name}\\'
    if not os.path.exists(file):
        os.mkdir(file)
    with open(file + name + '.txt', mode='a', encoding='utf-8') as f:
        # 写入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')
    print(title, '已经保存')

 

获取小说ID

def get_novel_id(html_url):
    # 调用发送请求函数
    novel_data = get_response(html_url=html_url).text
    selector = parsel.Selector(novel_data)
    href = selector.css('.l .s2 a::attr(href)').getall()
    href = [i.replace('/', '') for i in href]
    return href

 

搜索功能

def search(word):
    search_url = f'https://www.biqudu.net/searchbook.php?keyword={word}'
    # 发送请求
    search_data = get_response(html_url=search_url).text
    # 解析数据, 提取小说名字/作者/小说ID
    selector = parsel.Selector(search_data)
    lis = selector.css('.novelslist2 li')
    novel_info = []
    tb = pt.PrettyTable()
    tb.field_names = ['序号', '书名', '作者', '书ID']
    num = 0
    for li in lis[1:]:
        # 小说名字
        name = li.css('.s2 a::text').get()
        novel_id = li.css('.s2 a::attr(href)').get().replace('/', '')
        writer = li.css('.s4::text').get()
        dit = {
            'name': name,
            'writer': writer,
            'novel_id': novel_id,
        }
        tb.add_row([num, name, writer, novel_id])
        num += 1
        novel_info.append(dit)
    print('你搜索的结果如下:')
    print(tb)
    novel_num = input('请输入你想要下载的小说序号: ')
    novel_id = novel_info[int(novel_num)]['novel_id']
    return novel_id

 

主函数

def main(word):
    novel_id = search(word)
    novel_url = f'https://www.biqudu.net/{novel_id}/'
    name, url_list = get_list_url(html_url=novel_url)
    print(name, url_list)
    for url in url_list:
        index_url = 'https://www.biqudu.net' + url
        title, content = get_content(html_url=index_url)
        save(name, title, content)
        
if __name__ == '__main__':
    word = input('请输入你搜索小说名: ')
    main(word)

 

效果展示
用Python做一个小说下载器,从获取数据到编写GUI界面

六、GUI界面

import tkinter as tk
from tkinter import ttk
 
 
 
def show():
    name = name_va.get()
    print('输入的名字是:', name)
 
def download():
    name = num_va.get()
    print('输入的序号:', name)
 
 
# 创建界面
root = tk.Tk()
# 设置标题
root.title('完整代码添加VX:pytho8987')
# 设置界面大小
root.geometry('500x500+200+200')
# 设置可变变量
name_va = tk.StringVar()
# 设置标签
search_frame = tk.Frame(root)
search_frame.pack(pady=10)
# 设置文本
tk.Label(search_frame, text='书名 作者', font=('微软雅黑', 15)).pack(side=tk.LEFT, padx=10)
# 设置输入框
tk.Entry(search_frame, relief='flat', textvariable=name_va).pack(side=tk.LEFT)
 
# 序号获取
num_va = tk.StringVar()
# 查询下载输入框
download_frame = tk.Frame(root)
download_frame.pack(pady=10)
# 设置文本
tk.Label(download_frame, text='小说 序号', font=('微软雅黑', 15)).pack(side=tk.LEFT, padx=10)
# 设置输入框
tk.Entry(download_frame, relief='flat', textvariable=num_va).pack(side=tk.LEFT)
 
# 按钮设置
button_frame = tk.Frame(root)
button_frame.pack(pady=10)
 
# 设置查询按钮
tk.Button(button_frame, text='查询', font=('微软雅黑', 10), relief='flat', bg='#88e2d6', width=10, command=show).pack(side=tk.LEFT, padx=10)
# 设置下载按钮
tk.Button(button_frame, text='下载', font=('微软雅黑', 10), relief='flat', bg='#88e2d6', width=10, command=download).pack(side=tk.LEFT, padx=10)
 
# 提前设置标签名字和中文显示内容
columns = ('num', 'writer', 'name', 'novel_id')
columns_value = ('序号', '作者', '书名', '书ID')
tree_view = ttk.Treeview(root, height=18, show='headings', columns=columns)
# 设置列名
# 设置列名
tree_view.column('num', width=40, anchor='center')
tree_view.column('writer', width=40, anchor='center')
tree_view.column('name', width=40, anchor='center')
tree_view.column('novel_id', width=40, anchor='center')
# 给列名设置显示的名字
tree_view.heading('num', text='序号')
tree_view.heading('writer', text='作者')
tree_view.heading('name', text='书名')
tree_view.heading('novel_id', text='书ID')
tree_view.pack(side=tk.LEFT, fill=tk.BOTH, expand=True)
# 展示界面
root.mainloop()

 

效果展示

用Python做一个小说下载器,从获取数据到编写GUI界面

最后

全部实现以后,我们可以使用 Pyinstaller 模块将代码打包为exe可执行软件,这样的话,就能分享给不会的小伙伴去使用了。

好了,今天的分享就到这里结束了,欢迎大家品鉴!下次见!

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用Python做一个小说下载器,从获取数据到编写GUI界面 - Python技术站

(0)
上一篇 2023年3月31日 下午9:01
下一篇 2023年3月31日

相关文章

  • 花了一个月终于整理出来了,800道Python习题,试试你能做对多少道!

    最近沉寂的太久了,只为了给大家准备这一套试题,这大概是全网最全面的了,各位学这么久Python,检验学习成果的时间到了!! 话不多说我们直接开始把! 一、填空题 001、Python安装扩展库常用的工具是__________和conda,其中后者需要安装Python集成开发环境Anaconda3之后才可以使用,而前者是Python官方推荐和标配的; 我还给大…

    Python开发 2023年4月2日
    00
  • Python批量爬取大众点评数据

    众所周知,某点评是一直有JS加密的,所以关于它的外包一直都很贵,有些公司甚至用来面试,可见他的难度。 但是吧,最近他好像没有加密了,这~ 不值钱了啊! 那当时就忍不住了,就得用Python开始整活了!     话不多说,让我们上代码! 全部代码 今天就没那么多步骤了,直接上代码! import requests import parsel url = ‘ht…

    2023年4月2日
    00
  • Python爬取安居客房源信息,轻松获取优质房源!

    又到了所谓的金山银四就业季,那找工作的小伙伴宿舍住不惯的话,就会去租房子住,当然也不一定有宿舍,那么自己找房子的话,肯定是不知道哪哪好。 所以今天教大家用Python来采集本地房源数据,帮助大家筛选好房。 本文涉及知识点 爬虫基本流程 requests 发送请求 parsel 解析数据 csv 保存数据 开发环境 Python 3.8 Pycharm   本…

    Python开发 2023年3月31日
    00
  • Python之字典添加元素

    本文使用代码 book_dict = {“price”: 500, “bookName”: “Python设计”, “weight”: “250g”}   第一种方式:使用[] book_dict[“owner”] = “tyson”   说明:中括号指定key,赋值一个value,key不存在,则是添加元素(如果key已存在,则是修改key对应的value…

    Python开发 2023年3月31日
    00
  • 只用13行Python代码,实现给抖音APP自动点赞,非常简单!

    哈喽兄弟们,今天我们来试试,如何只用13行代码,给抖音APP视频自动点赞! 前因后果 事情是这样的,昨晚表弟晚上一两点了,房间灯还亮着,原来是还在用手机刷某音视频,我抢过手机一看,好家伙,连刷十个都是美女,喜欢列表也全是MM。 我看他手动点赞手都点累了,干脆熬个夜,给他写一个自动点赞的代码,今晚他就点一晚上赞,别睡了直接通宵吧! 好了不多哔哔,我们直接上代码…

    Python开发 2023年3月31日
    00
  • jupyter使用虚拟环境

    为了在jupyter中使用pyTorch的虚拟环境,来记录一下怎么操作一、conda命令的使用因为使用的是jupyter,所有就使用Anaconda Prompt来创建虚拟环境(也可使用virtualenv,不过没试过) conda create -n 环境名 # 创建的环境在默认路径下,C盘位置不够使用下面命令 # 指定创建路径 conda create …

    Python开发 2023年4月2日
    00
  • 两行Python代码实现自动打开百度并输入搜索词,超简单

    在群里面最常见的一句话就是,本群已和百度达成深度合作,有问题直接找百度即可! 好家伙~ 那我们今天就来试试,用Python自动打开百度找答案! 涉及知识点 基础语法 路由跳转 http 状态码 代码展示 首先导入咱们需要使用的模块 import platform import webbrowser # 我给大家准备了这些资料:Python视频教程、100本P…

    Python开发 2023年4月2日
    00
  • 13行python代码实现对微信进行推送消息

    Python可以实现给QQ邮箱、企业微信、微信等等软件推送消息,今天咱们实现一下Python直接给微信推送消息。 这里咱们使用了一个第三方工具pushplus 单人推送 实现步骤: 1、用微信注册一个此网站的账号2、将token复制出来,记录到小本本上。 代码展示 import requests # Python源码资料电子书领取群 279199867 de…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部