爬虫初识(爬取dytt电影列表及下载地址)

2023年4月11日下午10:14 • 爬虫

import re
from  urllib.request import urlopen
def getPage(url):
    response=urlopen(url)
    return response.read().decode('gbk',errors='ignore')
def parsePage(s):
    com=re.compile(r'<td height="26">.*?<b>.*?<a href="(?P<url_name>.*?)" class="ulink">.*?',re.S)
    ret=com.finditer(s)
    for i  in  ret :
        return "http://www.dytt8.net"+i.group("url_name")
def parsePage1(s):
    com=re.compile(r'<div >'+
'◎主.*?演(?P<zhuyan>.*?)<br /><br />◎简.*?介.*?<td.*?><a href="(?P<xiazaidizhi>.*?)">',re.S)
    ret1=com.finditer(s)
    # print('****************************************************************')
    for i  in  ret1 :
        yield {"yiming":(re.sub("[\u3000]", "",i.group('name'))),
                "pianming":re.sub("[\u3000]", "",i.group("pianname")),
                "daoyan":re.sub("[\u3000]", "",i.group("daoyan")),
                "zhuyan":re.sub("[\u3000]", "",i.group("zhuyan")),
                "xiazaidizhi":re.sub("[\u3000]", "",i.group("xiazaidizhi"))}
def main(num):
    url="http://www.dytt8.net/html/gndy/dyzz/list_23_%s.html" % num
    response_html=getPage(url)
    xiangqing=parsePage(response_html)
    response1_html = getPage(xiangqing)
    ret=parsePage1(response1_html)
    f = open("move_list", "a", encoding="utf8")
    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
for i in range(1,181):
    main(i)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫初识(爬取dytt电影列表及下载地址) - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

java爬虫爬取学校毕设题目

上一篇 2023年4月11日

爬虫利用keep-alive实现“减员增效”

下一篇 2023年4月11日

爬虫学习（八）——带cookie的网页进行爬取

# 前提：# # 通常，很多网站需要登录才能进行浏览，所以在爬取这些网站时，也需要进行登录，并拿取登录时的cookie# # 登录网页，服务器会给客户端一个牌子cookie# # 访问登录页面时，带着牌子进行请求才能返回响应# # 登录界面的爬取# 做法： # 找到牌子，带着牌子进行请求 # cookie有的在请求头里# 如下是在登录后的页面中找到请求头里的…

爬虫 2023年4月11日
000
深入剖析Python的爬虫框架Scrapy的结构与运作流程

深入剖析Python的爬虫框架Scrapy的结构与运作流程 Scrapy的结构 Scrapy是一个基于Python语言并采用了Twisted异步网络框架的开源爬虫框架，其整个架构由以下组件构成：引擎(Engine)：控制各个组件之间的信号传递和流转。调度器(Scheduler)：管理爬取请求的队列，并通过引擎将请求发送给爬虫。下载器(Downloade…

python 2023年5月14日
000
python scrapy爬虫代码及填坑

接下来我将为您详细讲解“python scrapy爬虫代码及填坑”的完整攻略。一、scrapy爬虫代码 Scrapy是一个Python框架，它主要用于抓取Web站点，并从中提取所需的数据。Scrapy由以下三个主要组件组成：Scrapy引擎、调度程序和下载器。在使用Scrapy框架时，您需要编写爬虫代码以定义抓取的目标站点以及所需数据的选择器。以下是一个简…

python 2023年5月14日
000
Java爬虫，信息抓取的实现

java思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析，当然Jsoup很方便，也很简单，一行代码就能知道怎么用了： 1 Document doc = Jsoup.connect(“http://www.oschina.net/”) 2 .data(“query”, “Java…

爬虫 2023年4月11日
000
猫眼100 爬虫

完整代码 import requests # 获取网页数据 import re # 正则表达式 from bs4 import BeautifulSoup # 网页解析，获取数据 import xlwt # 保存为excel findIndex = re.compile(r’board-index.*?>(\d+).*?’) findImage = r…

爬虫 2023年4月16日
000
爬虫必备—性能相关（异步非阻塞）

在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 1. 同步执行 1 import requests 2 3 def fetch_async(url): 4 response = requests.get(url) 5 return response 6 7 8 url_list = [‘htt…

爬虫 2023年4月12日
000
python之微信爬虫

调查自己微信中好友的数据分析代码如下 1 # -*- coding: utf-8 -*- 2 “”” 3 Created on Wed Jun 5 12:33:27 2019 4 5 @author: m1353 6 “”” 7 8 from wxpy import Bot 9 import openpyxl 10 from pyecharts imp…

爬虫 2023年4月11日
000
关于python爬虫的编码错误

现在才发现很多错误只有自己一点点的去尝试才能发现。不管之前别人怎么和你说，总是不可能面面俱到，所以提升自己的方法就是亲手实践，自己一点点的去发现问题，并一个个的解决。慢慢享受其中无言的快感。今天就发现了一个：运行爬虫时出现了这个错误： UnicodeEncodeError: ‘ascii’ codec can’t encode character u’…

爬虫 2023年4月16日
001

合作推广

合作推广

返回顶部