爬虫代码，正则表达，下载图片

2023年4月13日上午1:24 • 爬虫

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

　 re.compile() 可以把正则表达式编译成一个正则表达式对象.

　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

　　这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫代码，正则表达，下载图片 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

python爬虫简单代码爬取郭德纲单口相声

上一篇 2023年4月13日

Scrapy爬虫框架入门

下一篇 2023年4月13日

Python爬虫文件下载图文教程

Python爬虫文件下载图文教程 Python爬虫是一种应用比较广泛的技术，可以用来获取互联网上的各种数据，其中包括文件。本文主要介绍如何使用Python爬虫下载文件的技巧。步骤一：安装必要的 Python 库使用 Python 程序进行爬虫需要使用特定的 Python 库，包括但不限于 requests、BeautifulSoup、urllib 等。可…

python 2023年5月14日
001
爬虫—Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘…

爬虫 2023年4月13日
000
python构建基础的爬虫教学

Python构建基础的爬虫教学概述爬虫是一种自动化抓取网页数据的程序，可以帮助我们快速获取海量数据。Python作为一种易于学习、简洁明了、功能齐全的编程语言，是非常适用于构建爬虫应用的语言。在本篇教程中，我们将介绍Python构建基础的爬虫应用的入门知识，包括Python爬虫的基本原理、库的使用以及实战案例。基本原理 Python爬虫的基本原理是通过…

python 2023年5月14日
000
python爬虫—详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题

一丶爬虫概述通过编写程序’模拟浏览器’上网,然后通过程序获得互联网中爬取数据的过程二丶爬虫分类通用爬虫: # 爬取一整张页面源码数据.搜索引擎(抓取系统,内部封装的一套爬虫程序). 重点使用的是该种形式的爬虫聚焦爬虫: # 抓取的是页面中指定的局部数据增量式爬虫: # 监测网站的数据更新情况. 抓取的是网站最新更新的数据三丶爬虫安全性…

爬虫 2023年4月11日
000
python 黑板课爬虫闯关-第四关

这关我慢慢悠悠的做了两天才搞出来，思路太重要了；下面是我最终的代码，写的很烂很low，凑合看吧。这过程中走了不少弯路，思路有问题，给自己出了不少难题，最后发现是自己想复杂了。用到的技术：字符串、列表、集合、字典等基础操作 requests模块的get、post、session等用法多线程、以及获取多线程返回值 import re,requests,…

爬虫 2023年4月13日
000
python爬虫 – js逆向解密之简单端口加密破解v2 — 修复版

前言这篇跟上一篇很像，而且他的端口显示也很类似，是的，它也是一个国外的代理网站分析打开网站查看：发现它的的端口和之前的网站一样，不是直接显示的，那么用SmallProxy这个关键词搜索下在哪，很快就找到了下面这个：关键点代码： <script type=”text/javascript”> //<…

爬虫 2023年4月13日
000
python爬虫抓取哈尔滨天气信息（静态爬虫）

python 爬虫爬取哈尔滨天气信息 – http://www.weather.com.cn/weather/101050101.shtml 环境： windows7 python3.4（pip install requests；pip install BeautifulSoup4）代码：（亲测可以正确执行） 1 # coding:utf-8 2…

爬虫 2023年4月11日
000
python爬虫 – js逆向之取巧秒解webpack打包的加密参数

前言今天的分析对象是这个：aHR0cHM6Ly9tLmN{防查找，去掉我，包括大括号}0eXVuLmNuL3dhc{防查找，去掉我，包括大括号}C9tYWluL2F1dGgv{防查找，去掉我，包括大括号}bG9naW4= 就是去搞这个登录接口的加密参数就这三个参数第一个不用说，就是个时间戳第二个comParam…

爬虫 2023年4月13日
000

合作推广

返回顶部

爬虫代码，正则表达，下载图片

相关文章