爬虫 spider

2023年4月13日下午9:19 • 爬虫

python 2.x

# -*- coding: utf-8 -*-
import re
import urllib

url = 'http://tieba.baidu.com/p/4872795764'
page = urllib.urlopen(url)
html = page.read()

r = 'src="(.*?\.jpg)" size'         # 注意此处？的作用，取消贪婪匹配 结合findall方法，只匹配分组中的内容
imgre = re.compile(r)
imglist = re.findall(imgre, html)

count = 0
for imgurl in imglist:
    urllib.urlretrieve(imgurl, filename='mac_book Pro %s.jpg' % count)
    count += 1




函数：

def gethtml(url):
    html = urllib.urlopen(url).read()
    return html

def getimg(html):
    r = 'src="(.*?\.jpg)" size'
    imgre = re.compile(r)
    imglist = re.findall(imgre, html)
    print imglist
    count = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, filename='mac_book_Pro_%s.jpg' % count)
        count += 1
html = gethtml('http://tieba.baidu.com/p/4872795764')
getimg(html)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫 spider - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

用python写爬虫笔记（一）

上一篇 2023年4月13日

爬虫—Scrapy

下一篇 2023年4月13日

爬虫爬取图片解决防盗链方法

今天爬一个数据是大拇指网发布的数据，它的站点图片是防盗链，所以导致图片无法入库，怎么办？在查阅一些资料后，找到解决办法，在此分享下： URL url = new URL(“”); // 获得连接 URLConnection connection = url.openConnection(); connection.setRequestPr…

爬虫 2023年4月11日
000
爬虫

python爬虫 – js逆向之猿人学第十二题base64加密

前言继续分析，为什么一下从第二题跳到了十二题，我也不知道为啥他这个平台的难度不循序渐进，把这么一个非常简答的题放在了后面，既然简单，那就快速解决了分析打开界面：翻页，找接口：看参数：也是m，不多说，看到最后有【=】，先猜一波是不是base64，拿着去解码：发现就是yuanrenxue+页…

2023年4月13日
000
node.js简单爬虫的方法是什么

这篇文章主要介绍“node.js简单爬虫的方法是什么”，在日常操作中，相信很多人在node.js简单爬虫的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”node.js简单爬虫的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！步骤一：安装node.js 下载并安装node，此步骤比较简单就不详细解释了，有…

爬虫 2023年4月12日
000
python3爬虫 —–爬取斗图息——-www.doutula.com

普通爬取： 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 import requests 5 from lxml import etree 6 import re 7 import urllib 8 import os 9 import time 10 11 12 13 def p…

爬虫 2023年4月11日
000
python_爬虫_multiprocessing.dummy以及multiprocessing

”’ # 代码范本任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数； ”’ from multiprocessing import Pool as processPoll from multiprocessing.dummy import Pool as ThreadPool def get_page(): # 任务执行 pass de…

爬虫 2023年4月11日
000
批量下载xx艺术照片的简单爬虫

首先声明下，这个爬虫采用的框架来自慕课网的一段视频教程http://www.imooc.com/view/563，原来的爬虫是爬取1000个跟python相关的百度百科页面的标题和摘要。经过改造，本文的爬虫是爬取100个人体艺术页面，下载每个页面上的艺术图片，并汇总每个页面及页面上所有艺术图片的链接地址。该爬虫分为主控程序（spider_mian）、url…

爬虫 2023年4月11日
000
Python之路【第十九篇】：爬虫 Python之路【第十九篇】：爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另…

爬虫 2023年4月11日
000
python实现知乎高颜值图片爬取

下面是“python实现知乎高颜值图片爬取”的完整攻略：知乎高颜值图片爬取 1. 确认目标在开始爬取之前，我们需要明确自己需要爬取的内容。本次爬取的目标是知乎上发布的高颜值图片，例如：https://www.zhihu.com/question/350483283/answer/1015350064 2. 获取网页源代码为了能够得到该问题下所有的回答，…

python 2023年5月14日
000

合作推广

返回顶部

爬虫 spider

相关文章