通过wireshark获取应用接口并使用爬虫爬取网站数据（三）

2023年4月11日上午9:54 • 爬虫

我的git地址唯空自取源码请上git上下载，包含所需jar包

接上文

浏览一部分图片之后发现了个问题，图片还是太小普遍不超过300k，而且很多图片上面都有另外一个网站的水印

果断点进去看看，果然不一样。图片全是高清的

然后知道了原来那个应用里面的图片全是从这个网站里面爬的，而且还都是压缩过的文件，太无耻了。。。

找到高清图该下手了

于是仿照之前那个模式开始了

然后命途多舛，它的app竟然是网页改版的，而且接口不跟之前那个一样简单。于是决定更新一下自己的爬虫，从单个网页进行爬取，爬全站大图

下面是代码：

第一个是队列类，存放链接，之所以放访问过的是为了防止重复访问，设置成static是为了不同类之间共享

package com.feng.main;

import java.util.LinkedList;
import java.util.Queue;

public class Queues {
    
    /**
     * 图片
     */
    public static Queue<String> imgUrlQueue = new LinkedList<String>();
    
    /**
     * 网页
     */
    public static Queue<String> htmlUrlQueue = new LinkedList<String>();
    
    /**
     * 下载后的图片
     */
    public static Queue<String> visitedImgUrlQueue = new LinkedList<String>();
    
    /**
     * 下载后的网页
     */
    public static Queue<String> visitedHtmlUrlQueue = new LinkedList<String>();

}

然后这个类是为了获取网页实体，并将实体转换为String类型方便处理

package com.feng.main;

import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;

public class HtmlContent {
    
    
    
    /**
     * 获取HttpEntity
     * @return HttpEntity网页实体
     */
    private HttpEntity getHttpEntity(String url){
        
        HttpResponse response = null;//创建请求响应
        
        //创建httpclient对象
        HttpClient httpClient = HttpClients.createDefault();
        
        HttpGet get = new HttpGet(url);
        
        RequestConfig requestConfig = RequestConfig.custom()
                .setSocketTimeout(5000)    //设置请求超时时间
                .setConnectionRequestTimeout(5000)        //设置传输超时时间
                .build();
        
        get.setConfig(requestConfig);//设置请求的参数
        
        //
        try {
            response = httpClient.execute(get);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        //获取返回状态 200为响应成功
//        StatusLine state = response.getStatusLine();
        
        //获取网页实体
        HttpEntity httpEntity = response.getEntity();
        
        return httpEntity;
//        try {
//            return httpEntity.getContent();
//        } catch (IllegalStateException | IOException e) {
//            // TODO Auto-generated catch block
//            e.printStackTrace();
//        }
//        return null;
    }
    

    
    
    
    /**
     * 获取整个html以String形式输出
     * @param url
     * @return
     */
    public String getContent(String url){
        
        HttpEntity httpEntity = getHttpEntity(url);
        String content = "";
        try {
            
            InputStream is = httpEntity.getContent();
            
            InputStreamReader isr = new InputStreamReader(is);
            
            char[] c = new char[1024];
            int l = 0;
            
            while((l = isr.read(c)) != -1){
                content += new String(c,0,l);
            }
            
            isr.close();
            is.close();
        } catch (IllegalStateException | IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        return content;
    }
    
}

下一个类是通过上面给的那个类传递过来的String类型的网页，从里面提取出来图片与html连接，并放入图片队列与网页队列中，这样就能保证每个网页只访问（下载）一次

同时也是获取链接的线程，使获取url与下载图片分开，这样就能使用双线程两者互不干扰同时也能通过共享的图片链接队列(imgUrlQueue)联系在一起

package com.feng.main;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class AddQueue extends Thread{
    //这里添加个regex是为了防止找到外部链接而使程序无法停止
    String regex = "";
    
    AddQueue(String regex){
        this.regex = regex;
    }
    
    public void run(){
        
        System.out.println("开始执行add线程");
        
        while(true){
            
            if(Queues.htmlUrlQueue.size() <50 || Queues.imgUrlQueue.size() < 100){
                
                
                //获取并移除
                String url = Queues.htmlUrlQueue.poll();
                
                String content = new HtmlContent().getContent(url);
                
                getHtmlUrl(content);
                getImagesUrl(content);
                
                //添加至已访问队列
                Queues.visitedHtmlUrlQueue.offer(url);
                
            }
        }
        
    }
    
    
    /**
     * 获取所有页面链接
     * @param context
     */
    public void getHtmlUrl(String context){
        
        //如何去除外部链接
        
        String regex = "http://([\\w-]+\\.)+[\\w-]+(/[\\w-./?%&=]*)?";
        
        
        
        Pattern p = Pattern.compile(regex);
        Matcher m = p.matcher(context);
        
        while(m.find()){
            
            String url = m.group();
            
            if(!Queues.visitedHtmlUrlQueue.contains(url) && url.contains(this.regex)){
                Queues.htmlUrlQueue.offer(url);
                System.out.println("add Html url : "+url);
            }
            
            
        }
        
    }
    
    /**
     * 获取所有图片链接
     * @param context
     */
    public void getImagesUrl(String context){
        
        //如何去除外部链接
        
        String regex = "http://([\\w-]+\\.)+[\\w-]+(/[\\w-./?%&=]*)?(.jpg|.mp4|.rmvb|.png|.mkv|.gif|.bmp|.jpeg|.flv|.avi|.asf|.rm|.wmv)+";
        
        Pattern p = Pattern.compile(regex);
        Matcher m = p.matcher(context);
        
        while(m.find()){
            
            String url = m.group();
            
            if(!Queues.visitedImgUrlQueue.contains(url) && url.contains(this.regex)){
                Queues.imgUrlQueue.offer(url);
                System.out.println("add Image url : "+url);
            }
            
            
        }
        
    }

}

最后是下载类，这个是上一篇文章里面的精简版

package com.feng.main;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;

public class DownLoadImg {
    
    List<String> imgFormat = new ArrayList<String>();
    
    DownLoadImg(){
        
        imgFormat.add("jpg");
        imgFormat.add("jpeg");
        imgFormat.add("png");
        imgFormat.add("gif");
        imgFormat.add("bmp");
        
    }

    
    
    /**
     * 获取HttpEntity
     * @return HttpEntity网页实体
     */
    private HttpEntity getHttpEntity(String url){
        
        HttpResponse response = null;//创建请求响应
        
        //创建httpclient对象
        HttpClient httpClient = HttpClients.createDefault();
        
        HttpGet get = new HttpGet(url);
        
        RequestConfig requestConfig = RequestConfig.custom()
                .setSocketTimeout(5000)    //设置请求超时时间
                .setConnectionRequestTimeout(5000)        //设置传输超时时间
                .build();
        
        get.setConfig(requestConfig);//设置请求的参数
        
        //
        try {
            response = httpClient.execute(get);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        //获取返回状态 200为响应成功
//        StatusLine state = response.getStatusLine();
        
        //获取网页实体
        HttpEntity httpEntity = response.getEntity();
        
        return httpEntity;
//        try {
//            return httpEntity.getContent();
//        } catch (IllegalStateException | IOException e) {
//            // TODO Auto-generated catch block
//            e.printStackTrace();
//        }
//        return null;
    }
    


    

    
    /**
     * 下载图片
     * @param url
     * @param is
     */
    public int downloadImage(String url){
        

        
        try{
            
            HttpEntity httpEntity = getHttpEntity(url);
            
            long len = httpEntity.getContentLength()/1024;
            
            System.out.println("下载的文件大小为："+len+"k");
            
            if(len < 150){
                
                System.out.println("Warring：文件太小，不予下载--------");
                
                return 0;
            }
            
            String realPath =  getRealPath(url);
            String name = getName(url);
            
            System.out.println("文件夹路径："+realPath);
            System.out.println("文件名字："+name);
            
            InputStream is = httpEntity.getContent();
            
            //此方法不行
//            System.out.println(is.available()/1024+"k");
            
            
            int l = 0;
            byte[] b = new byte[1024];
            
            FileOutputStream fos = new FileOutputStream(new File(realPath+"/"+name));
            
            while((l = is.read(b)) != -1){
                fos.write(b, 0, l);
            }
            
            fos.flush();
            fos.close();
            is.close();
            
            
            System.out.println("下载："+url+"成功\n");
            
        }catch(Exception e){
            System.out.println("下载："+url+"失败");
            e.printStackTrace();
        }
        
        return 1;
    }
    
    

    /**
     * 创建并把存储的位置返回回去
     * @param url
     * @return
     */
    private String getRealPath(String url){
        
        Pattern p = Pattern.compile("images/[a-z]+/[a-z_0-9]+");
        Matcher m = p.matcher(url);
        
        String format = getName(url).split("\\.")[1];
        
        String path = null;
        
        //说明是图片
        if(imgFormat.contains(format)){
            path = "media/images/";
        }else{
            path = "media/video/";
        }
        
        path += url.split("/")[(url.split("/").length-2)];
        
        if(m.find()){
            path = m.group();
        };
        
        //添加盘符
        path = "D:/"+path;
        
        File file = new File(path);
        
        if(!file.exists()){
            file.mkdirs();
        }
        
        
        return path;
        
    }
    
    /**
     * 获取文件名
     * @param url
     * @return
     */
    private String getName(String url){
        
//        s3.substring(s3.lastIndexOf("/")+1)

        return url.substring(url.lastIndexOf("/")+1);
        
    }
}

然后是下载图片的线程

package com.feng.main;

public class DownloadImages extends Thread{

    public void run(){
        
        System.out.println("开始下载");
        
        while(Queues.imgUrlQueue.size() > 0){
            
        //只要有数据就下载
        //可以多线程执行下载
        
            String url = Queues.imgUrlQueue.poll();
            
            System.out.println("开始下载："+url);
            //下载
            new DownLoadImg().downloadImage(url);
            
            Queues.visitedImgUrlQueue.offer(url);
        
        }
        
    }
    
}

最后就是主方法了

package com.feng.main;

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MainTest {
    
    public static void main(String[] args) {
        

        
        String startUrl = "http://www.jdlingyu.net/cosplay/";
        
        Pattern p = Pattern.compile("http://([\\w-]+\\.)+[\\w-]+");
        
        Matcher m = p.matcher(startUrl);
        
//        down.start(startUrl);
        m.find();
        String regex = m.group();
        
        System.out.println("regex : "+regex);
        
        Queues.htmlUrlQueue.offer(startUrl);
        
        //在线程池开启三个线程
        ExecutorService pool = Executors.newFixedThreadPool(3);
        
        Thread add = new AddQueue(regex);
        Thread down = new DownloadImages();
        
        //加入线程池
        pool.execute(add);
        
        try {
            //延时进行下载，防止后面执行下载时urlQueue中没有链接
            Thread.sleep(5000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        
        pool.execute(down);
        pool.execute(down);
        
        pool.shutdown();
        
        
    }
    
    
    

}

最后完成，开始下载。

通过wireshark获取应用接口并使用爬虫爬取网站数据（三）

在最后，成果展示

通过wireshark获取应用接口并使用爬虫爬取网站数据（三）

《完》

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：通过wireshark获取应用接口并使用爬虫爬取网站数据（三） - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

通过wireshark获取应用接口并使用爬虫爬取网站数据（二）

上一篇 2023年4月11日

Python爬虫之post请求

下一篇 2023年4月11日

python 开心网和豆瓣日记爬取的小爬虫

Python 开心网和豆瓣日记爬取的小爬虫是一个比较简单的网页抓取程序，用于获取指定网站的日记文章，并将其存储到本地文件中。本文将阐述该小爬虫的完整攻略，包括实现的步骤和示例说明。环境准备在实现该小爬虫之前，需要先安装 Python 3.x 和 requests 库以及 BeautifulSoup 库。其中，requests 库和 BeautifulSo…

python 2023年5月14日
000
如何应对网站反爬虫策略？如何高效地爬大量数据?

爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)，这之间的斗争恢宏壮阔… Day 1 小莫想要某站上所有的电影，写了标准的爬虫(基于HttpClient库)，不断地遍历某站的电影列表页面，根据 Html 分析电影名字存进自己的数据库。这个站点的运维小黎发现某个时间段请求量陡增，分析日志发现都是 IP…

爬虫 2023年4月12日
000
python 图片爬虫抓取图片系列三——爬取搜狗图片库中的图片

来自《Python项目案例开发从入门到实战》（清华大学出版社郑秋生夏敏捷主编）中爬虫应用——抓取百度图片本文爬取了搜狗图片库中的图片，相对于爬取特定网页中的图片，爬取图片库中的图片相对复杂一些，复杂的原因主要在于图片的动态加载上。图片库中的图片太多，所以访问网页的时候不是一次性把图片全部加载出来，而是根据鼠标滚轮的行为进行动态加载。这会导致和之…

爬虫 2023年4月10日
000
利用Python爬虫实现抢购某宝秒杀商品

我来为您讲解如何利用Python爬虫实现抢购某宝秒杀商品。 1. 准备工作在准备实现爬虫的过程中，需要以下几项基础工作： Python基础知识：掌握Python的基本语法和常用模块；爬虫工具：选择合适的爬虫工具，如Requests、BeautifulSoup、Selenium等；抓包工具：爬虫需要模拟浏览器发送请求和解析响应，需要使用类似Wiresha…

python 2023年5月14日
002
python爬虫 — 处理emoji表情符导致xpath无法正常解析网页的问题

前言本篇文章很短，就是记录一个偶然遇到的问题问题复现是这样的，在用xpath解析某网站的时候，由于网站数据格式是普通的html，而非json字符串，所以只能解析DOM对象，有的能用正则表达式的我都尽量用正则表达式了，没法用正则的我都用beautifulsoup库或者pyquery了，但是没法，通用型还是没法跟xpath比，而且我已经写好一版…

爬虫 2023年4月13日
000
python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

我们来详细讲解”python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例”这个话题，包括以下内容：什么是Python爬虫？为什么要使用爬虫库？ Requests库和Urllib库的介绍和区别今日头条搜索功能爬取内容实例其他爬虫库的简要介绍及应用 1. 什么是Python爬虫？ Python爬虫是指使…

python 2023年5月14日
000
python 爬取壁纸网站的示例

我们来详细讲解一下如何用 Python 爬取壁纸网站。 1. 确定爬取目标首先，我们需要确定需要爬取的壁纸网站。以 Unsplash 壁纸网站为例。 2. 分析页面结构打开 Unsplash 网站，我们可以看到各种精美的壁纸，每一页都有多张图片。我们可以使用 Chrome 浏览器自带的开发者工具，通过检查页面元素来分析页面结构。可以看到每张图片都被包含在…

python 2023年5月14日
000
【Python爬虫】HTTP基础和urllib库、requests库的使用

一个网络爬虫的编写主要可以分为三个部分： 1.获取网页 2.提取信息 3.分析信息本文主要介绍第一部分，如何用Python内置的库urllib和第三方库requests库来完成网页的获取。阅读完本文后，读者将能利用这2个库获取一个网页的HTML代码。但是首先，我们需要一点网络方面的基本知识，才能更好的理解爬虫。为此，读者应该理解以下知识： 1.什么是H…

爬虫 2023年4月10日
000

通过wireshark获取应用接口并使用爬虫爬取网站数据（三）

相关文章