基于nodejs 的多页面爬虫

2023年4月11日下午9:32 • 爬虫

前言

前端时间再回顾了一下node.js，于是顺势做了一个爬虫来加深自己对node的理解。
主要用的到是request，cheerio，async三个模块
request
用于请求地址和快速下载图片流。
https://github.com/request/request
cheerio
为服务器特别定制的，快速、灵活、实施的jQuery核心实现.
便于解析html代码。
https://www.npmjs.com/package/cheerio
async
异步调用，防止堵塞。
http://caolan.github.io/async/

核心思路

用request 发送一个请求。获取html代码，取得其中的img标签和a标签。
通过获取的a表情进行递归调用。不断获取img地址和a地址，继续递归
获取img地址通过request(photo).pipe(fs.createWriteStream(dir + “/” + filename));进行快速下载。

function requestall(url) {
  request({
    uri: url,
    headers: setting.header
  }, function (error, response, body) {
    if (error) {
      console.log(error);
    } else {
      console.log(response.statusCode);
      if (!error && response.statusCode == 200) {
        var $ = cheerio.load(body);
        var photos = [];
        $('img').each(function () {
          // 判断地址是否存在
          if ($(this).attr('src')) {
            var src = $(this).attr('src');
            var end = src.substr(-4, 4).toLowerCase();
            if (end == '.jpg' || end == '.png' || end == '.jpeg') {
              if (IsURL(src)) {
                photos.push(src);
              }
            }
          }
        });
        downloadImg(photos, dir, setting.download_v);
        // 递归爬虫
        $('a').each(function () {
          var murl = $(this).attr('href');
          if (IsURL(murl)) {
            setTimeout(function () {
              fetchre(murl);
            }, timeout);
            timeout += setting.ajax_timeout;
          } else {
            setTimeout(function () {
              fetchre("http://www.ivsky.com/" + murl);
            }, timeout);
            timeout += setting.ajax_timeout;
          }
        })
      }
    }
  });
}

　　

防坑

1.在request通过图片地址下载时，绑定error事件防止爬虫异常的中断。
2.通过async的mapLimit限制并发。
3.加入请求报头，防止ip被屏蔽。
4.获取一些图片和超链接地址，可能是相对路径（待考虑解决是否有通过方法）。

function downloadImg(photos, dir, asyncNum) {
  console.log("即将异步并发下载图片，当前并发数为:" + asyncNum);
  async.mapLimit(photos, asyncNum, function (photo, callback) {
    var filename = (new Date().getTime()) + photo.substr(-4, 4);
    if (filename) {
      console.log('正在下载' + photo);
      // 默认
      // fs.createWriteStream(dir + "/" + filename)
      // 防止pipe错误
      request(photo)
        .on('error', function (err) {
          console.log(err);
        })
        .pipe(fs.createWriteStream(dir + "/" + filename));
      console.log('下载完成');
      callback(null, filename);
    }
  }, function (err, result) {
    if (err) {
      console.log(err);
    } else {
      console.log(" all right ! ");
      console.log(result);
    }
  })
}

　　



测试：

可以感觉到速度还是比较快的。 
  

完整地址。https://github.com/hua1995116/node-crawler/

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：基于nodejs 的多页面爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python的基础爬虫（利用requests和bs4）

上一篇 2023年4月11日

大规模爬虫流程总结大规模爬虫流程总结

下一篇 2023年4月11日

爬虫笔记（十）——学会使用Fiddler

Fiddler是一个常见的抓包分析软件，同时我们可以利用它详细地对HTTP请求进行分析，并模拟对应的HTTP请求。为什么使用Fiddler软件？网络爬虫是自动爬取网页的程序，在爬取的过程中必然涉及客户端和服务器端之间的通信，自然也需要发送一些HTTP请求，并接收服务器返回的结果。在一些稍复杂的网络请求中，我们直接看网址变化是看不出规律的，此时如果要…

爬虫 2023年4月11日
000
python爬虫（十一） session

这是一个会话对象，对目标服务器得请求通过session来完成例如人人网爬取大鹏主页信息， # requests使用session,不用登录查看人人网大鹏信息 import requests url=’http://www.renren.com/PLogin.do’ id = input(‘请输入用户名：’) pw = input(‘请输入密码：’) da…

爬虫 2023年4月11日
000
python爬虫 Pyppeteer使用方法解析

Python爬虫 Pyppeteer使用方法解析 1. 什么是Pyppeteer Pyppeteer是一个基于Chrome Devtools协议的无界面Chrome浏览器控制库，可以让开发者利用Python来控制Chrome Devtools协议。通过Pyppeteer，我们可以用Python来自动获取网站数据、爬取数据等操作。 2. 安装Pyppeteer…

python 2023年5月14日
000
Python 爬虫：煎蛋网妹子图

使用 Headless Chrome 替代了 PhatomJS。图片保存到指定文件夹中。 1 import requests 2 from bs4 import BeautifulSoup 3 from selenium import webdriver 4 from selenium.webdriver.chrome.options import Opt…

爬虫 2023年4月11日
000
爬虫（17） – 面试(2) | 爬虫面试题库

1.什么是爬虫爬虫就是爬取网页数据，只要网页上有的，都可以通过爬虫爬取下来，比如图片、文字评论、商品详情等。一般二言，Python爬虫需要以下几步：找到网页URL，发起请求，等待服务器响应获取服务器响应内容解析内容（正则表达式、xpath、bs4等）保存数据（本地文件、数据库等） 2.爬虫的基本流程找到网页URL，发起请求，等待服务器响应 …

爬虫 2023年4月12日
000
快速搭建python爬虫管理平台

下面是详细讲解“快速搭建python爬虫管理平台”的完整攻略。准备工具在开始之前，你需要准备以下工具：- Python 3.x- Flask- MongoDB- PyMongo 步骤一：创建Flask应用首先，我们需要创建一个Flask应用。在命令行中输入以下内容： from flask import Flask app = Flask(__name_…

python 2023年5月14日
000
爬虫学习笔记：8684公交路线

SHOW ME THE CODE!!! 首先进行网页分析，具体操作：省略。 # -*- coding: utf-8 -*- “”” Created on Fri Dec 10 16:25:59 2021 @author: Hider “”” # 爬虫学习：8684公交路线 # 网站：https://www.8684.cn/ # 公交站点、地铁站点、违章、资讯…

爬虫 2023年4月13日
000
爬虫基础和入门

详情请戳爬虫基础介绍爬虫基本流程爬虫之Urllib库的基本使用 http和https协议 requests模块 requests模块进阶数据解析验证码处理动态数据加载移动端数据爬取 scrapy框架基础 scrapy持久化存储 scrapy递归解析和post请求日志等级和请求传参 UA池和代理池及selenium应用全站数据爬取分布式爬虫…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部