nodeJs爬虫获取数据简单实现代码

下面是关于“nodeJs爬虫获取数据简单实现代码”的完整攻略。

1. 前言

在讲解具体实现方法之前，我们需要了解一下什么是爬虫及其应用场景。

1.1 什么是爬虫

爬虫是指按照一定的规则自动从互联网上抓取信息的程序，也称网络爬虫、网络机器人。其工作模式基本上类似于人工去浏览网页，寻找信息，但爬虫可以在很短时间内处理大量信息。

1.2 爬虫的应用场景

在互联网上，我们可以通过爬虫获取大量的有价值的数据，如：商品价格信息、股票交易数据、新闻媒体的文章、博客发布的内容、社交媒体网络上的数据等等。这些数据可以被用于数据分析、数据可视化、行为分析等方面。

2. 爬虫获取数据的基本流程

爬虫获取数据的基本流程包括以下几个步骤：

发起HTTP/HTTPS请求，获取网页源代码
解析源代码，提取需要的数据
保存数据

3. nodeJs爬虫获取数据简单实现代码

接下来，我们以爬取豆瓣电影排行榜为例，演示如何使用nodeJs实现一个简单的爬虫程序。

3.1 安装依赖

在终端中进入到你的项目目录下，执行以下命令安装依赖：

npm install request cheerio --save

其中，request库用于发送HTTP/HTTPS请求；cheerio库用于解析HTML文档。

3.2 发起HTTP请求，获取网页源代码

const request = require('request');

request.get('https://movie.douban.com/chart', (err, res, body) => {
  if (err) {
    console.log(err);
  } else {
    console.log(body);
  }
});

上述代码会向豆瓣电影排行榜发送GET请求，并获取网页源代码。其中，request.get()方法用于获取网页内容。它接受三个参数：

url: 请求的网址；
option: 请求的配置项；
callback: 请求完成后的回调函数。

我们只需要传入网址和回调函数即可。回调函数中的err代表请求的错误信息，res代表响应对象，body代表网页源代码。

3.3 解析HTML文档，提取需要的数据

const request = require('request');
const cheerio = require('cheerio');

request.get('https://movie.douban.com/chart', (err, res, body) => {
  if (err) {
    console.log(err);
  } else {
    const $ = cheerio.load(body);
    const items = $('.indent tbody tr');

    items.each((index, element) => {
      const title = $(element).find('.title a').text().trim();
      const rating = $(element).find('.rating_num').text().trim();
      console.log(`${index + 1}. ${title} - ${rating}`);
    });
  }
});

上述代码会使用cheerio库解析获取到的HTML文档，然后在控制台中输出排行榜的标题和评分。其中，$代表解析后的HTML文档，items代表解析后的电影列表。

使用each()方法遍历列表中的每一项，使用find()方法查找到当前项的标题和评分，并使用console.log()方法在控制台输出。值得注意的是，这里的index为遍历项的索引，element为遍历项的DOM元素。

4. 示例说明

下面，我们演示两个示例说明，包括豆瓣电影排行榜数据的爬取和写入文件操作。在示例中的项目中，需要在终端执行以下命令安装需要的依赖：

npm install request cheerio fs --save

4.1 示例一：获取豆瓣电影排行榜数据

const request = require('request');
const cheerio = require('cheerio');

request.get('https://movie.douban.com/chart', (err, res, body) => {
  if (err) {
    console.log(err);
  } else {
    const $ = cheerio.load(body);
    const items = $('.indent tbody tr');

    const data = [];
    items.each((index, element) => {
      const title = $(element).find('.title a').text().trim();
      const rating = $(element).find('.rating_num').text().trim();

      data.push({
        title: title,
        rating: rating
      });
    });

    console.log(data);
  }
});

上述代码中，我们首先在items.each()方法中，将电影的标题和评分保存在一个数组data中，最后输出data数组，以便做进一步的操作。

4.2 示例二：获取豆瓣电影排行榜数据，写入文件

const request = require('request');
const cheerio = require('cheerio');
const fs = require('fs');

request.get('https://movie.douban.com/chart', (err, res, body) => {
  if (err) {
    console.log(err);
  } else {
    const $ = cheerio.load(body);
    const items = $('.indent tbody tr');

    const data = [];
    items.each((index, element) => {
      const title = $(element).find('.title a').text().trim();
      const rating = $(element).find('.rating_num').text().trim();

      data.push({
        title: title,
        rating: rating
      });
    });

    fs.writeFile('douban-movie.txt', JSON.stringify(data, null, '\t'), (err) => {
      if (err) {
        console.log(err);
      } else {
        console.log('数据写入成功');
      }
    });
  }
});

上述代码中，我们在数据保存的示例基础上，使用fs.writeFile()方法将数组data写入到一个本地文件douban-movie.txt中。其中，第一个参数代表要写入的文件路径，第二个参数代表要写入的内容，使用JSON.stringify()方法将data数组转换成字符串，第三个参数则为可选参数，表示数据格式化的占位符。

5. 总结

本文介绍了爬虫获取数据的基本流程及其在nodeJs中的简单实现方法，最后给出了两个示例以方便读者理解。希望读者通过本文的介绍，对爬虫获取数据有了更深入的理解。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：nodeJs爬虫获取数据简单实现代码 - Python技术站