Node Puppeteer图像识别实现百度指数爬虫的示例

现在我将详细讲解如何使用Node Puppeteer实现图像识别，以及如何使用它来实现百度指数爬虫。

Node Puppeteer基础

Node Puppeteer是一个NodeJS库，它提供了一个Chrome Headless浏览器的API，使你能够以编码的方式操作浏览器。它可以用来模拟用户交互，比如点击和填写表单等，还可以截取网页截图和生成PDF文件。在这个示例中，我们将使用Node Puppeteer的图像识别功能来实现百度指数爬虫。

安装Node Puppeteer

在继续之前，你需要先安装Node Puppeteer：

npm install puppeteer

监视当前页面

在开始编写代码之前，我们需要先启动Chrome浏览器来监视当前页面。你可以使用以下代码：

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
})();

运行上述代码之后，Chrome浏览器会自动启动并打开example.com页面。在这个过程中，你可以使用开发者工具来检查和调试页面。

截取网页截图

当Chrome浏览器已经启动后，你可以使用Page.screenshot()方法来截取当前页面。

await page.screenshot({path: 'example.png'});

这将截取一个名为example.png的PNG图像，并保存到当前目录中。

图像识别实现百度指数爬虫

现在，我们已经了解了Node Puppeteer的基本操作，接下来将介绍如何使用它来实现百度指数爬虫。

登录百度指数并输入关键词

我们需要先打开百度指数并登录。你可以使用以下代码：

// 使用puppeteer请求百度指数并登录
async function login() {
  const browser = await puppeteer.launch({
        headless: false
    }); // 开启非无头状态，方便观察爬虫运行效果
  const page = await browser.newPage();
  await page.goto('https://index.baidu.com'); //进入百度指数登录页面，此代码可能会失效
  await page.type('#TANGRAM__PSP_3__username', '用户名', { delay: 30 });
  await page.type('#TANGRAM__PSP_3__password', '密码', { delay: 30 });
  await page.click('#TANGRAM__PSP_3__submit');
  await page.waitForNavigation();
  return browser;
}

// 搜索关键词
async function search(browser, keyword) {
  const page = await browser.newPage();
  await page.goto('https://index.baidu.com');
  await page.waitFor('#schword');
  await page.type('#schword', keyword, { delay: 30 });
  await Promise.all([
        page.click('.searchButton'),
        page.waitForNavigation()
    ]);
  await page.waitForSelector('#viewbox');
  await page.waitFor(3000); //等待页面定位完成
}

在这段代码中，我们使用了Page.type()方法来模拟用户输入用户名和密码，并使用Page.click()方法来提交表单并登录。然后，我们使用Page.type()和Promise.all()来搜索关键词并进入结果页面。

获取百度指数数据

在进入结果页面后，我们需要使用图像识别来获取百度指数数据。

async function getBaiduIndex(browser, keyword) {
  const page = await browser.newPage();
  await page.goto(`https://index.baidu.com/v2/main/index.html#/trend/${encodeURIComponent(keyword)}?words=${encodeURIComponent(keyword)}`);
  await page.waitForSelector('.imgCode'); //等待验证码加载出来
  await page.screenshot({
        path: 'captcha.png',
        clip: {
            x: 700,
            y: 200,
            width: 130,
            height: 60,
        },
    }); //裁剪验证码图片，只保留需要的部分
  const imgBuffer = await page.screenshot({
        encoding: 'binary',
        clip: {
            x: 700,
            y: 200,
            width: 130,
            height: 60,
        },
    }); //获取验证码的二进制流
  const result = await ocr(imgBuffer); //使用第三方OCR识别验证码
  console.log(`验证码：${result}`); //打印出识别结果
  await page.type('.imgCodeInput', result); //输入验证码
  await Promise.all([
        page.click('.searchButton'),
        page.waitForNavigation()
    ]);
  const dataList = await page.evaluate(() => {
        const result = [];
        const dateList = document.querySelectorAll('.trend-date ul li span');
        const valueList = document.querySelectorAll('.trend-data ul li span');
        dateList.forEach((date, index) => {
            result.push({
                date: date.textContent,
                value: valueList[index].textContent
            });
        });
        return result;
    }); //使用evaluate方法从页面上提取关键词的搜索数据
  return dataList;
}

在这段代码中，我们使用了Page.screenshot()方法和图像处理技术来截取和识别验证码图片。然后，我们使用Page.type()方法来模拟用户输入验证码，并使用evaluate()方法从页面上提取关键词的数据。

使用该函数，我们可以获取到上述页面中的数据，包括时间（date）和搜索量（value）两个指标：

[
    { date: '2017-12-05', value: '23' },
    { date: '2017-12-06', value: '23' },
    { date: '2017-12-07', value: '23' },
    ...
]

示例说明

示例1

假设你想要爬取Python这个关键词的搜索指数，你可以按照以下步骤进行。

在你的本地创建一个新的Node.js项目，并在其中安装依赖。

mkdir my-project
cd my-project
npm init -y
npm i puppeteer

创建一个新的JavaScript文件，并命名为index.js，将上述代码复制到文件中。

touch index.js

在index.js文件中添加以下代码，以开始第一个示例的实现。

(async () => {
  const browser = await login();
  const result = await getBaiduIndex(browser, 'Python');
  console.log(result);
  await browser.close();
})();

进入项目目录并运行index.js文件以开始爬取Python关键词的搜索指数。

node index.js

示例2

假设你想要爬取中国地区苹果的搜索指数，你可以按照以下步骤进行。

修改getBaiduIndex函数，将百度指数页面的URL中的关键词Python修改为苹果。

async function getBaiduIndex(browser, keyword) {
  const page = await browser.newPage();
  await page.goto(`https://index.baidu.com/v2/main/index.html#/trend/${encodeURIComponent(keyword)}?words=${encodeURIComponent(keyword)}`);
  ...
}

在index.js文件中修改search函数，将搜索关键字Python修改为中国地区苹果。

async function search(browser, keyword) {
  const page = await browser.newPage();
  await page.goto('https://index.baidu.com');
  await page.waitFor('#schword');
  await page.type('#schword', '中国地区苹果', { delay: 30 });
  await Promise.all([
        page.click('.searchButton'),
        page.waitForNavigation()
    ]);
  await page.waitForSelector('#viewbox');
  await page.waitFor(3000); //等待页面定位完成
}