NodeJs编写小爬虫

2023年4月13日下午10:11 • 爬虫

一，爬虫及Robots协议

爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

robots.txt是一个文本文件，robots是一个协议，而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的，搜索机器人就会按照该文件中的内容来确定访问的范围。

NodeJs编写小爬虫

如上图，我们可以在网站中直接访问robots.txt文件查看网站禁止访问和允许访问的文件。

二，使用NodeJs爬去网页需要安装的模块

Express
Express 是一个基于 Node.js 平台的极简、灵活的 web 应用开发框架，它提供一系列强大的特性，帮助你创建各种 Web 和移动设备应用。
中文API：http://www.expressjs.com.cn/

Request
简化了http请求。
API：https://www.npmjs.com/package/request

Cheerio
以一种类似JQ的方式处理爬取到的网页。
API：https://www.npmjs.com/package/cheerio

这三个模块在安装NodeJs 之后，可以使用npm命令进行安装。

三，简单爬取网页示例

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');
app.get('/', function(req, res){
    request('http://blog.csdn.net/lhc1105', function (error, response, body) {
      if (!error && response.statusCode == 200) {
        $ = cheerio.load(body);//当前的$,它是拿到了整个body的前端选择器
      console.log($('.user_name').text()); //我博客的获取用户名
      }else{
         console.log("思密达，没爬取到用户名，再来一次");
      }
})
});
app.listen(3000);

之后，

NodeJs编写小爬虫

然后在浏览器中访问：http://localhost:3000/，就能看到输出的用户名。

感觉比python爬取方便点儿，主要是对网页元素解析上，省去了很多正则表达式。

by the way ,新年快乐~~~

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：NodeJs编写小爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

php爬虫爬取数据并存储至数据库

上一篇 2023年4月13日

pyqt5 + pyinstaller 制作爬虫小程序

下一篇 2023年4月13日

python爬虫获取百度首页内容教学

Python爬虫获取百度首页内容教学想要获取百度首页内容，需要通过Python编写爬虫来实现。其中需要用到以下工具： Python 3 requests库 BeautifulSoup库步骤1：安装Python 3 请前往官方网站（https://www.python.org/downloads/）下载并安装最新版Python 3。步骤2：安装reque…

python 2023年5月14日
000
Python网络爬虫笔记（二）：链接爬虫和下载限速

（一）代码1（link_crawler()和get_links()实现链接爬虫） 1 import urllib.request as ure 2 import re 3 import urllib.parse 4 from delayed import WaitFor 5 #下载网页并返回HTML(动态加载的部分下载不了) 6 def download(u…

爬虫 2023年4月16日
000
request-html 简单爬虫

import asyncio from requests_html import HTMLSession url = ‘http://www.xiaohuar.com/hua/’ session = HTMLSession( browser_args=[ ‘–no-sand’, ‘–disable-infobars’ ‘–user-agent=Mozi…

爬虫 2023年4月11日
000
使用Python编写爬虫的基本模块及框架使用指南

使用Python编写爬虫时，以下是常用的基本模块和框架：基本模块 requests requests是一个Python库，允许我们向一个URL发送HTTP请求，并得到相应的结果。它是用Python编写的，可以为我们处理HTTP相关任务，如GET和POST请求，解析HTTP数据并复制cookies。 import requests response = re…

python 2023年5月14日
000
爬虫–cheerio

const cheerio = require(‘cheerio’) const $ = cheerio.load(‘<h2 class=”title”>Hello world</h2>’) $(‘h2.title’).text(‘Hello there!’) $(‘h2’).addClass(‘welcome’) $.html() …

爬虫 2023年4月13日
000
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现

实验原因：目前有一个医疗百科检索项目，该项目中对关键词进行检索后，返回的结果很多，可惜结果的排序很不好，影响用户体验。简单来说，搜索出来的所有符合疾病中，有可能是最不常见的疾病是排在第一个的，而最有可能的疾病可能需要翻很多页才能找到。实验目的：为了优化对搜索结果的排序，想到了利用百度搜索后有显示搜索到多少词条，利用这个词条数，可以有效的对疾病排名进…

爬虫 2023年4月11日
000
用Python编写简单的微博爬虫

用Python编写简单的微博爬虫攻略简介微博作为中国最大的社交媒体平台，对于数据分析和挖掘非常有用。为了获取微博的相关数据，我们需要使用爬虫对其进行抓取。本攻略将介绍如何使用Python编写简单的微博爬虫并获取有用的数据。步骤 1. 获取cookie 我们需要对微博进行模拟登陆，首先需要获取登陆后的cookie信息。可以使用chrome浏览器自带的开发…

python 2023年5月14日
000
爬虫 selenium+Xpath 爬取动态js页面元素内容

介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium import webdriver browser=webdri…

爬虫 2023年4月12日
000

合作推广

合作推广

返回顶部