shell爬虫–抓取某在线文档所有页面

2023年4月10日下午11:41 • 爬虫

在线教程一般像流水线一样，页面有上一页下一页的按钮，因此，可以利用shell写一个爬虫读取下一页链接地址，配合wget将教程所有内容抓取。

以postgresql中文网为例。下面是实例代码

#!/bin/sh
start_URL="http://www.postgres.cn/docs/9.6/preface.html"
end_URL="http://www.postgres.cn/docs/9.6/bookindex.html"
URL=$start_URL

while [ $URL != $end_URL ];do

curl -s  $URL >tmp.txt
wget $URL -P psql
grep -n 'ACCESSKEY="N"'  tmp.txt > tmp2.txt
cut -f1 -d":" tmp2.txt | head -n 1 > tmp3.txt
let LINE=`cat tmp3.txt`
let LINE--
sed -n "${LINE}p" tmp.txt > tmp4.txt
sed -i 's/HREF="//g' tmp4.txt
sed -i 's/"//g' tmp4.txt
sURL=`cat tmp4.txt`
cat tmp4.txt >> allurl.txt
FULLURL="http://www.postgres.cn/docs/9.6/$sURL"
URL=$FULLURL

done

rm -rf tmp.txt tmp2.txt tmp3.txt tmp4.txt

说明：

1、URL 要下载的html文件路径

2、sURL html文件的相对路径

3、FULLURL sURL和模板拼接后的完整url

4、tmp.txt 用于保存curl取得的页面数据

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：shell爬虫–抓取某在线文档所有页面 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

如何控制分布式爬虫结束

上一篇 2023年4月10日

爬虫笔记（二）：爬取药监局所有详情页数据

下一篇 2023年4月10日

python爬虫实现爬取同一个网站的多页数据的实例讲解

Python爬虫实现爬取同一个网站的多页数据的实例讲解爬取同一个网站的多页数据是常见的爬虫应用场景，本文将介绍一个基于Python的爬虫实现爬取同一个网站的多页数据的完整攻略。 1. 分析网站在开始爬虫之前，我们需要先分析所需要爬取的网站。通过分析网站的HTML结构，找到需要爬取的数据节点。在本例中，我们以爬取某电商网站的商品信息为例。该电商网站使用了…

python 2023年5月14日
000
网上遇到的两个php写的爬虫程序，感觉不错，收集进来，一块瞅瞅

网上遇到的两个php写的爬虫程序，感觉不错，收集进来，一块瞅瞅：sphider：（http://www.sphider.eu/）Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow li…

爬虫 2023年4月12日
000
python爬虫之爬取笔趣阁小说升级版

下面我将详细讲解如何通过Python爬虫来爬取笔趣阁小说的升级版攻略。整个攻略包含以下几个步骤：分析网页结构在爬取网页之前，我们首先需要分析一下目标网页的结构和数据，以确定爬取方式和数据抓取方法。在本示例中，我们需要爬取的主要数据是小说的章节列表和每一章的内容。可以从网络上下载Chrome、Firefox等浏览器的开发者工具，打开笔趣阁小说网站，按F1…

python 2023年5月14日
000
煎蛋网妹子图爬虫总结

这次是只用字符串查找的方式来找网页中图片链接的 1 #!/usr/bin/python 2 #coding:utf-8 3 import urllib.request 4 import os 5 import time 6 import random 7 8 def url_open(url): 9 # header = {} 10 # header[‘Us…

爬虫 2023年4月10日
000
Python 抓取动态网页内容方案详解

当我们需要获取动态网页的内容时，传统的爬虫方式已经无法满足需求，这时候我们可以考虑使用Python抓取动态网页内容。下面是Python抓取动态网页内容的详细攻略：网页内容加载方式动态网页与静态网页的主要区别在于内容的加载方式。静态网页内容都是在服务器上生成好的，客户端只需要请求一次，就可以得到完整的html代码，而动态网页的内容是通过JavaScript…

python 2023年5月14日
000
如何使用Numpy库进行数据处理？

Numpy是Python中用于数值运算和科学计算的重要库。它提供了高性能的多维数组对象，并且可以进行广播计算和向量化计算等高效的算法实现。下面是如何使用Numpy进行数据处理的步骤：安装Numpy 使用pip命令进行安装： pip install numpy 导入Numpy库在Python中导入Numpy库： import numpy as np 创建数…

爬虫 2023年4月20日
003
Python网络爬虫之cookie处理、验证码识别、代理ip、基于线程池的数据爬去

本文概要 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/usr/bin/env python # -*- coding:utf-8 …

爬虫 2023年4月16日
000
Python爬虫知识点——Chrome开发者工具Network

Chrome开发者工具中Network功能介绍第一列Name:请求的名称，一般会将URL的最后一部分内容当作名称。第二列Status: 响应的状态码，这里显示为200，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是否得到了正常的响应。第三列Type: 请求的文档类型。这里为document, 代表我们这次请求的是一个HTML文档,内…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部