Python爬取站长之家网页信息（附详细源码）

2023年4月2日下午5:26 • Python开发

一、实验目的

在信息时代高速发展的现在，“互联网+”的使用日趋zhanzhang过互联网学习知识，传递思想，沟通交流，在众多数据和用户的碰

撞中，互联网经济应运而生。学会利用网络收集信息是最基本的要求，接下来，我将以“行业网站”——站长之

家为例，通过Python爬取各个网站的信息（主要为名称、Alexa周排名、反链数等）来更直观、准确地分析其中各个网站在互联网

上的竞争力排名，以此了解用户对某些类型网站的喜好程度。

二、实验项目

通过Python爬取“行业网站”——站长之家中各网站的名称、Alexa周排名、反链数等信息

三、实验操作步骤

（一）观察网页

首先通过浏览器进入“行业网站”——站长之家，查看网页的基本结构，通过改变网页得出为静态网页的结论，以下为网站名称及网址：

行业网站 - 行业网站排名 - 网站排行榜 (chinaz.com)

https://top.chinaz.com/hangye

在这里插入图片描述

以上图片中画圈部分为本次爬虫需要爬取信息。

进入网站源代码界面，查看我们所需要爬取内容的相关代码以及网络请求情况。
在这里插入图片描述

右键点击网页出现审查界面如下:
在这里插入图片描述

在此源代码界面，我们能看到我们需要的百度、Alexa周排名、反链数等字样，稍后我们要做的就是将其提取出来。

（二）请求数据

点击网页名字再点击标头，我们就能看到其真实网站，同时发现其请求方法是GET，状态代码Status Code为200通过，说明请求

成功。
在这里插入图片描述

继续点击响应观察，发现网页响应中出现charset=utf-8，说明其编码格式为“utf-8”。因其与requests库默认编码方式不同，需要进

行调整赋值。
在这里插入图片描述

导入第三方数据库

Python学习交流Q群：903971231####
#导入库
import requests   #requests库请求网页
from lxml import etree #进行文件格式解析
import pandas as pd  #pandas库保存索引信息
设置headers与请求链接

```python
#设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}

```python
#requests请求链接
rq = requests.get(url,headers=headers).text

（三）解析数据

使用lxml模块中的etree方法将字符串转化为html标签，再使用xpath方法获取多行信息。

我们观察到，需要的网站信息存储在class='listCentent’的ul标签下，该标签在html标签下的body标签下第四个div标签下的第三个

div标签下的第二个div标签下。
在这里插入图片描述

其Xpath绝对路径如下：

/html/body/div[4]/div[3]/div[2]/ul

我们有个更简便的方法可以获得其绝对路径：右键点击Copy-Copy full Xpath，即可获得该标签Xpath的绝对路径。
在这里插入图片描述

站长之家的各网站信息都存储在上述ul标签下的li标签下。
在这里插入图片描述

我们可以获取各网站信息存储的li标签的list。

li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

我们想获取网站名称、网址、Alexa周排名、反链数等信息，发现其在li标签的下级标签中
在这里插入图片描述

python学习交流Q群：903971231####
#使用lxml模块中的etree方法将字符串转化为html标签
html = etree.HTML(rq)

#用xpath定位标签位置
li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

#获取要爬取内容的详情链接
for li in li_list:
    #爬取网站名称
    sitename = li.xpath("./div[2]/h3/a/text()")[0]
    #爬取网址
    websites = li.xpath("./div[2]/h3/span/text()")[0]
    #爬取Alexa周排名
    Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0]
    #爬取反链数
    Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0]

（四）储存数据

上述步骤中，我们已经将import pandas as pd输入，随后通过pandas的to_csv将数据存入csv中，将数据导出为csv文档。

#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})

#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

（五）循环爬取前15页数据信息

利用url统一资源定位符快速定位网址https://top.chinaz.com/hangye/index_shenghuo_fenlei_0.html，利用代码将0位置替换为{}，

随后使用format（a*15）作为其中填充，以此循环15次。
在这里插入图片描述

运行代码：

for a in range(15):
    #爬取网站的网址并且循环爬取前15页的内容
    url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)

（六）全套代码及运行结果

全部代码：

#导入库
import requests
from lxml import etree
import pandas as pd

#初始列表
sitename_oyr,websites_oyr, Alexa_oyr, Antichain_oyr = [], [], [], []

#设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}

for a in range(15):
   
    #爬取网站的网址并且循环爬取前15页的内容
    url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)
   
    #requests请求链接
    rq = requests.get(url,headers=headers).text
    
    #使用lxml模块中的etree方法将字符串转化为html标签
    html = etree.HTML(rq)
    
    #用xpath定位标签位置
    li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

    #获取要爬取内容的详情链接
    for li in li_list:
        #爬取网站名称
        sitename = li.xpath("./div[2]/h3/a/text()")[0]
        #爬取网址
        websites = li.xpath("./div[2]/h3/span/text()")[0]
        #爬取Alexa周排名
        Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0]
        #爬取反链数
        Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0]

        #输出
        print(sitename)
        print(websites)
        print(Alexa)
        print(Antichain)

        #将字段存入初始化的列表中
        sitename_oyr.append(sitename)
        websites_oyr.append(websites)
        Alexa_oyr.append(Alexa)
        Antichain_oyr.append(Antichain)

#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})

#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

编译器获取结果：

获取文档：
在这里插入图片描述

最后

今天的这篇文章到这里就结束了，下一章见。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬取站长之家网页信息（附详细源码） - Python技术站

蚂蚁爱Python

0 0 打赏

微信扫一扫

支付宝扫一扫

一个help函数解决了python的所有文档信息查看

上一篇 2023年4月2日下午5:26

Python—-异常处理、断言和路径处理，简单、清晰版

下一篇 2023年4月2日

Python量化交易之预测茅台股票涨跌

前言本文摘自清华大学出版《深入浅出Python量化交易实战》一书的读书笔记，这里把作者用KNN模式做的交易策略，换成了逻辑回归模型，试试看策略的业绩会有怎样的变化。二话不说，上梯子，导库拉数据： Python学习交流Q群：906715085### import pandas as pd import pandas_datareader.data as …

Python开发 2023年4月2日
000
【无敌Python 】增强视频画质，就应该这么做

原理不知道大家小时候有没有玩过这个？最早的动画就是这么形成的，记得小时候还有这种小书卖。其实视频的原理也是这样，一个视频是由很多张图片组成的，一个图片是一帧。所以我们要对视频进行画质增强，可以拆分成对每一帧的图片进行操作，这个操作我们在前面介绍过。因此，对视频进行画质增强的方法可以分为三步：拆分->处理->合成。拆分我们在第一篇文章…

Python开发 2023年4月2日
000
Python—-异常处理、断言和路径处理，简单、清晰版

1.路径处理 1.找模块：sys.path import sys print(sys.path) – 1.理解 – 1.是python去查找包或模块 – 2.项目开始根目录，python内置的目录 – 3.虽然说python的安装目录下也可以存放我们写的模块，但是不建议（太多了，不大好找） – 4.如果以后你发现模块导入不了了，可以使用下sys.pat…

Python开发 2023年4月2日
000
5 行 Python 代码就能让你的电脑永不息屏，这波逼必须装到…

前言首先，必须得承认Python 是一门优雅、易入门的编程语言。往往用很少量的代码，就能帮助你完成一件很漂亮的事儿。这也是我使用python多年的心里话。比起那些难、麻烦的的软件，python圆了我的程序梦. 最开始学习 Python，不需要太过复杂。只要玩儿的开心就行，慢慢培养兴趣，等你上手后，你会学习的更有信心。今天我们就来玩玩儿，5 行代码能做啥…

Python开发 2023年4月2日
000
用Python做了个图片识别系统(附源码)

本项目将使用python3去识别图片是否为色情图片，会使用到PIL这个图像处理库，并且编写算法来划分图像的皮肤区域介绍一下PIL： PIL（Python Image Library）是一种免费的图像处理工具包，这个软件包提供了基本的图像处理功能，如：改变图像大小，旋转图像，图像格式转化，色场空间转换（这个我不太懂），图像增强（就是改善清晰度，突出图像有用…

Python开发 2023年4月2日
000
Python+AI给老照片上色

前言哈喽，大家好。有没有谁跟我一样喜欢老照片的朋友，老照片总是让人感觉有一种情怀，可能这就是怀念吧。有一次无意中看到了很久很久以前的照片都是黑白的，当时很想给照片添加点颜色，但是不知道怎么搞。今天，我终于发现了怎么去解决这个问题，想了想，我决定得把这个分享给大家… 今天我们分享用NoGAN的图像增强技术给老照片着色。效果如下：原图上色后 NoG…

Python开发 2023年4月2日
000
期末了，用Python写个自动批改作业系统

一、亮出效果最近一些软件的搜题、智能批改类的功能要下线。退1024步讲，要不要自己做一个自动批改的功能啊？万一哪天孩子要用呢！昨晚我做了一个梦，梦见我实现了这个功能，如下图所示：功能简介：作对了，能打对号；做错了，能打叉号；没做的，能补上答案。醒来后，我环顾四周，赶紧再躺下，希望梦还能接上。二、实现步骤基本思路其实，搞定两点就成，第一是能识别…

Python开发 2023年4月2日
000
用Python制作爆款视频，太绝了

前言前几天小编在抖音上刷到一个慢慢变老的视频，播放量居然有 30W+，当时就在想这视频 Python 可不可以做？经过一番搜索，小编找到了腾讯云的人脸年龄变化 API，上面介绍说只要用户上传一张人脸图片，基于人脸编辑与生成算法，就可以输出一张人脸变老或变年轻的图片，并支持实现人脸不同年龄的变化。准备工作获取 API 秘钥第一步，在注册账号之后，打…

Python开发 2023年4月2日
000