以下是详细讲解“苹果海洋CMS自定义采集助手设置方法”的完整攻略:
苹果海洋CMS自定义采集助手设置方法
安装插件
首先,在苹果海洋CMS的后台管理界面中,打开"插件管理"页面,搜索并安装“自定义采集助手”插件。
创建新任务
进入"自定义采集助手"插件的管理页面,在"新建任务"栏中填写需要采集的网站信息。需要注意的是,填写的各个参数一定要按照指定的格式填写,否则可能会导致采集失败或者无法识别。
配置规则
在创建任务完成后,需要进一步配置规则。这里需要根据不同的网站情况进行调整。具体而言,可以通过观察网站源代码,确定需要抓取的内容的HTML标签和相应的CSS选择器,在规则中进行设置。
下面是一个示例,以抓取微信公众号文章为例:
示例一
- 任务名称:微信公众号文章采集
- 目标网址:https://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2666647854&idx=1&sn=9b936b973598edd75ba3ed2424c2f5c0&chksm=bdd7280a8aa0a11c7b45d4666b2c86f8cab9b68b6153cfde07a0c5d136bb6ff10a56b678500e&mpshare=1&scene=1&srcid=0625VNyGh4ZN6lzGjnmWf1yM&key=64916230e5c2c8b7800f651c07cbd498b0b05cb0aec33e081b2c6eed1f4af466385f8db1f2c2ab7fbf3a2ff29096c4634fbd4990261fe51a17a303cdfa65aa40928b6960dc027d7ce52e9deb3f599a3e&ascene=0&uin=MjA0OTUxMzU3OQ%3D%3D&devicetype=iMac+Macmini8%2C1+macOS+Mac+OS+X+10.15.6+build(19G2021)&version=11020112&lang=zh_CN&exportkey=AdpiEtoyomNbHCZGknRw3dI%3D&pass_ticket=fD%2ByjORw%2BFX9Mkx5kPd%2FW4o8pBx8m8IqJfiwcX6qGLFYus4mHeX0bdBf6maJWwZ&wx_header=0
- 分页地址:没有分页
- 列表样式:.rich_media_content
- 标题:h2.rich_media_title
- 作者:.rich_media_meta rich_media_meta_nickname
- 发布时间:.rich_media_meta_text
- 内容:.rich_media_content
在上面的示例中,我们确定了需要采集的微信公众号文章的各个HTML标签和相应的CSS选择器。这些信息会在后面的步骤中被使用。
示例二
- 任务名称:知乎答案采集
- 目标网址:https://www.zhihu.com/question/343949668/answer/978101542
- 分页地址:没有分页
- 列表样式:.List-item
- 标题:.QuestionPage .QuestionPage .QuestionHeader .QuestionHeader-title
- 作者:.AuthorInfo .UserLink .ProfileHeader-name
- 发布时间:.ContentItem-time
- 内容:.AnswerCard
这是另一个示例,我们需要采集知乎上的一个答案。同样,我们需要在规则中确定需要抓取的各个HTML标签和相应的CSS选择器。
运行任务
完成规则的设置后,我们就可以运行任务了。在任务页面中,点击"启动采集"按钮即可开始采集。在采集完成后,我们可以在任务列表中查看采集的结果,并导出到本地文件或者发布到网站中。
注意:在运行任务之前,一定要仔细检查任务的设置和规则的设置,确保其符合实际需求,并且正确无误。否则可能会导致采集失败或者采集结果不准确。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:苹果海洋CMS自定义采集助手设置方法 - Python技术站