爬虫 Archives - Page 82 of 133

爬虫（14） – Scrapy-Redis分布式爬虫(1) | 详解

1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件，是scrapy的扩展；分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。原先scrapy的请求是放在内存中，从内存中获取。scrapy-redisr将请求统一放在redis里面，各个主机查看请求是否爬取过，没有爬取过，排队入队…

爬虫 2023年4月11日

000

爬虫遇到取到网页为reload的问题

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码： <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″> </head>…

爬虫 2023年4月11日

000

【自用】爬虫配置XML时拼接URL中文转Unicode问题（例如北京转成%u5317%u4EAC）

<var-def name=”regionUnicode”> <while condition=”true” index=”s” max-loops=”${region.toString().length()}” empty=”false”> <template> ${“%u”+java.lang.Integer.toHe…

爬虫 2023年4月11日

000

爬虫大作业（2017年科技界发生了哪些变化——爬取17年腾讯新闻科技板块下的所有新闻）

一、主题　　本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件，通过词云分析得出17年度科技界最热的词语。二、实现过程　　1、首先打开腾讯新闻网，进入科技频道。然后通过浏览器检查工具查看网页源代码，查找规律。　　可以看出腾讯新闻科技频道下的新闻列表网址的规律如下：　　网址前面一部分以年份和月…

爬虫 2023年4月11日

000

Python爬虫之 selenium 设置 PhantomJS header请求头

from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities headers = { ‘Accept’: ‘text/html,application/xhtml+xml,application/xml…

爬虫 2023年4月11日

000

百度爬虫为什么这样没有轻重的爬呢？

网站昨天持续打开很慢，经过分析发现是百度爬虫频繁抓取导致，改了rorots.txt还是不起作用，后来业务同事催得急，急中生智在阿里云后台设置了安全组规则，用cidr一下解决问题。网段如下 123.125.71.74/24 220.181.108.139/24 111.206.198.46/16 可能会误伤一些用户的IP。虽然这样做，百度可能会将网…

爬虫 2023年4月11日

000

网页爬虫学习之获取网页中标签内容

（1）本地网页，通过网页中的元素进行筛选想要获取的内容 web_parseDemo01.py from bs4 import BeautifulSoup#1、解析网页内容，网页的构成with open(‘C:/Users/GXY/PycharmProjects/untitled/homework.html’,’r’,encoding=’UTF-8′) as …

爬虫 2023年4月11日

000

python之爬虫学习记录与心得

之前在寒假的时候，学习了python基础。在慕课网上看的python入门：http://www.imooc.com/learn/177 python进阶：http://www.imooc.com/learn/317 其实好多知识都是学了忘，忘了学的。最近因为要使用爬虫爬去数据和照片，所以现在开始学习网络爬虫。爬虫架构：URL管理器，网页下载器，网页解析器…

爬虫 2023年4月11日

000

python爬虫—爬取百度百科数据

爬虫框架：开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url，标题，内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数据生成html模块 html_parser 获取有用数据 url_manager url管理器 spider_main 爬虫启动代码 spider_main…

爬虫 2023年4月11日

000

爬虫入门(三)爬取b站搜索页视频分析（动态页面，DBUtils存储）

这一次终于到了分析b站视频了。开始体会到写博客非常占用学技术的时间，但是还是希望能总结，沉淀下来。 b站分析结果文章：https://www.bilibili.com/read/cv523868/ 工具：使用Webmaigc框架，DBUtils，C3P0连接池。分析过程：b站的搜索页面是这样的。如果浏览器右键查看源代码，你会发现是动态页面，也就是从后台通过…

爬虫 2023年4月11日

000