爬虫 Archives - Page 41 of 92

爬虫部署 Gerapy 安装(centos 8)演示

爬虫部署 Gerapy 安装(centos 8)演示一.安装 pip3 install -U gerapy 　　使用python3.68版本安装gerapy,报错提示：ModuleNotFoundError: No module named ‘setuptools_rust’ 　　解决方法更新pip3 pip3 install –upgrade pip …

爬虫 2023年4月12日

000

【Python爬虫技巧】快速格式化请求头Request Headers

你好，我是 @马哥python说。我们在写爬虫时，经常遇到这种问题，从目标网站把请求头复制下来，粘贴到爬虫代码里，需要一点一点修改格式，因为复制的是字符串string格式，请求头需要用字典dict格式：下面介绍一种简单的方法。首先，把复制到的请求头放到一个字符串里： # 请求头 headers = “”” Accept: text/html,applica…

爬虫 2023年4月12日

000

爬虫（17） – 面试(2) | 爬虫面试题库

1.什么是爬虫爬虫就是爬取网页数据，只要网页上有的，都可以通过爬虫爬取下来，比如图片、文字评论、商品详情等。一般二言，Python爬虫需要以下几步：找到网页URL，发起请求，等待服务器响应获取服务器响应内容解析内容（正则表达式、xpath、bs4等）保存数据（本地文件、数据库等） 2.爬虫的基本流程找到网页URL，发起请求，等待服务器响应 …

爬虫 2023年4月12日

000

当当网爬虫

当当网爬虫利用python的requests 库和lxml库，来爬取当当网的图书信息，包括图书名称，图书购买页面url和图书价格，本次以爬取python书籍为例 1、确定url地址进入当当网，搜索python书籍，得到如下所以可以知道，当你搜索书籍时，书籍的名字会放在key的后面 2、获取地址后，就发送请求获取数据，再返回element对象 3、在Ch…

爬虫 2023年4月12日

000

爬虫（14） – Scrapy-Redis分布式爬虫(1) | 详解

1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件，是scrapy的扩展；分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。原先scrapy的请求是放在内存中，从内存中获取。scrapy-redisr将请求统一放在redis里面，各个主机查看请求是否爬取过，没有爬取过，排队入队…

爬虫 2023年4月11日

000

爬虫遇到取到网页为reload的问题

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码： <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″> </head>…

爬虫 2023年4月11日

000

【自用】爬虫配置XML时拼接URL中文转Unicode问题（例如北京转成%u5317%u4EAC）

<var-def name=”regionUnicode”> <while condition=”true” index=”s” max-loops=”${region.toString().length()}” empty=”false”> <template> ${“%u”+java.lang.Integer.toHe…

爬虫 2023年4月11日

000

爬虫大作业（2017年科技界发生了哪些变化——爬取17年腾讯新闻科技板块下的所有新闻）

一、主题　　本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件，通过词云分析得出17年度科技界最热的词语。二、实现过程　　1、首先打开腾讯新闻网，进入科技频道。然后通过浏览器检查工具查看网页源代码，查找规律。　　可以看出腾讯新闻科技频道下的新闻列表网址的规律如下：　　网址前面一部分以年份和月…

爬虫 2023年4月11日

000

Python爬虫之 selenium 设置 PhantomJS header请求头

from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities headers = { ‘Accept’: ‘text/html,application/xhtml+xml,application/xml…

爬虫 2023年4月11日

000

百度爬虫为什么这样没有轻重的爬呢？

网站昨天持续打开很慢，经过分析发现是百度爬虫频繁抓取导致，改了rorots.txt还是不起作用，后来业务同事催得急，急中生智在阿里云后台设置了安全组规则，用cidr一下解决问题。网段如下 123.125.71.74/24 220.181.108.139/24 111.206.198.46/16 可能会误伤一些用户的IP。虽然这样做，百度可能会将网…

爬虫 2023年4月11日

000