爬虫 Archives - Page 17 of 92

网络爬虫与搜索引擎优化(SEO)

爬虫及爬行方式爬虫有很多名字，比如web机器人、spider等，它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人，它们会递归地对各种信息性的web站点进行遍历，获取第一个web页面，然后获取那个页面指向的所有的web页面，依次类推。因特网搜索引擎使用爬虫在web上游荡，并把他们碰到的文档全部拉回来。然后对这些…

爬虫 2023年4月13日

000

小爬虫，抓取某贴吧内所有帖子的图片

实现功能： 1.遍历贴吧首页所有帖子 2.下载帖子内的jpg图片并保存到本地文件夹，文件夹以帖子title命名。 #!/usr/bin/env python #-*- coding:utf8 -*- import sys reload(sys) sys.setdefaultencoding(‘gbk’) import urllib,urllib2 i…

爬虫 2023年4月13日

000

爬虫之验证码处理

引入相关的门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。验证码处理使用云打码平台识别验证码云打码平台处理验证码的实现流程： – 1.对携带验证码的页面数据进行抓取 – 2.可以将页面数据中验证码进行解析，验证码图片下载到本地 – 3.可以将验证码图片提交给三方平台…

爬虫 2023年4月13日

001

爬虫之 Requests库的基本使用

引入 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基…

爬虫 2023年4月13日

000

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

动态数据加载处理方式图片懒加载 selenium phantomJs 谷歌无头浏览器一.图片懒加载什么是图片懒加载？案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import…

爬虫 2023年4月13日

000

爬虫中之Requests 模块的进阶

requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/usr/bin/env python # -*- codin…

爬虫 2023年4月13日

000

基于scrapy-redis组件的分布式爬虫

scrapy-redis组件安装分布式实现流程 scrapy-redis组件安装 – 下载scrapy-redis组件：pip install scrapy-redis – 更改redis配置文件：注释该行：bind 127.0.0.1，表示可以让其他ip访问redis 将yes该为no：protected-mode no，表示可以让其他ip操作redi…

爬虫 2023年4月13日

000

零基础爬虫课，不会编程也能做爬虫

为什么要学这门课？应用场景有哪些？ 1、上班族与自媒体人：采集各类数据用于工作/运营实战；2、电商老板：采集竞品数据，帮助分析决策；3、找个副业：学会数据采集技能，网上接单赚钱；常见数据采集方式 1、人工采集：复制粘贴，费时费力，出错率高，效率低下；2、写爬虫采集：需要会编程会写爬虫，技术门槛高；这门课程可以解决上面的难题，学完这门课程，一天的工作量1个…

爬虫 2023年4月13日

000

爬虫测试webmagic (一)

目标：统计斗鱼(www.douyu.com)人数思路： 1. 目录找到douyu播出的所有游戏 http://www.douyutv.com/directory 2. 借助 chrome 定位到每个游戏的目录页面，正则表达式为 /directory/game/\\w+ 　比如对于LOL来说，找到 href=/directory/game/LOL 3. 进…

爬虫 2023年4月13日

000

python爬虫：使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容

案例一抓取对象：新浪国内新闻（http://news.sina.com.cn/china/），该列表中的标题名称、时间、链接。完整代码： from bs4 import BeautifulSoup import requests url = ‘http://news.sina.com.cn/china/’ web_data = r…

爬虫 2023年4月13日

000