爬虫
-
网络爬虫与搜索引擎优化(SEO)
爬虫及爬行方式 爬虫有很多名字,比如web机器人、spider等,它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人,它们会递归地对各种信息性的web站点进行遍历,获取第一个web页面,然后获取那个页面指向的所有的web页面,依次类推。因特网搜索引擎使用爬虫在web上游荡,并把他们碰到的文档全部拉回来。然后对这些…
-
小爬虫,抓取某贴吧内所有帖子的图片
实现功能: 1.遍历贴吧首页所有帖子 2.下载帖子内的jpg图片并保存到本地文件夹,文件夹以帖子title命名。 #!/usr/bin/env python #-*- coding:utf8 -*- import sys reload(sys) sys.setdefaultencoding(‘gbk’) import urllib,urllib2 i…
-
爬虫之验证码处理
引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 验证码处理 使用云打码平台识别验证码 云打码平台处理验证码的实现流程: – 1.对携带验证码的页面数据进行抓取 – 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 – 3.可以将验证码图片提交给三方平台…
-
爬虫之 Requests库的基本使用
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 今日概要 基于requests的get请求 基于requests模块的post请求 基于requests模块ajax的get请求 基…
-
Python网络爬虫之图片懒加载技术、selenium和PhantomJS
动态数据加载处理方式 图片懒加载 selenium phantomJs 谷歌无头浏览器 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import…
-
爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/env python # -*- codin…
-
基于scrapy-redis组件的分布式爬虫
scrapy-redis组件安装 分布式实现流程 scrapy-redis组件安装 – 下载scrapy-redis组件:pip install scrapy-redis – 更改redis配置文件: 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis 将yes该为no:protected-mode no,表示可以让其他ip操作redi…
-
零基础爬虫课,不会编程也能做爬虫
为什么要学这门课?应用场景有哪些? 1、上班族与自媒体人:采集各类数据用于工作/运营实战;2、电商老板:采集竞品数据,帮助分析决策;3、找个副业:学会数据采集技能,网上接单赚钱; 常见数据采集方式 1、人工采集:复制粘贴,费时费力,出错率高,效率低下;2、写爬虫采集:需要会编程会写爬虫,技术门槛高; 这门课程可以解决上面的难题,学完这门课程,一天的工作量1个…
-
爬虫 测试webmagic (一)
目标:统计斗鱼(www.douyu.com)人数 思路: 1. 目录找到douyu播出的所有游戏 http://www.douyutv.com/directory 2. 借助 chrome 定位到每个游戏的目录页面,正则表达式为 /directory/game/\\w+ 比如对于LOL来说,找到 href=/directory/game/LOL 3. 进…
-
python爬虫:使用urllib.request和BeautifulSoup抓取新浪新闻标题、链接和主要内容
案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称、时间、链接。 完整代码: from bs4 import BeautifulSoup import requests url = ‘http://news.sina.com.cn/china/’ web_data = r…