爬虫 Archives - Page 78 of 133

用C#实现蜘蛛/爬虫程序的多线程控制

【引自Felomeng的博客】在《爬虫/蜘蛛程序的制作（C#语言）》一文中，已经介绍了爬虫程序实现的基本方法，可以说，已经实现了爬虫的功能。只是它存在一个效率问题，下载速度可能很慢。这是两方面的原因造成的： 1.分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作（C#语言）》中已经介绍了爬虫程序的两个步骤：分析和下载。在单线程的程序中，两者是无法同时进行的。也…

爬虫 2023年4月12日

000

优酷评论爬虫+词云图

最近在优酷看了杨洋和zs主演的某部青春爱情电视剧。所以想到观察一下它的评论，同时学习一下Python文本处理的基础知识。首先第一部分就是获取评论数据。 import json import requests import pickle url = ‘https://p.comments.youku.com/ycp/comment/pc/commentLis…

爬虫 2023年4月12日

000

python爬虫概述

网络爬虫的概念：模拟客户端（主要指浏览器），发送网络请求，获取网络响应数据的自动化程序。　　爬虫的应用场景：数据采集通过python爬虫爬取微博事件评论，进行舆情分析；通过爬取互联网岗位信息，进行行业分析；天气预报等数据采集软件测试使用selenium进行软件测试短信轰炸、12306买票等 http协议与https协议 http协议，超文…

爬虫 2023年4月12日

000

网上遇到的两个php写的爬虫程序，感觉不错，收集进来，一块瞅瞅

网上遇到的两个php写的爬虫程序，感觉不错，收集进来，一块瞅瞅：sphider：（http://www.sphider.eu/）Sphider is a popular open-source web spider and search engine. It includes an automated crawler, which can follow li…

爬虫 2023年4月12日

000

【python爬虫】用python编写LOL战绩查询

介绍一个简单的python爬虫，通过Tkinter创建一个客户端，当输入要查询的LOL用户名称的时候，可以显示出当前用户的所在服务器，当前战力和当前段位。爬取网页地址：http://lol.duowan.com/zdl/ python版本：2.7 需要用到的模块：Tkinter urllib2 json sys 实例代码： import url…

爬虫 2023年4月12日

000

爬虫必备—性能相关（异步非阻塞）

在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。 1. 同步执行 1 import requests 2 3 def fetch_async(url): 4 response = requests.get(url) 5 return response 6 7 8 url_list = [‘htt…

爬虫 2023年4月12日

000

爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler – 调度器 dupefilter – URL去重规则（被调度器使用） pipeline -…

爬虫 2023年4月12日

000

爬虫系列之第4章-mongodb

简介 Mongodb 是目前最流行的 NoSQL 数据库之一。 CRUD 数据库操作 > use blog switched to db blog > show dbs admin 0.000GB config 0.000GB local 0.000GB test 0.000GB > db.article.insert({“title”:”…

爬虫 2023年4月12日

000

爬虫系列之第3章-Selenium模块

简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器安装 1 下载驱动 http://npm.taobao.org/mirrors/chrom…

爬虫 2023年4月12日

000

爬虫学习笔记：酷狗音乐榜单TOP500

一、背景酷狗音乐热门榜单-酷狗TOP500（网页版）链接为： # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可二、实操 1.加载模块 import pandas as pd impor…

爬虫 2023年4月12日

000