大数据的概念
关于大数据,很多机构给出的标准答案都不一样。
维基百科(Wikipedia)中,这样描述大数据:
大数据是规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。
研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
国际商业机器公司(IBM)强调了大数据的“5V特性”,也就是:
数量(Volume)、多样性(Variety)、速度(Volocity)、真实性(Veracity)以及价值(Value)。
总的来说,无论各个机构如何看待大数据,归根结底,大数据真正的价值不在于庞大的数据信息本身,而在于通过分析处理从其中提炼出有价值的信息。这一点是所有企业家与大数据科学家的共识。
大数据的特征
大数据经过近几年来的发展,大数据的特征愈发清晰,大体分为以下几种:
数据量大(Volume)
这一点是大数据最明显的特征。数据的大小决定所考虑的数据的价值和潜在的信息。这一切就好像大浪淘金一样,数据量小那么其潜在的价值就小。
种类繁多(Variety)
种类繁多、复杂多变也是大数据的重要特性。从互联网诞生以来,每天新产生的数据都以指数级增长。这些数据不仅量大,而且种类繁多,结构复杂。其中结构化数据只占10%左右,剩下的都是繁杂的非结构化的数据。
速度快(Velocity)
速度快其实包含了两方面的含义。其一指的是产生新数据的速度快,二是要求处理现有的数据速度快。现如今爆发式增长的数据量产生了无限供应的大数据,如果没有快速的而处理分析能力,那么数据量再大,种类再高也无济于事。
价值密度低(Value)
爆发式增长的数据量保证了大数据能够挖掘高价值的基础。但往往事与愿违,数据呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长。价值密度的高低与数据总量的大小成反比,这一点确实让人灰心,如何通过强大的机器算法更迅速地完成数据的价值“提纯”也成为目前大数据背景下亟待解决的难题。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:什么是大数据? - Python技术站
评论列表(1条)
[…] 正如我们在之前的文章《什么是大数据》中所说的大数据的价值密度低的特征:价值密度的高低与数据总量的大小成反比。这也意味着如何从大规模数据中提炼高价值的内容是大数据分析最为重要的部分。 […]