1. 您的位置:首页 > seo技术 >内容

大数据:祝福与诅咒

“嗨,很高兴认识你,我叫ZettaByte!”

如果您是熟悉兆字节(MegaByte),千兆字节(GigaByte)和TerraByte术语的一代,请准备好自己的全新词汇,这些词汇可能是您的前辈可能无法想象的。很快,像PetaByte,ExaByte和ZettaByte这样的术语将与前面提到的一样通用,具有与它们的大小相匹配的优点和困难。

IBM声称,过去两年来,全球90%的数据都是累积的。如果这是真的,那么那些精通数学的读者可以想象到关于数据权重,即将到来的事物的巨大程度,指数曲线必须有多陡峭。

您问什么是ZettaByte?坦白说,这是世界之外的东西。但是,我的一部分是老式的物理学家,所以即使我也非常需要以我能看到的单位可视化ZettaByte。我尝试并可视化如果有人不小心推了

打印按钮

在纸上打印了1 ZettaByte的数据?考虑到一本平均500本书每页包含照片和图表的页面大约包含10 MB的数据,该书重1磅,厚2英寸,相当于1 ZettaByte的书重约10

16

磅或5 x 10

10

吨。但是,“列出”这个数字并不能说明这个巨大的数字。因此大数据,我在下面列出了一些乐趣。

一本ZettaByte等效书籍:

可以装满100亿辆卡车或50万架****

平均分配给今天生活在地球上的每个人10,000本书

如果一个堆叠在另一个之上,则有5次返回太阳

仅用纸就需要世界树木数量的3倍

现在我们已经“可视化”了ZettaByte的含义,现在让我们将注意力转移到数据累积上。这里的情况是如此荒谬,以至于不再需要准确来确定“何时”我们将堆积1000 ZettaBytes的信息。如果在2013年没有实现这一里程碑,那肯定会在 接下来的几年。甚至可能我们已经在那儿了,没有人真的可以确定。一个可靠的消息告诉我,万维网(WWW)已经包含1 ZettaByte的信息。总和的一部分还包括我们进入2013年的年度全球IP流量(0.8 ZettaByte)和年度Internet视频(0.3 ZettaByte)。

现在了解数据的来源。以下是生成大数据的机制的列表:

来自科学测量和实验的数据(天文学,物理学,遗传学等)

对等通信(文本消息,聊**,数字电话)

广播(新闻,博客)

社交网络(Facebook,Twitter)

作者身份(数字书籍,杂志,网页,图像,视频)

行政(企业或**文件,法律和财务记录)

商业(电子商务,股票市场,商业智能,市场营销,广告)

其他

“大数据”不仅是数据孤岛,而且是指数据的所有相关部分都用于特定目的时的术语。虽然在属于特定目标的数据段之间应该有明确的界限,这种概念具有误导性,并且会破坏潜在的机会。例如,从事人类基因组数据研究的科学家们如果可以将Medline(或Pubmed)上的全部内容(出版物)与人类基因组数据结合起来进行分析,就可以改善他们的分析。但大数据是,这需要自然语言处理(语义)技术与生物信息学算法相结合,这充其量是不寻常的。

按照这些思路,看似两个不同格式的不同数据段组合在一起时,实际上定义了一个新的“大数据”。现在,添加一个3

rd

联邦调查局(FBI)的脱氧核糖核酸(DNA)银行等数据部分,或者如geneology.com中的社会遗传信息数据库如何?如您所见,并发症/机会可能会不断发生。这就是大数据概念的奥秘和兴奋所在。欢迎来到我们的世界。

分析大数据示例

交谘会提出问题-机会

当我们以庞大的数量生成数据时,我们是否为此做好了准备?一方面,困难类似于在我们发明炉灶之前将木头切碎并堆积起来。也就是说,我们应该分两个阶段研究这个问题:(1)平台和(2)Analytics(分析)“超级”软件。

在平台部门,Apache Hadoop的开源软件支持跨商品服务器集群(也称为云计算)对大型数据集进行分布式处理。 IBM的Platform Symphony是适用于各种分布式计算和大数据分析应用程序的网格管理的另一个示例。在这个价值100亿美元的行业中,甲骨文,惠普,SAP和Software AG参与其中。这些巨头为分布式计算平台提供了各种解决方案,但在

Analytics Super软件

那么,超级软件将在金字塔的顶端做什么?这个组成部分超级软件的主要功能是发现新知识,而新知识将无法通过手动方式获得,该软件将在其保护下管理多个应用程序,几乎就像飞机的自动驾驶仪一样。为此–

发现需要以下功能:

在任何格式的信息中查找关联

关联的可视化

搜索

分类,压缩,汇总

新数据的特征描述(适合的地方)

警示

清洁(删除不必要的堵塞信息)

在我们正在进行的遗传学实例中,超级软件将能够从人类基因组数据中识别疾病的遗传模式,并得到Medline报告的临床结果的支持,并利用FBI的DNA数百万个DNA信息库进一步分析揭示突变的可能性。可以扩展顶级目标的范围和含义,这仅受我们的想象力限制。

信息超载和污染正在使我们退缩

那也是

大数据

如果不将清洁(删除)技术视为超级软件操作的一部分,这也可能是一个诅咒。在我以前的文章“信息污染”中,我强调了不可控制的信息增长的危险,这是信息时代的隐形魔鬼。

有了大数据,我们终于走到了一条十字路口,计算机将不得不“代表”人类思考以发现新知识。老实说,没有任何回头路可走了,我们已经达到了应付的心理能力极限,更不用说吸收信息来转化为知识了。

很少有初创公司朝着这个特定方向发展,我打算在以后的文章中介绍。我将欢迎您提出建议以识别这些初创公司以及您的关注和兴趣。

图片来源:大数据整体-由礼节©rolffimages – Fotolia.com,信息超载–由礼节©Sergey Nivens – Fotolia.com

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/834.html