LinuxEye - Linux系统教程

LinuxEye - Linux系统教程

当前位置: 主页 > 开源资讯 >

Facebook打破Hadoop最大容量上限

时间:2012-11-14 09:56来源:51cto 编辑:admin 点击:
你可能会认为,100拍(petabyte)字节对于任何公司来说都是非常大的数据量级了。但是对于社交网站明星Facebook而言,100拍字节的数据根本不算什么。 由于拥有10亿用户,以及需要每隔30分
      你可能会认为,100拍(petabyte)字节对于任何公司来说都是非常大的数据量级了。但是对于社交网站明星Facebook而言,100拍字节的数据根本不算什么。

      由于拥有10亿用户,以及需要每隔30分钟分析一次105太(terabyte)以上的字节,Facebook对数据处理的胃口已经堪称“哥斯拉”级别。为了优化产品性能和广告业绩,脸谱需要关注和分析这些数据中的许多内容,其中包括与27亿“喜欢”(Like)按钮功能有关的数据,以及每天25亿被共享的内容项目。Hadoop是Facebook网站使用的一个关键工具,其不仅被用于分析,而且还被作为推动Facebook网站内信息传送等众多功能的引擎。这一沉重的工作负载迫使Facebook推出了支持地理分布式Hadoop数据存储的Prism项目。

      得益于诸如在Hadoop上处理A/B测试结果等技术,Facebook能够确定针对具体地区,或以性别、年龄、兴趣爱好等标准划分的特定群体推出的功能和广告的效率。通过这些积极的结果,脸谱能够改进功能,明确目标市场。

      Facebook的业务分析师正在以各种方式拓展公司的业务。他们主要依靠的是可让他们同时使用Hadoop和标准商业智能工具的Hive,以及由Facebook自主开发的闭源终端用户工具HiPal。Hive为一个由Facebook推出的开源项目,其被广泛地使用在企业内部的访问层,以查询使用SQL子集的Hadoop。为了让业务人员更加容易地使用它们,脸谱推出了HiPal。HiPal为一款图形工具,它能够与Hive对话,并且具有数据发现、查询编辑、制图和仪表盘创建等功能。

      在原生Hadoop容量方面,Facebook已经达到了它们的最高上限。Facebook近期宣布,该公司目前拥有全球最大的Hadoop集群,数据容量达到了100拍字节。不过,Facebook也表示这还不够大。Prism项目将把Hadoop的容量推向一个新高度。

      目前的问题是,Hadoop必须将数据限制在一个物理数据中心。尽管Hadoop为批处理系统,但是它们还是被紧密耦合在一起。同时,在Hadoop集群的服务器中,它们无法接受超过数毫秒的延迟。通过Prism,系统增加了一个逻辑抽象层,因此Hadoop集群能够跨多个数据中心运行,从而有效地提升了容量方面的限制量级。

      Facebook表示,他们很快将会把Prism变成一个开源项目。对于企业界而言,这无疑将成为一个可与2006年雅虎公开Hadoop源代码相媲美的壮举。虽然目前还不清楚Prism对其他公司具有多大的实用性,但是对于其他大型企业来说,他们刚刚也在Hadoop和NoSQL方面遇到了与Facebook相同的问题。

      Facebook技术研发的背后是该公司业绩未达到华尔街预期的紧迫感。不过,近期Facebook移动业务盈收方面的好消息稍微缓解了华尔街对其的失望情绪。事实上,无论Facebook是否能够持续从移动业务中获得盈利,还是从免费服务中产生充足的营收,增加广告宣传是一个日益紧迫的问题。无论采取哪种模式,基于Hadoop的分析方式将成为Facebook的大数据技术选择。Prism等新项目则让几年前看似无法逾越的限制正在被打破。

转载请保留固定链接: https://linuxeye.com/news/926.html

------分隔线----------------------------
标签:HadoopFacebook
栏目列表
推荐内容