哈多好多还有什么?
Hadoop,是百度公司于2010年4月发布的一个开源项目,其核心是分布式文件系统和分布式计算框架,能够轻松应对海量数据。 它是一款大数据处理软件,支持在普通PC服务器上利用硬件加速来运行。通过使用MapReduce,用户可以直接运行在个人计算机上的Java程序来实现大规模的数据集并行运算。与使用其他语言(如C++)实现的大数据处理平台相比,Apache Hadoop能够节省大量的开发时间和成本。并且Apache Hadoop可以在多种平台下运行,支持Windows、Linux和Unix。
Apache Hadoop还提供了一个简易的开发环境,叫做Eclipse Hadoop,用于方便地构建、调试和运行MapReduce应用程序。还有支持Hadoop的集成开发工具,比如MySQL Workbench,用来创建数据库,并提供可视化界面。 Apache Hadoop是由一个社区主持的开源项目,这个项目的核心是Apache Software Foundation组织。目前有500多人参与这个项目,已经发布了18个版本。该项目得到了包括Intel、HP、Amazon在内的众多企业的支持。 它的优势在于解决了传统大型数据中心所不能解决的一些问题,提供了高效、可靠且价格低廉的解决方案。另外,因为它是一个开源的项目,所以无论是代码还是使用方法都对外透明,用户可以得到想要的任何相关信息。
由于使用MapReduce进行大规模数据处理的算法很多,因此有人将Apache Hadoop同Google的MapReduce和Yahoo的Pipe和Fuse进行了对比。从性能上看,不同的测试环境下,这些产品的吞吐量(Gigabytes/sec)相差并不多;但是当处理规模较小时,Apache Hadoop的表现会差一些。不过这也许是因为Apache Hadoop正在努力追求可伸缩性而导致的。 (注:以上比较限于单机计算,不包含网络、I/O等损耗。以下结果也是在不同平台上运行的,可能有所区别) 从总体上来看,对于大部分应用场景,Apache Hadoop都能够满足要求并拥有良好的可伸缩性和健壮性。