apache spark是什么

apache spark是一个开源集群运算框架，最初是由加州大学柏克莱分校amplab所开发。相对于hadoop的mapreduce会在运行完工作后将中介数据存放到磁盘中，spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。
spark在存储器内运行程序的运算速度能做到比hadoop mapreduce的运算速度快上100倍，即便是运行程序于硬盘时，spark也能快上10倍速度。spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。
使用spark需要搭配集群管理员和分布式存储系统。spark支持独立模式（本地spark集群）、hadoop yarn或apache mesos的集群管理。
在分布式存储方面，spark可以和hdfs、 cassandra、openstack swift和amazon s3等接口搭载。 spark也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，spark仅在一台机器上使用每个cpu核心运行程序。
在2014年有超过465位贡献家投入spark开发，让其成为apache软件基金会以及大数据众多开源项目中最为活跃的项目。
更多apache相关知识知识，请访问apache使用教程栏目！
以上就是apache spark是什么的详细内容。

apache spark是什么

推荐信息