apache spark是什么意思?
apache spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。spark非常小巧玲珑,由加州伯克利大学amp实验室的matei为主的小团队所开发。使用的语言是scala,项目的core部分的代码只有63个scala文件,非常短小精悍。
apache spark的5大优势:
1.更高的性能,因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。很多对spark感兴趣的朋友可能也会听过这样一句话——在数据全部加载到内存的情况下,spark可以比hadoop快100倍,在内存不够存放所有数据的情况下快hadoop 10倍。
2.通过建立在java、scala、python、sql(应对交互式查询)的标准api以方便各行各业使用,同时还含有大量开箱即用的机器学习库。
3.与现有hadoop v1 (simr) 和2.x (yarn) 生态兼容,因此机构可以进行无缝迁移。
4.方便下载和安装。方便的shell(repl: read-eval-print-loop)可以对api进行交互式的学习。
5.借助高等级的架构提高生产力,从而可以讲精力放到计算上。
同时,apache spark由scala实现,代码非常简洁。
以上就是apache spark是什么意思?的详细内容。