apache spark是什么意思

apache spark是什么意思?
apache spark是一个强大的开源处理引擎，最初由matei zaharia开发，是他在加州大学伯克利分校的博士论文的一部分。spark的第一个版本于2012年发布。
apache spark是快速、易于使用的框架，允许你解决各种复杂的数据问题，无论是半结构化、结构化、流式，或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一，拥有来自250多个组织的超过1000个贡献者，以及遍布全球570多个地方的超过30万个spark meetup社区成员。
什么是apache spark？
apache spark是一个开源的、强大的分布式查询和处理引擎。它提供mapreduce的灵活性和可扩展性，但速度明显更高：当数据存储在内存中时，它比apache hadoop快100倍，访问磁盘时高达10倍。
apache spark允许用户读取、转换、聚合数据，还可以轻松地训练和部署复杂的统计模型。java、scala、python、r和sql都可以访问 spark api。
apache spark可用于构建应用程序，或将其打包成为要部署在集群上的库，或通过笔记本（notebook）（例如jupyter、spark-notebook、databricks notebooks和apache zeppelin）交互式执行快速的分析。
apache spark提供的很多库会让那些使用过python的pandas或r语言的data.frame 或者data.tables的数据分析师、数据科学家或研究人员觉得熟悉。非常重要的一点是，虽然spark dataframe会让pandas或data.frame、data.tables用户感到熟悉，但是仍有一些差异，所以不要期望过高。具有更多sql使用背景的用户也可以用该语言来塑造其数据。
此外，apache spark还提供了几个已经实现并调优过的算法、统计模型和框架：为机器学习提供的mllib和ml，为图形处理提供的graphx和graphframes，以及spark streaming（dstream和structured）。spark允许用户在同一个应用程序中随意地组合使用这些库。
apache spark可以方便地在本地笔记本电脑上运行，而且还可以轻松地在独立模式下通过yarn或apache mesos于本地集群或云中进行部署。它可以从不同的数据源读取和写入，包括（但不限于）hdfs、apache cassandra、apache hbase和s3：
以上就是apache spark是什么意思的详细内容。

apache spark是什么意思

推荐信息