您好,欢迎访问一九零五行业门户网

apache spark是什么意思

apache spark是什么意思?
apache spark是一个强大的开源处理引擎,最初由matei zaharia开发,是他在加州大学伯克利分校的博士论文的一部分。spark的第一个版本于2012年发布。
apache spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者,以及遍布全球570多个地方的超过30万个spark meetup社区成员。
什么是apache spark?
apache spark是一个开源的、强大的分布式查询和处理引擎。它提供mapreduce的灵活性和可扩展性,但速度明显更高:当数据存储在内存中时,它比apache hadoop快100倍,访问磁盘时高达10倍。
apache spark允许用户读取、转换、聚合数据,还可以轻松地训练和部署复杂的统计模型。java、scala、python、r和sql都可以访问 spark api。
apache spark可用于构建应用程序,或将其打包成为要部署在集群上的库,或通过笔记本(notebook)(例如jupyter、spark-notebook、databricks notebooks和apache zeppelin)交互式执行快速的分析。
apache spark提供的很多库会让那些使用过python的pandas或r语言的data.frame 或者data.tables的数据分析师、数据科学家或研究人员觉得熟悉。非常重要的一点是,虽然spark dataframe会让pandas或data.frame、data.tables用户感到熟悉,但是仍有一些差异,所以不要期望过高。具有更多sql使用背景的用户也可以用该语言来塑造其数据。
此外,apache spark还提供了几个已经实现并调优过的算法、统计模型和框架:为机器学习提供的mllib和ml,为图形处理提供的graphx和graphframes,以及spark streaming(dstream和structured)。spark允许用户在同一个应用程序中随意地组合使用这些库。
apache spark可以方便地在本地笔记本电脑上运行,而且还可以轻松地在独立模式下通过yarn或apache mesos于本地集群或云中进行部署。它可以从不同的数据源读取和写入,包括(但不限于)hdfs、apache cassandra、apache hbase和s3:
以上就是apache spark是什么意思的详细内容。
其它类似信息

推荐信息