认识达内从这里开始

认真做教育专心促就业

南宁达内IT培训大数据技术之SparkSql的介绍

发布：南宁达内it培训
来源：达内新闻
时间：2021-11-24 11:29

南宁达内IT培训大数据技术之SparkSql的介绍

Spark SQL 是 Spark 用于结构化数据 (structured data) 处理的 Spark 模块。

1.2 Hive and SparkSQL

SparkSQL 的前身是 Shark ，给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快

速上手的工具。

Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O ，降低的运行效率，为了提高 SQL-on-Hadoop 的效率，大量的 SQL-on-Hadoop 工具开始产生，其中表现较为突出的是：

Drill

Impala

Shark

其中 Shark 是伯克利实验室 Spark 生态环境的组件之一，是基于 Hive 所开发的工具，它修改了下图所示的右下角的内存管理、物理计划、执行三个模块，并使之能运行在 Spark 引擎上。

Shark 的出现，使得 SQL-on-Hadoop 的性能比 Hive 有了 10-100 倍的提高。

但是，随着 Spark 的发展，对于野心勃勃的 Spark 团队来说， Shark 对于 Hive 的太多依赖(如采用 Hive 的语法解析器、查询优化器等等)，制约了 Spark 的 One Stack Rule Them All 的既定方针，制约了 Spark 各个组件的相互集成，所以提出了 SparkSQL 项目。 SparkSQL 抛弃原有 Shark 的代码，汲取了 Shark 的一些优点，如内存列存储( In-Memory Columnar Storage)、 Hive 兼容性等，重新开发了 SparkSQL 代码;由于摆脱了对 Hive 的依赖性， SparkSQL 无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便，真可谓“ 退一步，海阔天空” 。

数据兼容方面 SparkSQL 不但兼容 Hive ，还可以从 RDD 、 parquet 文件、 JSON 文件中获取数据，未来版本甚至支持获取 RDBMS 数据以及 cassandra 等 NOSQL 数据;

性能优化方面除了采取 In-Memory Columnar Storage 、 byte-code generation 等优化技术外、将会引进 Cost Model 对查询进行动态评估、获取最佳物理计划等等;

组件扩展方面无论是 SQL 的语法解析器、分析器还是优化器都可以重新定义，进行扩展。

其中 SparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive ，只是兼容 Hive ;而Hive on Spark 是一个 Hive 的发展计划，该计划将 Spark 作为 Hive 的底层引擎之一，也就是说，Hive 将不再受限于一个引擎，可以采用 Map-Reduce、Tez、Spark 等引擎。

对于开发人员来讲， SparkSQL 可以简化 RDD 的开发，提高开发效率，且执行效率非常快，所以实际工作中，基本上采用的就是 SparkSQL 。 Spark SQL 为了简化 RDD 的开发，提高开发效率，提供了 2 个编程抽象，类似 Spark Core 中的 RDD

DataFrame

DataSet

【免责声明】本文系本网编辑部分转载，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与管理员联系，我们会予以更改或删除相关文章，以保证您的权益!更多内容请添加danei0707学习了解。欢迎关注“达内在线”参与分销，赚更多好礼。

< 上一篇：南宁达内IT培训目前数字技术成爆发式发展

下一篇：南宁计算机培训软件开发的帕累托原则介绍 >