⑨SparkSQL 您所在的位置:网站首页 商品的数据源有哪些 ⑨SparkSQL

⑨SparkSQL

2024-07-01 02:19| 来源: 网络整理| 查看: 265

        Spark 支持多种数据源,按照数据来源进行划分,这些数据源可以分为如下几个大类:Driver 端自定义的数据结构、(分布式)文件系统、关系型数据库 RDBMS、关系型数据仓库、NoSQL 数据库,以及其他的计算引擎。

        讲解 5 种常见的 DataFrame 创建方式,然后带你了解不同方式的使用场景跟优劣分析

从 Driver 创建 DataFrame

       在 Driver 端,Spark 可以直接从数组、元组、映射等数据结构创建 DataFrame。使用这种方式创建的 DataFrame 通常数据量有限,因此这样的 DataFrame 往往不直接参与分布式计算,而是用于辅助计算或是数据探索。尽管如此,学习这部分知识点还是非常必要的,因为它可以帮我们更直观地理解 DataFrame 与 RDD 的关系。还记得吗?在数据表示(Data Representation)上,相比 RDD,DataFrame 仅仅是多了一个 Schema。甚至可以说,DataFrame 就是带 Schema 的 RDD。因此,创建 DataFrame 的第一种方法,就是先创建 RDD,然后再给它“扣上”一顶 Schema 的“



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有