2024年最新数据仓库面试题集锦(附答案和数仓知识体系),2024年最新字节跳动算法工程师面试经验 |
您所在的位置:网站首页 › 数仓如何确定主题域 › 2024年最新数据仓库面试题集锦(附答案和数仓知识体系),2024年最新字节跳动算法工程师面试经验 |
最后
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助! 👉Python所有方向的学习路线👈Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。 工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。 我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。 学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。 因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。 我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。 需要这份系统化学习资料的朋友,可以戳这里获取 一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长! 5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么? 6、大数据有哪些相关的系统? 7、如何建设数据中台? 8、数据仓库最重要的是什么? 9、概念模型、逻辑模型、物理模型分别介绍一下? 10、SCD常用的处理方式有哪些? 11、怎么理解元数据? 12、数仓如何确定主题域? 13、如何控制数据质量? 14、模型设计的思路?业务驱动?数据驱动? 15、为什么需要数据仓库建模? 16、数据仓库建模方法有哪些? 17、数仓架构为什么要分层? 光阴似箭,岁月如刀。小编已经从刚毕业时堤上看风的白衣少年,变成了一个有五年开发经验的半老程序员。五年——是一个非常重要的时间节点,意味你见过很多套技术构架,学过很多技术组件,写过很多行代码,有了自己的技术理解、知识体系和编码风格。这个时候我们对待技术的态度已经从扩宽广度,慢慢转变成沉淀深度为主了。 也是刚刚面试了北京各大厂,顺利拿到4个offer,趁热打铁,呕(dao)心(chu)沥(fu)血(zhi)总结了一些数据仓库的面试基础知识,希望能帮到大家,有需要内推的小伙伴加文末微信。 数据仓库面试基础知识 ============== 1、什么是数据仓库? 权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 1)数据仓库是用于支持决策、面向分析型数据处理; 2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改 2、数据仓库和数据库的区别? 从目标、用途、设计来说 1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策 2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据 3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询 3、如何构建数据仓库? 数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本 1)调研:业务调研、需求调研、数据调研 2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域 3)构建总线矩阵、维度建模 总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查) 4)设计数仓分层架构 5)模型落地 6)数据治理 4、什么是数据中台? 数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。 数据中台是通过整合公司开发工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”。 5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么? 1)基础能力上的区别 数据平台:提供的是计算和存储能力 数据仓库:利用数据平台提供的计算和存储能力,在一套方法论的指导下建设的一整套的数据表 数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且以更加整合以及更加产品化的方式对外提供服务和价值 数据湖:一个存储企业各种各样原始数据的大型仓库,包括结构化和非结构化数据,其中湖里的数据可供存取、处理、分析和传输 2)业务能力上的区别 数据平台:为业务提供数据主要方式是提供数据集 数据仓库:相对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表 数据中台:企业级的逻辑概念,体现企业数据产生价值的能力,为业务提供服务的主要方式是数据API 数据湖:数据仓库的数据来源 总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。 6、大数据有哪些相关的系统? 数仓设计中心:按照主题域、业务过程,分层的设计方式,以维度建模作为基本理论依据,按照维度、度量设计模型,确保模型、字段有统一的命名规范 数据资产中心:梳理数据资产,基于数据血缘,数据的访问热度,做成本的治理 数据质量中心:通过丰富的稽查监控系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下游的无效计算,分析数据的影响范围。 指标系统:管理指标的业务口径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指标开发、指标发布的全套协作流程 数据地图:提供元数据的快速索引,数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门户。 7、如何建设数据中台? 数据中台在企业落地实践时,结合技术、产品、数据、服务、运营等方面,逐步开展相关工作 1)理现状:了解业务现状、数据现状、IT现状、现有的组织架构 2)定架构:确认业务架构、技术架构、应用架构、组织架构 3)建资产:建立贴近数据层、统一数仓层、标签数据层、应用数据层 4)用数据:对数据进行输出、应用 5)数据运营:持续运营、持续迭代 中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地是一个漫长的过程,在实施数据中台时,最困难的地方就是需要有人推动。 8、数据仓库最重要的是什么? 个人认为是数据集成和数据质量 企业的数据通常存储在多个异构数据库中,要进行分析,必须对数据进行一致性整合,整合后才能对数据进行分析挖掘出潜在的价值; 数据质量必须有保障,数据质量不过关,别人怎么会使用你的数据? 9、概念模型、逻辑模型、物理模型分别介绍一下? 1)概念模型CDM:概念模型是最终用户对数据存储的看法,反映了最终用户综合性的信息需求,以数据类的方式描述企业级的数据需求 概念模型的内容包括重要的实体与实体之间的关系,在概念模型中不包含实体的属性,也不包含定义实体的主键 概念模型的目的是统一业务概念,作为业务人员和技术人员之间的沟通桥梁,确定不同实体之间的最高层次的关系 2)逻辑模型LDM:逻辑模型反映的是系统分析人员对数据存储的观点,是对概念模型的进一步分解和细化,逻辑模型是根据业务规则确定的,关于业务对象,业务对象的数据项以及业务对象之间关系的基本蓝图 逻辑模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理 逻辑模型的目标是尽可能详细的描述数据,并不考虑物理上如何实现 3)物理模型PDM:物理模型是在逻辑模型的基础上,考虑各种具体的技术实现因素,进行数据体系结构设计,真正实现数据在数据仓库中的存放 物理模型的内容包括确定所有的表和列,定义外键用确认表之间的关系,基于用户的需求可能要进行反范式化等内容 10、SCD常用的处理方式有哪些? slowly changing dimensions 缓慢变化维度 常见的缓慢变化维处理方式有三种: 1)**直接覆盖:**不记录历史数据,薪数据覆盖旧数据 2)**新加一行数据(纵向扩展):**使用代理主键+生效失效时间或者是代理主键+生效失效标识(保存多条记录,直接新添一条记录,同时保留原有记录,并用单独的专用字段保存) 3)**新加两个字段(横向扩展):**一个是previous,一个是current,每次更新只更新这两个值,但是这样职能保留最近两次的变化(添加历史列,用不同的字段保存变化痕迹,因为只保存两次变化记录,使用与变化不超过两次的维度) 11、怎么理解元数据? 传送门:一篇文章搞懂数据仓库:元数据分类、元数据管理 —— 一篇文章搞懂数据仓库:元数据分类、元数据管理_不吃西红柿-CSDN博客 狭义来讲就是:元数据就用来描述数据的数据 一、Python所有方向的学习路线Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。 工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。 我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。 网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。 需要这份系统化学习资料的朋友,可以戳这里获取 一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长! |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |