数据湖不是数据仓库的替代品相反它们是相互补充的要了解数据湖的概念,最简单的方法是将两种存储机制与多个维度进行比较。 数据湖和数据仓库的比较 数据的性 开曼群岛电话号码表 质 如前所述,仓库仅存储已建模、结构化或聚合的数据,而数据湖允许您以其原生和原始格式存储各种结构化、非结构化、半结构化数据。 加工 在将数据加载到仓库之前,您首先需要对其进行结构化。通常您需要将其建模为星形或雪花模式,该模式遵循读取时模式 (SQL)。使用数据湖,您不必事先进行处理。数据可以按原样加载。当您准备好使用数据时,您可以赋予它形状或结构,这使用写时模式 (NoSQL)。 然而,数据湖的一个挑战可能是您无法监督内容。
![Image](https://www.latestdatabase.com/wp-content/uploads/2021/01/Cayman-Islands-Phone-Number-List.jpg)
为防止这种情况您需要定义机制来对所有数据进行分类否则,湖泊可能会变成“数据沼泽”。 检索速度 因为数据仓库保存的是结构化的数据,并且有很多多年来建立起来的技术,可以让你很容易地从仓库中检索数据,所以检索速度非常快。但是,对于企业数据湖,这是一个耗时的过程。 存储成本 构建数据湖比构建数据仓库要便宜得多。这是因为大数据技术(例如 Hadoop 或 Amazon Web Service)的一个特点是它被设计成低成本的商品硬件。仓库可能需要很长时间才能从头开始建造,结果最终会非常昂贵。 敏捷 数据仓库是高度结构化的存储库。虽然更改数据仓库的结构在技术上并不难,但由于所有业务流程都与之相关,因此将非常耗时。