数据湖与数据仓库:有什么区别?

you can buy or build phone number list here
Post Reply
seoexpertshagor
Posts: 102
Joined: Tue Jan 31, 2023 8:50 am

数据湖与数据仓库:有什么区别?

Post by seoexpertshagor »

随着大数据的革命许多人认为旧的存储方式结构化数据仓库不再适用这为转向数据湖架构铺平了道路。这是一个大型存储位置,可以以原始格式保存大量数据(大部分是非结构化数据)以供将来分析使用。 最常用的可视化公司数据湖的定义来自Pentaho 的 CTO James Dixon,2010 年; “如果你把数据集市想象成瓶装水的商店——经过清洗、包装和结构化以便于消费——数据湖就是一个更自然状态的大水体。数据湖的内容从源头流入湖中,各种用户可以前来检查、潜入或取样。” 数据湖与数据仓库 数据湖和数据仓库的主要共同点是它们都是一种数据存储机制。两者的主要区别在于,公司数据湖存储的是各类数据,而数据仓库存储的是结构化数据。

数据湖不是数据仓库的替代品相反它们是相互补充的要了解数据湖的概念,最简单的方法是将两种存储机制与多个维度进行比较。 数据湖和数据仓库的比较 数据的性 开曼群岛电话号码表 质 如前所述,仓库仅存储已建模、结构化或聚合的数据,而数据湖允许您以其原生和原始格式存储各种结构化、非结构化、半结构化数据。 加工 在将数据加载到仓库之前,您首先需要对其进行结构化。通常您需要将其建模为星形或雪花模式,该模式遵循读取时模式 (SQL)。使用数据湖,您不必事先进行处理。数据可以按原样加载。当您准备好使用数据时,您可以赋予它形状或结构,这使用写时模式 (NoSQL)。 然而,数据湖的一个挑战可能是您无法监督内容。

Image

为防止这种情况您需要定义机制来对所有数据进行分类否则,湖泊可能会变成“数据沼泽”。 检索速度 因为数据仓库保存的是结构化的数据,并且有很多多年来建立起来的技术,可以让你很容易地从仓库中检索数据,所以检索速度非常快。但是,对于企业数据湖,这是一个耗时的过程。 存储成本 构建数据湖比构建数据仓库要便宜得多。这是因为大数据技术(例如 Hadoop 或 Amazon Web Service)的一个特点是它被设计成低成本的商品硬件。仓库可能需要很长时间才能从头开始建造,结果最终会非常昂贵。 敏捷 数据仓库是高度结构化的存储库。虽然更改数据仓库的结构在技术上并不难,但由于所有业务流程都与之相关,因此将非常耗时。
Post Reply