“数据引力”对企业的影响,要如何解决?

编译 :CDO之家
来源:talend社区

数字化时代,毋庸置疑数据是有价值的。释放数据价值、用于特定的业务场景、实现数据驱动决策……,这样的需求越来越多,而这种需求只能通过维护大量数据来满足。随着企业向前发展,数据只会继续增长。这种数据持续的扩展的现象被称为“数据引力”。
— 1 —
什么是数据引力?
人始终应处于首要位置,在此之后,数据是任何业务领域的重中之重。
数据的位置决定了许多业务相关要素(存储数据的硬件、管理数据的人员和使用数据的应用程序)的位置。随着数据规模增加,其引力也增加,“数据引力”一词由此得来。这个术语是由 Dave McCrory 在一篇 2010 年的博客文章中首次提出的。不错,数据引力并非一个新概念。
数据引力是大型数据集的观察特征,描述了它们吸引较小数据集以及相关服务和应用程序的趋势,它还说明了移动大型“重”数据集的难度。
将大量数据(例如数据湖)想象成一个星球,将服务和应用程序想象成卫星。数据越大,它的引力或重力就越大。引力越大,数据就会将更多的卫星(服务、应用程序和数据)进入其轨道。
由于数据存在多样性、复杂性,使得大型数据集很有吸引力。也是因为他们很有吸引力(即具有引力),所以用于存储此类大型数据集的技术(例如云服务)需要各种配置,从而需要对数据的处理和使用方式进行更多选择。
数据引力的概念也用于表示数据集的大小并讨论其相对持久性。大型数据集“重”且难以移动。这对如何使用数据以及合并或迁移数据需要什么样的资源都有影响。
随着业务数据持续成为一种日益增长的商品,在设计将如何使用该数据的解决方案时,必须考虑数据引力。不仅要考虑当前的数据引力,还要考虑其潜在增长。

— 2 —
数据引力对企业的影响?
数据引力只会随着时间的推移而增加,进而会吸引更多的应用程序和服务,这给数据管理、治理带来了一定的挑战。
事实证明,企业只有对数据进行有效管理,确保其提供的信息准确性、完整性和及时性,这样的数据才是有价值的。否则,它就是企业的负担。由于数据引力对任何数据体都起作用,企业必须考虑数据的影响。 因此,需要将其作为数据管理和治理的一部分!
如果没有适当的策略、程序和管理规则,数据仓库、数据湖泊或其他数据集中的海量数据可能会变得不堪重负。更糟糕的是,这些数据可能未被充分利用。应用程序的所有者可能会恢复为仅使用他们拥有的数据来做出决策,从而导致单个或多个应用程序做出片面或不协调的决策。
数据整合在很大程度上受到数据引力理念的影响,特别是统一数据管理平台。将数据放在一个集中的中央存储,意味着数据引力不会随着时间的推移而缓慢收集,而是会在短时间内大幅增加。
了解了数据引力对企业的数据管理的影响将确保应急措施到位,以处理数据对系统迅速增加的影响。例如,考虑数据引力如何影响数据分析。将海量数据集迁移到分析集群中是一个无效的——更不用说这是一个昂贵的过程。企业将需要开发更好的数据处理架构,以实现更大的数据可操作性。

— 3 —
数据引力带来的问题
数据引力给数据管理者带来了两个问题:数据的延迟和不可移植性。
数据延迟

就其本质而言,大型数据集要求使用它的应用程序足够靠近,并在其轨道上,否则就会遭受延迟。这是因为应用程序离数据越近,工作负载的性能就越好。
速度对于成功的业务运营至关重要。随着数据引力的增加,增加数据延迟是根本不可能的,这会影响业务的运营。企业需要确保吞吐量和工作负载的平衡,并随着数据的重要性而增长。这意味着将应用程序移动到与数据相同的领域,以防止延迟并提高吞吐量。亚马逊QuickSight是解决延迟问题的一个很好的例子,它的开发是为了直接依赖于依靠云数据能力来优化性能。
不可移植性

数据引力随着数据集的大小而增加,数据集越大,数据集就越难移动。毕竟,移动一个“星球”将是一个相当大的壮举。移动大量的数据是缓慢的,而且在这个过程中会占用大量资源。
在任何需要迁移数据的时候,都必须考虑到数据的引力。由于数据集的持续增长,企业将需要根据需求制定迁移计划,需要考虑到数据集大小和增长的要求,而不是其实际的、当前的规模。
数据引力是指有多少服务、应用程序和附加数据会被吸引到数据集上,在确定未来的规模时应考虑到这一点。迁移将需要一个专门的,往往是创造性的计划,才能获得成功。
— 4 —
数据引力要如何应对
数据引力是数字时代的现实,必须尽可能巧妙地处理,以保持事情顺利有效地进行。数据管理者武器库中最大的武器将是数据管理和治理,以及精湛的数据集成。

  1. 数据管理
    数据管理是必须的,无论数据是存储在云还是在企业内部。数据管理允许利用数据引力–数据将如何被使用,由谁使用,以及用于什么目的,这些因素都将有助于确定哪些应用程序和服务需要在云中运行的数据。
    随着时间的推移,数据引力带来了更多的应用和服务,保持数据的完整性以提供准确和完整的数据是至关重要的。
  2. 数据治理
    数据治理是数据管理的一个核心部分。数据治理最好被解释为一个角色系统,它定义了与数据有关的责任和义务。
    这是解决数据引力问题的首要条件,因为它可以创建更好的数据质量并允许数据映射。良好的数据治理将提供确保数据质量的相关策略,并有助于提供更好的整体数据管理。
  3. 数据集成
    数据集成是企业如何提高系统和应用程序的效率,同时提高利用数据的能力。
    虽然使用数据整合作为处理数据引力的手段似乎有悖常理,但它可以归结为只拥有一个数据源而不是很多数据源。一个中央源肯定是庞大的,但它也意味着数据管理工具和人员只需与一个数据引力源而不是几个数据引力源竞争。

— 5 —
云和数据引力的未来
数据引力的最大缺点是需要在数据和需要该数据的应用之间建立起一个接近的关系。例如,越来越多的企业正在寻求分享他们的数据,以努力产生更有价值的、强大的数据集,这将是互惠互利的。为了有效地做到这一点,参与的企业都需要向数据靠近。
进入云端,全国甚至全球的企业都可以通过利用云技术实现这种接近。
然而,云技术既可以被视为一种解决方案,也可以被视为一个问题。云技术允许控制数据的主题大规模扩张,这起到了增加数据引力而不是分散数据引力的作用。
在硬币的另一面,云技术通过允许企业拥有可扩展的处理能力和接近所需的数据,成为对抗数据引力的一种手段。这就把云推到了前台,不鼓励企业内部的本地数据存储。

— 6 —
主动管理数据引力
数据引力不一定是一个不可克服的问题。数据引力是影响数据世界的环境因素,但了解这些影响可以让数据管理者控制并处理潜在的后果。尽管几乎没有确切的答案,但企业可以采取措施通过适当的数据管理和数据治理来减轻数据引力的负面影响。
随着技术和流程的日益先进,数据管理和治理必须不断发展。处理日益增加的复杂性似乎令人生畏,但拥有正确的技术和工具对于缓解这种压力大有帮助。
不要在“数据星球”的轨道上漂泊。有两种新型数据技术架构,或许可以帮助企业应对数据引力。一个是Data Fabric,另一个是Data Mesh。
Data Fabric中文翻译为数据编织,是由著名咨询机构Gartner提出来的一个新概念。可以将 Data Fabric 视为在一个大空间上伸展的编织物,它连接多个位置、类型和数据源,以及访问该数据的方法。Data Fabric它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。Data Fabric改进了数据仓库和数据湖的概念,引入了一个新的架构(网络状),使整个企业能够统一利用数据。Data Fabric用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。
Data Mesh中文翻译为数据网格,是由 Thoughtworks 的 首席技术顾问Zhamak Dehghani 开发的一种利用域驱动的自助数据基础架构。Data Mesh允许最终用户轻松访问重要数据,而无需将其传输到数据湖或数据仓库,也无需专家数据团队进行干预。Data Mesh侧重于去中心化,将数据所有权分配给可以独立、安全地将数据作为产品进行管理的团队——减少数据管理中的瓶颈和孤岛,并在不牺牲数据治理的情况下实现可扩展性。
有关Data Fabric和Data Mesh的更多解读我们将在后续的文章中陆续分享,请大家持续关注CDO之家,让我们一起洞察数字化未来。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至22018681@qq.com 举报,一经查实,本站将立刻删除。

Like (0)
Donate 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
森林服务号的头像森林服务号
Previous 2022年4月8日
Next 2022年4月8日

相关推荐

发表回复

Please Login to Comment