加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

通过数据虚拟化 优化数据

发布时间:2018-04-03 21:27:30 所属栏目:大数据 来源:站长网
导读:大数据就像是从当代数据环境中不断涌现出的丰富的、极度膨胀的资源。如今,不断扩张的物联网、随处可见的移动设备、社交媒体、点击流量、网页以及开放的数据都是导致我们今日数据不断增长的的主要因素。根据IDC-Seagate最近的一项研究显示,截止到2025年,

(备注:MPP (Massively Parallel Processing),意为大规模并行处理系统,这样的系统是由许多松耦合处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。)

2. 负责数据共享

文化和法律障碍往往阻碍数据共享,这已成为大数据分析的主要组成部分。 数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段纳入或以其他方式说明数据隐私的充分考虑。 数据虚拟化采用的中央方式,降低了遵守越来越多的活动数据隐私法规的成本,并允许通过设计包含数据隐私。

数据虚拟化的核心功能是使分布式数据保持在源代码中,同时通过一个逻辑层将其暴露给消费者。这种方法消除了对连续数据复制的需要。较少的复制可以减少组织中个人和敏感数据的副本,减少数据安全和治理方面的问题。

数据虚拟化还使组织能够很容易地在整个组织中创建聚合的、一致的数据视图,例如风险数据。这些视图可以有选择地共享,同时完全遵守组织的数据访问和隐私策略。如图1 所示

数据虚拟化能克服以下主要信息共享方面的挑战:

不同的数据源。使用数据虚拟化,可以轻松地将数据集成到各种内部和外部系统中。

不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

不同的数据标准。使用查询表或内存映射,数据虚拟化可以集成数据,即使它来自不同的标准。

数据不完整。数据虚拟化允许将数据汇总在不同的系统中,以实现整体的视图。

未处理数据。对聚合数据进行的数据计算(与部分,孤立数据相反)可以提供整个企业组织完整的风险视图。

敏感数据。数据虚拟化可以提供安全性和隐私功能,以便用户只能看到他们被允许看到的数据。

3. 通用语义模型

企业用户的形式及规模各不相同。因此,必须了解客户是谁?(例如,他们是数据分析师,高级用户,高管还是机器)。以及他们需要的数据(例如,预先聚合的,预先计算,特定精确,特定作用的还是特定领域的)是必需的。对于特定的机器而言,正确的标记数据集对于有效的机器学习至关重要。在为分析提供数据时使用企业用户了解的语言也是很重要的。使用业务用户在提供数据进行分析时了解的语言也很重要。 例如,帐户适用于财务中的用户,而客户是客户关怀中的用户的首选术语。 支持多种语义是避免强迫用户改变术语的关键。

由数据虚拟化驱动的通用语义模式可以为整个组织提供常见且统一的数据视图。通过不被嵌入到单一的商业智能(BI)工具中,语义模型对于多个BI工具是通用的,并且可以访问几乎任何数据源。

数据虚拟化实现自助分析方面,完成下列目标:

能够快速方便地构建灵活的语义模式

提供具有保护措施的自助服务平台

既支持“data cowboys”(在一定范围内)也支持常规业务用户

加快自我服务举措(消除分析孤岛),同时保持控制和治理

提供完整的、可信的、高质量的信息对决策制定以及预测性和规范性分析都是至关重要的。数据虚拟化是满足这一需求的理想技术,这些组织力图将数据用作战略资产。当然,要沿着“数据-虚拟化”路线走多远,将取决于用户业务需求和大数据环境的复杂性。此外,还取决于用户对风险、复杂性和困难的承受程度。在未来,随着分析模型、规则和大数据云上汇聚的信息日益复杂,平台将成为虚拟化访问、执行和管理的核心。在这一新领域内,MapReduce将成为关键的(但并不是唯一的)开发框架。此外,MapReduce还将成为针对内联分析和交易计算的虚拟化架构的一部分。不过,目前这一虚拟化架构虽然涵盖范围更广,但是大部分仍没有被明确定义。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读