加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

通过数据虚拟化 优化数据

发布时间:2018-04-03 21:27:30 所属栏目:大数据 来源:站长网
导读:大数据就像是从当代数据环境中不断涌现出的丰富的、极度膨胀的资源。如今,不断扩张的物联网、随处可见的移动设备、社交媒体、点击流量、网页以及开放的数据都是导致我们今日数据不断增长的的主要因素。根据IDC-Seagate最近的一项研究显示,截止到2025年,
副标题[/!--empirenews.page--]

大数据就像是从当代数据环境中不断涌现出的丰富的、极度膨胀的资源。如今,不断扩张的物联网、随处可见的移动设备、社交媒体、点击流量、网页以及开放的数据都是导致我们今日数据不断增长的的主要因素。根据IDC-Seagate最近的一项研究显示,截止到2025年,这些因素的导致的全球数据增长预计将是现在的10倍,总计达到163ZB(ZB为十万亿亿字节)。

虽然数据资源富足,但这些数据都是最原始的、未经提炼的,其中存在大量不能用的数据。与其他”自然”资源一样,“原始的”数据必须经过提炼后,才能被用于生产目的,例如设备维护、产品创新、竞争情报、市场营销以及数据货币化等等。

数据细化、提炼的过程可以纳入数据探查,准备,关联和背景化,标注和注释,统一和整合以及安全和治理政策的应用。 元数据也是一个重要的组成部分,它在数据整体细化过程中输入、输出阶段起着十分重要的作用。

其中,数据探查主要是对数据进行技术性分析,对数据的内容、一致性和结构进行描述。数据探查担负着两种不同的目标:战略性的和战术性的。

战略性:一旦确定了某个候选数据源,就应当进行一次轻量级的探查评估来确定该数据源是否适合于包含到数据仓库中,针对早期的采纳/不采纳问题提供决策。理想情况下,应当在业务需求分析过程中确定出一个候选数据源之后立即进行战略性评估。较早地找出那些不合格的数据源是一个责任重大的步骤,即使带来的是坏消息,也是必要的一步。如果很晚才发现数据源无法支持要做的工作,对DW/BI团队的积极性将产生重大的打击,特别是当项目已经展开数月之后才发现数据源存在问题时更是如此;

战术性:一旦将某个数据源引入项目的基本战略决策已经定下来,就需要进行一系列战术性的数据探查工作来尽可能多地确定出各种问题。通常这一工作从数据建模过程就开始了,一直到ETL系统设计过程。有时ETL团队也可能需要使用一个其内容没有经过彻底评估的数据源。系统也可能支持产品过程的需求,但是却存在ETL方面的难题,因为对产品处理并不重要的字段用来进行分析也是不可靠和不完整的。

该子系统中揭示出来的问题最终会产生两种详细说明:

1、将数据送回原来的数据源中,请求改善数据质量;

2、构成了数据质量子系统的需求。

(备注:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。)

如果还没有为分析提供数据,那么这些数据可能会受到碎片化、最小化标记和丢失信息的影响。这些特征在电子健康记录(EHRs)中很明显,这说明了优化数据面对的挑战。收集和分析EHR数据的其中的一个障碍就是缺乏适当的标签和一致的语义的缺乏。

EHRs的设计主要是为了满足病人的医疗、行政和经济的需要。埃尔斯的多用途目标——不考虑每一种数据的数据分析——可能造成数据碎片化,这需要在为临床研究等分析提供数据之前进行纠正。

从共享患者健康记录中构建数据集的另一个挑战是在卫生保健组织中如何实现EHRs的标准化,甚至在相同的卫生保健系统中也缺乏标准化。。例如,不同的部门(例如:同一家医院的放射学、整形和内医学)可能采用不同的方法来满足他们独特的数据输入需求、文档和排序需求,以及偏好,因此,会产生数据仓。

(备注:电子健康记录(EHR,electronic health record)是个人官方的健康记录,这些记录可以在多个设备和机构中共享。一个电子健康记录通常包括:联系方式;访问医护专业人员信息;过敏史;医疗保险信息;家族遗传病史;免疫状况;身体状况或疾病信息;服用药物清单;住院记录;做手术信息等

事实上,数据安全和隐私也可能成为分析受监管数据的障碍,比如在EHRs中。克服这一障碍的最佳方法是在细化过程中应用适当的安全性和治理。谷歌等公司正在试验联邦学习,以推进分析,同时确保隐私。

数据的优化对于从数据分析中获得可靠结果是至关重要的,数据分析包括有意义的结论、准确的预测和明智的决策。

事实上,与任何虚拟化一样,数据虚拟化是一种允许用户访问、管理和优化异构基础架构的方法,就好像它们是一种单一、且在逻辑上是统一的资源一样。这使得用户能够从一些服务、功能或其他资源的内部部署中对外部界面进行抽象化。

与支持逻辑上统一的访问、查询、报告、预测分析,以及针对关系型、Hadoop、NoSQL等不同后端数据库应用的任何“SQL-虚拟化”解决方法相同,数据虚拟化的核心是抽象层。当然,数据虚拟化可能会转而依靠其他的基础设施虚拟化层,例如存储与服务器平台。在某些情况下,数据虚拟化可能会在地理上和多云环境中进行扩张。

在我们讨论的众多层中,虚拟化无疑是这些枯燥数据话题的一个缩影。但是如果希望自己的大数据云平台能够解决以下业务需求,那么它们无疑是最基础的。这些具体的业务需求是:

基于弹性、灵活拓扑结构的先进分析型资源

汲取源自任何来源、格式和方案的纯消费性资源

能够留存、聚合、处理任何动静结合信息的“延迟-灵敏”资源

在价值链中扩展,在私有云和公有云中扩张的联合资源

能够让你通过现有工具和应用,调整、扩展和升级后端数据平台的无缝互操作资源

理想情况下,精炼原始数据以生成完整而有意义的信息的过程如下:

构建相关语义

处理数据异常

建立完整的、全面的、相关数据的视图

充实下行流程的元数据

处理数据保护、隐私及合规性要求

利用数据虚拟化作为数据处理的三个优点:

1. 数据优化的范围

现代分析依赖于来自大量碎片数据源的数据。经验表明,当数据分布在多个系统时,大数据源并不总是能够复制并迁移的。数据虚拟化通过提供替代性范式交付具有大数据源的有效工作范围:将数据处理转移到数据。换句话说,就是处理存在的数据并尽可能降低网络流量。

(备注:数据虚拟化(Data virtualization)– 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。)

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读