加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Hadoop助力现代数据仓库技术的深刻变革

发布时间:2021-06-20 14:31:09 所属栏目:大数据 来源:互联网
导读:我今天首先会介绍一下我们公司,技术人员可能对我们公司很了解,很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司,我们从2013年成立到

我今天首先会介绍一下我们公司,技术人员可能对我们公司很了解,很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司,我们从2013年成立到现在有3年时间,发展还是比较快的。我们专注在底层开发下面,我们开发的代码量接近1千万行,我们的产品加起来将近3千万行。在去年下半年被Gartner提到我们公司,我们也是全球四大Hadoop厂商之一,我们今天也有幸成为Gartner数据仓模拟象限的一家中国公司。描述了哪些产品具有哪些特点。现在大家可以看到,这边大部分都是一些大型公司,我们被放在了最右边的位置,表示国外媒体对于我们技术的领先性和完备性还是有高度认可的,但是我们的规模会比他们低。目前来讲,我们客户的数量还是比较多的。

 

下面我们来介绍一下Hadoop的应用。刚才讲到,我们认为Hadoop未来一段时间会进入战略整合点,被客户接受的速度会迅速提升。最左边是一个报告,是收费报告,统计了美国市场上面Hadoop应用的分类,大部分Hadoop用户主要是60%的客户,20%的客户是交互式BI的,用于报表式工具跟Hadoop对接,还有国内的可视化公司也在跟Hadoop对接。在美国有几十家这样的公司专注做数据分析和可视化,所以这个应用场景大概有25%。还有6%的客户是做轻量级的应用,主要是使用了Hbase分布式系统来做数据的查询,这个比例不是太高,有6%。还有4%的客户是用来做文档数据库,5%的客户是用来做流处理。

 

右边这场图是我们星环从几百个客户当中统计出来的分类,有一定的代表性,但是不是全部的数据。从中可以看到中国市场和美国市场有比较大的不同,这个数据我们提交上去,他们已经把我们的数据放到他们的报告当中去了。我们看到有56%的客户做数据仓库,我们做数据仓库有一定的优势,我们非常完整,支持分布式处理,支持这个存储过程,所以有一部分客户已经从数据库直接牵引到我们的上面来。这种新的业务模式在用到国内的时候还不是这么快,有一类是比较特殊的,就是我们做OITP用的,做简单快速查询的应用比较多,这其实反应了我们国家的数据量比美国的客户大很多,我们中国一个省的用户就是美国AT&T全国的用户,这一块反而有一批客户在用这种简单的数据库,2%的客户在做文档数据库,这也反映了在美国NoSQL有4%的使用率。有一个不同的地方,流处理这一块在中国的应用场景比较多,有10%的客户,解决我们有10%在做流处理,主要是分布在实时的金融交易、传感器网络和工业4.0里面,2008年、2009年我们国家建立了大量的传感器,包括物联网,这一块使得我们在客户当中有比较多的在用这种做数据处理,这也反映了我们国家的工业4.0其实已经具备一定的条件了,可能比美国还要更领先一些。

 

大家可以看到,大部分的Hadoop用户都在用这个技术来做数据仓库,我们后面讲一下为什么是这种场景。数据仓库是一个比较全的概念,通常不是指一类技术,是所有数据的组合,会是所有数据的集散地,企业会把所有的数据放在数据仓库里面对外提供服务。过去这么多年数据库面临一些挑战,数据增加比较快,传统的数据库已经不能处理,效率提升得比较慢,我们碰到一个很大的客户,是一个著名的厂商,这是一个显著的瓶颈。原来的关键数据库只处理结构化处理,现在需要一些新的技术处理半结构化、非结构化的数据。随着数据仓库越来越多,用户也越来越多,通常用户有上百个数据源,上面支撑几十个业务部门,甚至是几十个分支机构,一个银行可能有30几家分行,这些分支机构访问数据的时候都通过这个数据仓库,对数据的隔离、访问资源的管理就变成了一个迫切要解决的问题。

 

传统数据仓库是T+1的,在当天分析前一天的数据,但是更多的企业希望能够对数据进行实时分析,希望能够做到T+0,这一块也是对数据仓库构成的一个挑战。这一块就是有一些国外的咨询机构和公司提出的,希望能够做实时的数据处理。刚才我们看到有一个概念是几年前提出来的逻辑数据仓库,能够处理多种数据源,做数据管理。还有一个特点也是现在大家在使用新技术的时候一个驱动力,原来是对于过去历史的统计。今天大家发现,以前做数据模型,比如说像银行里的十大主题模型,或者八大主题模型,他们有几千张表,中间的表可能有上万张,关系相对来说是固定的。一旦你的业务发生变化,你可能要对整个层面做修改。今天大家希望有一个自助的方法,能够用机器学习的方法发现数据的管理,而不是发现统计的结果,甚至是统计报告对于他们不够。所以这一块现在有的提出来一个设计模式,就是我不需要知道这些数据它们之间的关联关系,我是通过机器学习的方法,机器自动来学习发现他们的规律。这实际上也对应了大数据的4V,数据量、数据变化、数据实时性以及数据挖掘,刚好是4V。其实在数据仓库里面,其实也是沿着这个方向演变出来的四个不同的设计模式。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读