Hadoop助力现代数据仓库技术的深刻变革

发布时间：2021-06-20 14:31:09 所属栏目：大数据来源：互联网

导读：我今天首先会介绍一下我们公司，技术人员可能对我们公司很了解，很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司，我们从2013年成立到

我今天首先会介绍一下我们公司，技术人员可能对我们公司很了解，很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司，我们从2013年成立到现在有3年时间，发展还是比较快的。我们专注在底层开发下面，我们开发的代码量接近1千万行，我们的产品加起来将近3千万行。在去年下半年被Gartner提到我们公司，我们也是全球四大Hadoop厂商之一，我们今天也有幸成为Gartner数据仓模拟象限的一家中国公司。描述了哪些产品具有哪些特点。现在大家可以看到，这边大部分都是一些大型公司，我们被放在了最右边的位置，表示国外媒体对于我们技术的领先性和完备性还是有高度认可的，但是我们的规模会比他们低。目前来讲，我们客户的数量还是比较多的。

下面我们来介绍一下Hadoop的应用。刚才讲到，我们认为Hadoop未来一段时间会进入战略整合点，被客户接受的速度会迅速提升。最左边是一个报告，是收费报告，统计了美国市场上面Hadoop应用的分类，大部分Hadoop用户主要是60%的客户，20%的客户是交互式BI的，用于报表式工具跟Hadoop对接，还有国内的可视化公司也在跟Hadoop对接。在美国有几十家这样的公司专注做数据分析和可视化，所以这个应用场景大概有25%。还有6%的客户是做轻量级的应用，主要是使用了Hbase分布式系统来做数据的查询，这个比例不是太高，有6%。还有4%的客户是用来做文档数据库，5%的客户是用来做流处理。

右边这场图是我们星环从几百个客户当中统计出来的分类，有一定的代表性，但是不是全部的数据。从中可以看到中国市场和美国市场有比较大的不同，这个数据我们提交上去，他们已经把我们的数据放到他们的报告当中去了。我们看到有56%的客户做数据仓库，我们做数据仓库有一定的优势，我们非常完整，支持分布式处理，支持这个存储过程，所以有一部分客户已经从数据库直接牵引到我们的上面来。这种新的业务模式在用到国内的时候还不是这么快，有一类是比较特殊的，就是我们做OITP用的，做简单快速查询的应用比较多，这其实反应了我们国家的数据量比美国的客户大很多，我们中国一个省的用户就是美国AT&T全国的用户，这一块反而有一批客户在用这种简单的数据库，2%的客户在做文档数据库，这也反映了在美国NoSQL有4%的使用率。有一个不同的地方，流处理这一块在中国的应用场景比较多，有10%的客户，解决我们有10%在做流处理，主要是分布在实时的金融交易、传感器网络和工业4.0里面，2008年、2009年我们国家建立了大量的传感器，包括物联网，这一块使得我们在客户当中有比较多的在用这种做数据处理，这也反映了我们国家的工业4.0其实已经具备一定的条件了，可能比美国还要更领先一些。

大家可以看到，大部分的Hadoop用户都在用这个技术来做数据仓库，我们后面讲一下为什么是这种场景。数据仓库是一个比较全的概念，通常不是指一类技术，是所有数据的组合，会是所有数据的集散地，企业会把所有的数据放在数据仓库里面对外提供服务。过去这么多年数据库面临一些挑战，数据增加比较快，传统的数据库已经不能处理，效率提升得比较慢，我们碰到一个很大的客户，是一个著名的厂商，这是一个显著的瓶颈。原来的关键数据库只处理结构化处理，现在需要一些新的技术处理半结构化、非结构化的数据。随着数据仓库越来越多，用户也越来越多，通常用户有上百个数据源，上面支撑几十个业务部门，甚至是几十个分支机构，一个银行可能有30几家分行，这些分支机构访问数据的时候都通过这个数据仓库，对数据的隔离、访问资源的管理就变成了一个迫切要解决的问题。

传统数据仓库是T+1的，在当天分析前一天的数据，但是更多的企业希望能够对数据进行实时分析，希望能够做到T+0，这一块也是对数据仓库构成的一个挑战。这一块就是有一些国外的咨询机构和公司提出的，希望能够做实时的数据处理。刚才我们看到有一个概念是几年前提出来的逻辑数据仓库，能够处理多种数据源，做数据管理。还有一个特点也是现在大家在使用新技术的时候一个驱动力，原来是对于过去历史的统计。今天大家发现，以前做数据模型，比如说像银行里的十大主题模型，或者八大主题模型，他们有几千张表，中间的表可能有上万张，关系相对来说是固定的。一旦你的业务发生变化，你可能要对整个层面做修改。今天大家希望有一个自助的方法，能够用机器学习的方法发现数据的管理，而不是发现统计的结果，甚至是统计报告对于他们不够。所以这一块现在有的提出来一个设计模式，就是我不需要知道这些数据它们之间的关联关系，我是通过机器学习的方法，机器自动来学习发现他们的规律。这实际上也对应了大数据的4V，数据量、数据变化、数据实时性以及数据挖掘，刚好是4V。其实在数据仓库里面，其实也是沿着这个方向演变出来的四个不同的设计模式。

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

很全面 3D打印科技在铁	为了不emo，我将自己培
宇宙年代势不可逆，世	国产外骨骼机器人登场