加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

云上数据湖迎来快速增长期,成本经济效益凸显

发布时间:2020-03-21 02:30:39 所属栏目:创业 来源:中国软件网
导读:对于不断增长的数据分析的依赖,从而发现数据背后的价值,正悄然改变着大数据应用的发展方向。一方面,数据呈现指数级增长,数据量越来越庞大,数据的种类越来越多样化,来源日益丰富,现代数据应用的复杂性不断提高。另一方面,数据的使用者已经从以前的数
  对于不断增长的数据分析的依赖,从而发现数据背后的价值,正悄然改变着大数据应用的发展方向。   一方面,数据呈现指数级增长,数据量越来越庞大,数据的种类越来越多样化,来源日益丰富,现代数据应用的复杂性不断提高。   另一方面,数据的使用者已经从以前的数据科学家、数据工程师、数据建模员、数据库管理员等专业人员,发展到企业的业务人员、管理人员、财务人员、营销人员等不同类型的员工,大数据分析的应用场景异常丰富。   这就意味着过去的技术和方法现在有可能不再适用。AWS首席云计算企业战略顾问张侠博士3月18日接受记者采访时认为,传统数据库不能应对数据的指数级增长。基于云的数据湖解决方案因为具有成本效益好、可扩展性强等优势,正在被越来越的企业组织采用,在数据处理效率和可用性方面,为决策者提供了更大的灵活性,正在迎来快速增长期。   1.数据湖脱颖而出   什么是数据湖呢?为什么云上数据湖能脱颖而出?   张侠介绍说,数据湖就是一个集中式安全存储库,可让用户以任何规模存储、管理、发现和共享所有结构化和非结构化数据。数据湖不需要预定义的架构,因此可以处理原始数据,而不必知道将来可能要进行的分析。   张侠博士介绍说,跟数据湖、数据分析相关的关键组件有五类:   一是数据移动。数据湖允许导入任何数量的实时获得的数据。用户可以从多个来源收集数据,并以其原始形式将其移入到数据湖中。   二是数据存储。数据以对象文件、键值及文档、关系型数据库、内存数据库、图形数据库等形式进行存储。   三是安全存储和编目数据。数据湖允许存储关系数据(来自业务线应用的运营数据库和数据)和非关系数据(如来自移动应用、物联网设备和社交媒体的运营数据库和数据)。用户能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。同时,保护数据安全。   四是数据分析。数据湖允许组织中的各种角色如数据科学家、数据开发人员和业务分析师,通过各自选择的分析工具和框架来访问数据,而无需将数据移至单独的分析系统。   五是机器学习。数据湖将允许组织生成不同类型的见解,包括报告历史数据以及进行机器学习。   而数据库、数据仓库、数据湖这三者不断发展,满足用户不同的需求。   张侠博士介绍,数据仓库是在数据库的基础上把数据经过一定的分类、提炼,把它整理好管理起来,用于分析来自联机交易系统和业务线应用的关系数据。数据仓库需要事先定义数据结构和Schema以优化加速SQL查询,其中结果通常用于报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。   而数据湖则有所不同,存储了来自业务线应用的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,可以对数据使用不同类型的分析,如 SQL查询、大数据分析、全文搜索、实时分析和机器学习等。   根据要求,典型的组织将需要数据仓库和数据湖,因为它们可满足不同的需求。随着数据湖优势的不断被发现,使用数据仓库的组织正在改进其仓库,以包括数据湖。   基于云部署模式的数据湖解决方案具有更多优势,企业更倾向于采用基于云的数据湖解决方案,支持其跨地区、跨区域或跨国数据恢复策略。   2.数据湖服务哪家最多?   云上的数据湖可以进行各类数据分析,AWS全面提供了包括数据湖在内的各种数据分析服务。   云上数据湖迎来快速增长期,成本经济效益凸显
  这些服务包括:数据仓库Amazon Redshift,大数据分析Amazon EMR,交互查询Amazon Athena,运营分析Amazon Elasticsearch,可视化Amazon QuickSight,实时分析Amazon Kinesis,机器学习Amazon SageMaker等等。   最近,AWS在由西云数据运营的AWS中国(宁夏)区域正式提供AWS Glue服务和Amazon Athena 服务,对希望建设数据湖的中国用户来说,这是两个非常重磅的云服务。   张侠介绍说,AWS Glue提供无服务器架构的数据目录和ETL(提取、转换和加载) 服务。AWS Glue会自动在Amazon S3中发现数据并对其分类,并允许用户自动执行其ETL作业。    Amazon Athena使用标准SQL对Amazon S3上的数据进行交互查询,允许数据湖用户在S3中针对数据执行临时SQL查询,而无需配置或管理外部计算和软件。    之前已经在中国区域上线的Amazon Redshift Spectrum,允许用户将其数据仓库表存储在数据湖中,并能大大降低成本。这一使用简单、全托管的数据仓库服务的成本,只有本地数据仓库1/10。   Amazon Redshift是云中排名第一的数据仓库。客户之所以选择Amazon Redshift,是因为它是可用的最快的数据仓库,其运行成本比其他任何方案都低,并且可以轻松地与其数据湖集成。     同时,国内企业倡导的数据中台是在互联网应用情况下提出的一种架构,而不是数据应用的概念。但是,国内企业所倡导的数据中台应用,都可以在AWS数据湖中找到所需的服务。   3.用户看重的是什么?   AWS 提供安全、可扩展、全面且经济高效的数据湖服务组合,使客户能够在云中构建数据湖,以及使用机器学习等各种分析方法分析所有数据。   因此,在AWS上运行数据湖和分析的企业越来越多,如NETFLIX、Zillow、NASDAQ、Yelp、iRobot 和 FINRA等企业。   张侠博士说,构建数据湖一般需要几个步骤,设置存储,移动数据,清理、准备数据及编写数据目录,配置并实施安全性与合规性策略,使数据可用于分析等。   而使用AWS Lake Formation,可以在数天内构建安全的数据湖。   在国内,也出现了不少成功应用AWS数据湖的应用案例。芝麻科技主要产品线MOLLI是一组专门针对购物中心提升业务效率的数据分析解决方案,涵盖客流分析、广告营销等多个方面,目标是解决商场的引流问题以及品牌客户的精准广告投放问题。   芝麻科技利用Amazon Aurora 实现分析驱动商业效率提升。MOLLI系统大量采用了AWS的托管服务,组件的高可用性由AWS保证,减少了自行设计带来的复杂度,数据存储的持久性、系统的弹性及安全性都得到充分的保证。   Club Factory 基于AWS数据湖架构建设数据化智能化电商平台。   Club Factory 由嘉云数据于2016年创建的一家时尚、美容和生活方式的电子商务商。定位于创新型出口电商、轻自营跨境电商平台,上游已整合数千万个SKU,下游则覆盖27个国家和地区。ClubFactory平台目前积累了1亿多全球用户群。   基于AWS数据湖架构建设数据化智能化电商平台,实现了“人工智能+商品”、“人工智能+消费者”、“人工智能+供应链”的全方位技术创新,实现了基于用户在平台上的所有行为做实时自主推荐。   为何选择AWS 构建数据湖和进行分析?用户最看重的和AWS树立的优势就是,全面、安全、经济高效、易于构建和应用广泛。   ###  


(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读