加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

十分钟看懂时序数据库(V)- 分布式计算

发布时间:2017-09-03 06:24:23 所属栏目:云计算 来源:互联网
导读:企业怎么做品牌推广 七夕来了好推有礼! 物联网规模近期风起云涌,互联网和传统公司争相机关物联网。作为物联网规模数据存储的首选,时序数据库也越来越多进入人们的视野,而早在2016年7月,百度云在其天工物联网平台上宣布了海内首个多租户的漫衍式时序数
副问题[/!--empirenews.page--]

  企业怎么做品牌推广 七夕来了好推有礼!

  物联网规模近期风起云涌,互联网和传统公司争相机关物联网。作为物联网规模数据存储的首选,时序数据库也越来越多进入人们的视野,而早在2016年7月,百度云在其天工物联网平台上宣布了海内首个多租户的漫衍式时序数据库产物TSDB,成为支持其成长制造,交通,能源,伶俐都市等财富规模的焦点产物,同时也成为百度计谋成长财富物联网的符号性变乱。

  前文提到数据查询出格是大数据量的聚合说明查询是时序数据库必要办理的一个首要题目,之前的文章先容了通过预处理赏罚数据的要领,用空间换时刻的思绪,低落了大数据量聚合说明的延时。

  本文将从漫衍式计较偏向思索,从并发的角度先容时序数据库怎样低落数据查询的延时。

  1. 单机时序数据的聚合计较

  我们先来看看单机是怎样支持单聚合函数的计较。单机聚合计较很是简朴,用户查询数据时,计较节点查询获取时刻范畴内的全部时序数据,节点凭证时序行使聚合函数对数据举办计较,天生存较功效。

  说明查询也常常会行使嵌套聚合,嵌套聚合函数行使差异的时刻窗口,内部函数凡是行使小时刻窗口,外部行使更大的时刻窗口。那嵌套聚合查询在单机怎样计较呢?和单一聚合函数相同,嵌套聚合函数的计较是在内部聚合函数计较的功效之上,按照时刻再次计较,获取功效。如下图查询月均匀气温最低的一周以及均匀气温。总体来说,单机时序数据的嵌套和非嵌套聚合函数的实现进程简朴直接,很轻易领略。

  

异常钟看懂时序数据库(V)- 漫衍式计较

 

  单机计较有什么特性呢?从单机的计较进程,我们可以看到单机必要查询获取全部原始时序数据,原始数据查询的IO本钱和计较本钱很是高,整个查询的延时会很高,可是聚合运算后的功效每每数据量很少。

  2. 漫衍式聚合计较

  漫衍式计较是一种计较要领,与之相对的是齐集式计较,是通过行使多个计较资源在漫衍式的情形中并发执行计较的要领。在时序数据库规模,跟着数据的增添,时序数据会越来越多,单机的存储、查询和聚合说明IO时刻本钱很是高,固然行使越发高效的硬件也可以或许缓解,可是有处理赏罚上限,基于本钱等身分的思量,漫衍式聚合查询如故是时序数据库天然而然的选择。

  其时序数据库存储的数据越来越多时,聚合查询不行停止,这也是OLAP说明查询中最常见操纵之一,行使预处理赏罚可以进步查询机能,可是不足机动。漫衍式聚合计较则是可以或许行使漫衍式的特征,通过多个计较资源并行计较,再对功效举办归并返回,通过并发进步聚合查询机能。

  3. 漫衍式时序数据聚合计较

  时序数据的漫衍式聚合计较必要多个节点并行计较,逻辑上也是一个Map/Reduce的进程,Map进程必要对原始时序数据举办分片,别离聚合计较。Reduce进程则是对多个分片计较功效的归并。每每聚合运算的功效和原始数据有着明明数据量的差距,其次漫衍式计较可以更多的思量数据的当地化,因此行使漫衍式聚合计较显然可以或许有用进步查询机能。

  时序数据要举办漫衍式计较必要办理两个根基题目:时序数据计较分片以及计较功效的归并。

  3.1 时序数据计较分片

  时序数据聚合计较的分片可以分为几个维度思量:存储分片、聚合函数时刻窗口以及查询前提。

  起首,时序数据聚合查询包括多种前提,对时序数据举办分组聚合查询也是一种常用查询,差异的分组原始时序数据差异,因此可以通过查询分组对时序数据计较举办分片,差异的分组行使差异节点并发计较。

  其次,时序数据聚合查询函数凡是都包括时刻窗口,沟通时刻窗口的原始数据聚合计较为一个数据点,差异的时刻窗口用于计较的时序原始数据差异,因此也同样可以通过时代窗口对时序数据计较举办时刻维度的分片,差异的节点计较差异时刻窗口的数据。

  第三,凭证存储分片举办计较。我们先往返想一下前文说描写的时序数据的存储,时序数据因为存储的数据量很大,单机并不能满意需求,因此必要对时序数据举办分片存储,分片(shard)凡是行使metric+tags的方法举办,差异的分片存储在差异的存储节点,分片存储着原始时序数据,行使存储分片举办分片计较,也是一种天然而然的选择。如下图先对shard举办分片计较查询,最后对功效举办归并。

  

异常钟看懂时序数据库(V)- 漫衍式计较

 

  行使存储分片来分片计较有着什么上风呢?显然,数据查询和计较在存储分片的节点长举办,可以或许最大的担保数据当地化,可以或许有用镌汰收集通信带来的延时,使适合地数据计较越发高效。

  漫衍式聚合查询在实现时,每每多种计较分片方法同时行使,聚合计较只管担保当地化、 只管多的并发执行。

  3.2 时序数据计较功效的归并

  时序数据聚合计较功效的归并和计较分片的方法有相干性,差异分片方法功效的归并方法也差异。

  起首,对付分组聚合查询功效的归并来说,差异的分组查询功效属于差异的分组,凭证分组聚合查询前提归并功效,就能形成计较功效。

  其次,对付聚合函数时刻窗口分片查询的归并来说,差异的时刻窗口的计较功效固然属于统一个分组,可是功效在时刻是上有序的,因此只必要对分片计较功效凭证时序排序归并,就能获取最终计较功效。

  第三,对付存储分片举办分片计较功效的归并来说,归并相对伟大,由于在统一个时刻窗口内,也许会包括多个分片,多个分片上统一时刻窗口必要聚合运算为一个数据点。聚合运算功效的归并就必要说明聚合函数的特征来举办,譬喻在A和B两个存储分片的统一时刻窗口内SUM聚合函数,显然计较功效可以直接累加SUM(A U B) = SUM(A) + SUM(B),可是并不是全部的聚合函数都满意这一特征,必要按照聚合函数的特征做逐一的分类。

  当行使多种分片方法举办聚合查询时,响应功效的归并也同样更为伟大。

  3.3 时序数据嵌套聚合运算

  嵌套聚合查询也是数据说明的常用方法,嵌套聚合运算每每多个聚合函数嵌套而成,每个聚合函数的计较属性并不完全沟通。在思量计较分片时,可以思量将外部嵌套函数和内部嵌套函数分隔计较,选择越发有利的分片方法。譬喻思量 DIFF(SUM(A, 1day)) 嵌套聚合函数(DIFF聚合函数是计较前后时刻序列功效的差值),既可以行使凭证时刻窗口的方法分片计较,也同样可以思量将 DIFF的计较和SUM的计较拆分隔来,先行使存储分片的方法聚合计较SUM(A, 1day)的功效,功效归并时计较DIFF嵌套聚合函数的功效,存储分片的漫衍式计较可以或许充实操作数据当地化的特征,因此行使后者显然越发高效。嵌套聚合函数的数据怎样分片计较,必要按照聚合函数特征以及场景详细说明,这如故是一个必要深入思量的题目。

  3.4 计较使命的调治和优化

  时序数据漫衍式计较除了计较分片和数据归并题目以外,同样必要处理赏罚使命调治和SQL查询优化的题目,现有的许多开源框架Spark、Presto、Mongodb(注1)、Hive(注2)都有响应的办理方案,这里就不做深入接头了。

  4. 时序数据聚合查询的困难

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读