大数据发展史|大数据

发布时间：2022-11-06 15:06:06 所属栏目：大数据来源：网络

导读：
熟知大数据发展历史，才能更好理解其产生的缘由。再去学习技术知识，定会明朗很多，同时更深入技术的本质。
大数据发展史可以从两个方面来讲：

一、大数据技术产生史
首先看一下我们要介

大数据计算引擎_大数据规则引擎_云计算与大数据

熟知大数据发展历史，才能更好理解其产生的缘由。再去学习技术知识，定会明朗很多，同时更深入技术的本质。

大数据发展史可以从两个方面来讲：

大数据规则引擎_云计算与大数据_大数据计算引擎

一、大数据技术产生史

首先看一下我们要介绍的大数据技术栈包含什么：

Hadoop; MapReduce; NoSQL; Spark; Flink; Hive....

这个都属于大数据的技术栈，初看起来，杂乱无章。对于初学者更甚，无从下手，更不知道哪些是重点，哪些是辅助技术。

所以，我们先把这些技术的产生搞清楚，以及他们能应用什么场景。这样你就做到心里有数，剩下的就是各个击破，自己慢慢学习。

起源于Google

大家都知道最早搜索引擎是Google.其功能是提供互联网用户的信息的检索功能。那搜索引擎具体都干了哪些事呢？

其实很简单的两件事：

一是数据采集，也就是网页的爬取；

二是数据搜索，也就是索引的构建；

数据采集离不开存储，索引的构建也需要大量计算，所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

在2004年前后，Google发表了三篇重要的论文，俗称“三驾马车”：

云计算与大数据_大数据计算引擎_大数据规则引擎

在互联网早期，互联网产品用户规模都不是很大，很少的人会关注分布式解决方案，都在单体机器上寻找解决方案，也就是在硬件上下功夫；

而Google在当时的互联网界，不管是用户规模还是所产生数据量都是TOP级别的。所以，对分布式和集群等方式，解决存储方式研究较早，同时也采用横向拓展的思路，去研发系统。

Hadoop的产生

最早关注 Google 大数据论文的是一个程序员，也不陌生，Lucene项目的创始人 Doug Cutting。他看到论文后，颇为激动，程序员，动手能力当然很强，很快就依据论文的原理实现了类似 GFS 和 MapReduce的功能框架。注意是类似哦。

到了2006年，DC 开发的类似MapReduce功能的大数据技术，被独立出来大数据计算引擎，单独开发运维。这个也就是不就后被命名为 Hadoop 的产品。该体系里面包含，大家熟知的分布式文件系统 HDFS 以及大数据计算引擎 MapReduce。

Yahoo 优化改编

当 Hadoop 发布之后，另一个当时的搜素引擎巨头 Yahoo 很快就使用了起来；

到了2007年，国内的百度也开始使用了 Hadoop 进行大数据存储与计算了。

又过了一年，2008年，Hadoop 正式成为 Apache 的顶级项目，自此，Hadoop 彻底火了起来，也被更多的人熟知。

当然任何系统都不可能是完美的，也不可能是通用的，并非适用于每个公司。 Yahho 使用了 MapReduce 进行大数据计算时，觉得开发太繁琐，于是他们自己便开发了一个新的系统--Pig。

Pig是一个基于 Hadoop 类 SQL 语句的脚本语言。经过编译后，直接生成 MapReduce 程序，在 Hadoop系统上运行。所以 Yahho 也是在Hadoop 基础上进行了编程上的优化使用。

云计算与大数据_大数据规则引擎_大数据计算引擎

Facebook 的数据分析 Hive

Yahho 的 Pig 是一种类似于 SQL 语句的脚本语言，相比于直接编写 MapReduce 简单许多。但是使用者还是要学习这种新的脚本语言。

又一家巨头公司出现了 Facebook 为了数据分析也开发一种新的分析工具，叫做 Hive 的东西，hHive 能直接使用SQL语句进行大数据计算，这样，只要是具有数据库关系型语言的开发人员就能直接使用大数据平台。大大的降低了使用的门槛，又将大数据技术推进了一步。

至此，大数据主要的技术栈基本形成。包括 HDFS、MapReduce、Pig、Hive.

责任单一 Yarn

此时，MapReduce 一个资源调度框架，又是一个执行引擎。为了责任单一化，将这两种功能进行了分离，Yarn 项目启动了。

2012年， Yarn 成为了独立的项目，开始运营，被各大数据厂商的产品支持，成为了主流的资源管理调度系统。

效率还是效率 Spark

同年，UC 伯克利 AMP 实验室的一位博士，在使用 MapReduce 进行大数据实验计算时，发现性能非常差，不能满足其计算需求。

为了改进这种效率低下的工作方式，于是开发出了一个性能优越的替代产品，叫做 Spark 。由于Spark 性能卓著，一经推出，就受到了业界的认可，开始全面替代 MapReduce。

批处理计算和流式计算

大数据计算根据分析数据的方式不同，有两个类别。一种叫做批处理计算，比如 MapReduce、Spark 这种，针对的是某个时间段的数据进行计算（比如“天”“小时”的单位）。

这种计算由于数据量大，需要花费几十分钟甚至更长。同时这种计算的数据是非在线实时获取的数据，也就是历史积累的数据，也就是离线数据，这种计算又被称为“离线计算”。

离线计算针对的是历史数据，相对的就有针对的实时数据进行计算，也就是系统接收到数据就进行计算，这种计算叫做“流式计算”。

由于处理的数据是实时在线产生的，又被称为“实时计算”。

流式计算技术 Storm、Flink、 Spark Streaming

怎么理解流式计算呢？很简单的，把批处理计算的时间单元缩小到数据产生的间隔就是了。“流式计算”具有代表性的框架，比如：Storm、Flink、 Spark Streaming。

特别说一点，Flink 就牛了一些，既支持流式计算又支持批处理计算。

非关系型数据库

在2011年左右 NoSQL 非常火爆，其中 HBase 是从Hadoop中分拆出去的，也就是底层还是HFDS 技术。所以 NoSQL 系统在大数据环境下，提供海量数据的存储和访问功能，也算是大数据技术栈一员。

数据分析，数据挖掘，机器学习

有了大数据这个底层的技术基础，更广的应用也就能实现了。大数据平台，继承了数据分析和数据挖掘技术，以及在大数据基础上，更高级的机器学习技术。

数据分析主要是数据专员的工作，一般不需要开发能力，会使用简单的 SQL 基本上够用了。一些公司的运营人员，也要求具有数据分析的能力。数据分析主要是利用上面提到的 Hive、Spark SQL 等数据库脚本语言；

有了大数据的存储和计算能力，就能进行数据挖掘和机器学习。当然也有成熟的框架，比如Mahout、Google 的 TersorFlow等框架。

最后，有了基础的存储功能，大数据批处理，流失处理计算能力，之上的大数据分析，以及更高级的挖掘和机器学习。至此一个大数据平台就构成了。

如下图所示：

大数据规则引擎_大数据计算引擎_云计算与大数据

云计算与大数据_大数据计算引擎_大数据规则引擎

二、大数据应用的发展过程

大数据技术不断的更迭，同样的，在技术之上的应用，也经历了一个发展过程。

从最早的 Google公司，解决搜索引擎业务，到目前最火的AI技术。大数据应用越来越广泛。

Google 搜索引擎时代

在Google 之前，一直是 Yahho 在搜索引擎领域领先。从 Google 发布三篇大数据论文开始，Google 扭转了局面。

通过HDFS 对海量数据的存储，运用 MapReduce 技术高效的计算网页内容，提高用户的检索能力，正是这些大数据技术的发展，让 Google 傲立搜索引擎之巅。

后续的人工智能，无人驾驶技术 Google 也一直推动行业发展。

数据仓储、大数据分析时代

稍具规模的公司，都会有数据专员这种角色，不管是给老板提供数据，还是为产品人员提供数据支持。原来的工作方式，以传统的关系型数据库为主，跑一些 SQL 语句出报表数据。

大数据提供了保存海量的数据能力，除了业务数据，日志数据，爬虫数据等都成了数据的来源，也就构成了数据仓库。数据专员同学可以利用大数据的技术，在海量数据上进行分析，分析的维度更多，效率也大大提高。以前一条大的 SQL 也许需要跑一天，现在数据量更大，但是效率提成倍提高。

简单来说，数据人员利用 Hive 可以在 Hadoop 上进行 SQL 操作，实现数据统计与分析。

大数据挖掘时代

“买尿不湿的人通常也会买啤酒” 这个梗又要抬出来了。也许这个最能体会数据挖掘的作用。

帮助用户发现自己都不知道需要的需求，帮助电商平台推荐最适合用户的产品，更好销售自己的产品，帮助社交平台根据用户的画像更好的挖掘出最优关联性社交关系。

机器学习时代

有了大数据技术，可以把历史数据收集起来，统计其中的规律，进而预测正在发生的事情，这就是机器学习。AlohaGo 战胜世界冠军为起点，机器学习迎来了一波高潮，小米的小爱同学，天猫盒子，等语音聊天也将机器学习推广到了寻常百姓家。

AI（人工智能）时代

将全部的数据，通过机器学习得到统计规律，进而模拟人的行为，是机器能像人类一样的思考，这就是人工智能。以AI为主题的电影电视也层出不穷，还有人会担心，人工智能的发展会超过人来的智能。

三、大数据现实生活的使用

交通领域

无人驾驶就是在人的驾驶过程中实时采集车辆周边数据和驾驶控制信息，然后通过机器学习，获得周边信息与驾驶方式的对应关系（自动驾驶模型），然后将这个模型应用到无人驾驶的车辆上。通过物理传感器获取周边车辆信息，应用模型，就能达到自动驾驶的效果。

金融-分控

大数据在金融领域应用比较成熟的是大数据风控，如何识别高风险用户？根据大量的历史数据，通过大数据的模型计算，得出用户的特征和风控模型。当新用户发起资金操作时，很好的预测用户的风险指数。

医疗健康

其中图像识别也是机器学习最成熟的一个方面，在医疗行业，可以通过对大量的图片数据进行学习训练，从而更加客观的识别出医疗影像的病例特征，更准确的识别病原。

教育

一些教育平台通过人工智能的外语老师进行教学，一些新闻播报也利用人工智能的主持人去播放内容。

云计算与大数据_大数据规则引擎_大数据计算引擎

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

很全面 3D打印科技在铁	为了不emo，我将自己培
宇宙年代势不可逆，世	国产外骨骼机器人登场