加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据处理项目相关

发布时间:2021-01-17 09:46:35 所属栏目:大数据 来源:网络整理
导读:mapReduce部分 * MapReduce MAP :映射 reduce :归纳* 简单来说,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函

一定要返回一个0到partition_cnt-1之间的值,或者是在partitioning不能执行的时候返回特定RD_KAFKA_PARTITION_UA值。
-rd_kafka_message_t对象成员:
err:错误返回值。非0值表示出现错误,err是rd_kafka_resp_err_t类型数据。如果是0则表示进行了适当的消息抓取,并且payload中包含了message。
rkt,partition:topic和partition信息
payload,len:消息的payload数据或者错误的消息(err!=0)
key,key_len:可选参数,主要是用来获取特定的消息。
offset:消息的偏移地址

一些函数

* rd_kafka_consume_start()函数的参数:

rkt: 进行consume的topic, 由前面rd_kafka_topic_new()创建

partition:进行consume的partition

offset:开始consume的消息偏移。这个偏移可能是一个绝对消息偏移,或者是RD_KAKFA_OFFSET_STORED来使用存储的offset,也可能是两个特定偏移之一:RD_KAFKA_OFFSET_BEGINNING,从partition消息队列的开始进行consume;RD_KAFKA_OFFSET_END:从partition中的将要produce的下一条信息开始(忽略即当前所有的消息)。


在topic+partition的consumer启动之后,librdkafka将尝试使本地消息队列中的消息数目保持在queued.min.messages,一方反复的从broker获取消息。


本地消息队列将通过以下三种不同的consum  APIs进行consume:

rd_kafka_consume():每次consume一条消息

rd_kafka_consume_batch():批处理consume,一条或多条

rd_kafka_consume_callback():consume本地消息队列中的所有消息,并调用回调函数处理每条消息


上述三种方式按照性能排列的,rd_kafka_consume()是最慢的,rd_kafka_consume_callback()最快。不同的需求可以选择不同的实现方式。


一条consumed消息,由每一个consume函数提供或返回,具体是由rd_kafka_messag_t类型对象保存。</big>

sparkstreaming 部分

sparkstreaming原理图

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读