大数据处理项目相关

发布时间：2021-01-17 09:46:35 所属栏目：大数据来源：网络整理

导读：mapReduce部分 * MapReduce MAP :映射 reduce :归纳* 简单来说，一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每一个元素进行指定的操作（比如，有人发现所有学生的成绩都被高估了一分，他可以定义一个“减一”的映射函

Broker
Kafka集群包含一个或多个服务器，这种服务器被称为broker
Topic
每条发布到Kafka集群的消息都有一个类别，这个类别被称为topic。（物理上不同topic的消息分开存储，逻辑上一个topic的消息虽然保存于一个或多个broker上但用户只需指定消息的topic即可生产或消费数据而不必关心数据存于何处）
Partition
parition是物理上的概念，每个topic包含一个或多个partition，创建topic时可指定parition数量。每个partition对应于一个文件夹，该文件夹下存储该partition的数据和索引文件
Producer
负责发布消息到Kafka broker
Consumer
消费消息。每个consumer属于一个特定的consumer group（可为每个consumer指定group name，若不指定group name则属于默认的group）。使用consumer high level API时，同一topic的一条消息只能被同一个consumer group内的一个consumer消费，但多个consumer group可同时消费这一消息。

使用librdkafka开发一个producer的步骤：
librdkafka:
1. conf 设置
kafka conf:
rd_kafka_conf_new(): rd_kafka_conf_set()
topic conf:
rd_kafka_topic_conf_new(): rd_kafka_topic_conf_set()

设置conf回调，消息发送成功或者失败都会调用
rd_kafka_conf_set_dr_cb()
rd_kafka_conf_set_dr_msg_cb()
创建kafka
rd_kafka_new()
设置系统日志
rd_kafka_set_logger()
rd_kafka_set_log_level()
添加下游brokers:
rd_kafka_brokers_add()
创建新的topic
rd_kafka_topic_new()
producer:
rd_kafka_produce()
发送后，设置时间观察，第二个参数是阻塞等待时间，一般设置为0，rd_kafka_poll()
销毁操作
rd_kafka_topic_destroy()
rd_kafka_destroy()
rd_kafka_wait_destroyed(2000)

一些数据结构的解释

Brokers
librdkafka 只需要一份最初的brokers列表（至少包含一个broker）。它将连接所有”metadata.broker.list”或者是rd_kafka_brokers_add()函数添加的brokers，然后向每个brokers申请一些元数据信息：包含brokers的完整列表、topic、partitions以及它们在Kafka 集群中的leaders broker信息。

Brokers名字的形式为：host：port；其中port是可选的，默认是9092，host是任何一个可以解析的hostname或者ipv4或者ipv6地址。如果host是多个地址，librdkafka将会在每一次连接尝试中循环连接这些地址。包含所有broker 地址的DNS记录可以用来提供可靠的bootstrap broker。

rd_kafka_t
实际应用中，需要创建一个top-level的对象 rd_kafka_t，这个对象是基本的容器，它提供了全局性配置属性以及共享状态信息，它由rd_kafka_new()函数创建。
（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

很全面 3D打印科技在铁	为了不emo，我将自己培
宇宙年代势不可逆，世	国产外骨骼机器人登场