加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用Spark 来做大规模图形挖掘:第一部分

发布时间:2018-11-16 07:15:56 所属栏目:教程 来源:大数据首席数据师
导读:如果您是一名工程师,您很可能在完成搜索和查找算法时用过图形的数据结构。您是否也曾在机器学习问题上用过呢? 本教程分为两部分: 第一部分(也就是本篇啦!): 用于无监督学习的图像 我们为什么需要关心图形? 对于数据科学家,图形是一个非常令人着迷的研

如果你的图是随机的话,那么根本不会行得通的。但是现实生活中大多数的图并不是随机的。结点相互之间的连接关系是存在某种相关性的。以下两个原则会解释其中的原因:

  1. 相互影响原则。相互连接在一起的结点更容易共享或者传递特征。试着想象一下,当你的几个朋友尝到了Spark带来的便利的时候,你作为与他们相互联系紧密的人,也有可能会开始学着使用Spark。“我所有的朋友都在用,所以我也要用”
  2. 同质相吸原则。结点之间有着一个相类似的特征,,或者有某些关联的时候,很有可能会连接在一起。例如,如果你和我都喜欢用Python而且都喜欢图,用图来表示的话,我们很有可能是两个相互连接的结点。这也叫做正匹配,“物以类聚”。

在现实生活中,这两个原则会相互作用!

研究人员利用这些现象可以对图中的一些有趣的问题建模。例如,Farine et al通过动物之间强烈关联性预测了狒狒的位置——对行为生态学产生了很好的影响。

用Spark 来做大规模图形挖掘:第一部分

Farine, Damien R., et al“最近邻居和长期分支机构都能预测野生狒狒集体行动期间的个体位置。”科学报告6(2016):27704

同质相吸原则经常用于社交网络研究。Adamic和Glance在2004年大选期间对政治博客进行了一项引人入胜的研究。 他们用图表的方式,显示了不同的博客如何相互引用;蓝色节点代表自由博客,红色节点是保守的博客。 也许不出所料,他们发现博客倾向于引用同样政治倾向的其他博客。

用Spark 来做大规模图形挖掘:第一部分

Adamic,Lada A.和Natalie Glance。 “政治博客圈和2004年美国大选:区分了他们的博客。”第三届国际链接发现研讨会论文集。ACM,2005年。

即使在个人层面上,同质相吸原则也是有道理的。 机会是你自己的朋友网络由可能与你年龄相同,住在同一个城镇,有相同的爱好,或去同一所学校的人组成! 在工作中,你是一个活生生同质相吸原则的例子。不要畏惧,大胆将它加入到简历中!

我们已经介绍了图是怎么运用数据中基本的网络特性来生成聚类。在互联网中,这些聚类对于推荐系统、观众分类、以及异常检测等等都有重大意义。

在第二部分(链接传送门),我们会将对社团检测技术进行深入研究,并且学着怎么利用常用的爬虫数据集,从网页的图状结构中得到聚类。

【编辑推荐】

  1. Spark灰度发布在十万级节点上的实践
  2. 大数据干货 | 论Spark高手是怎样炼成的
  3. 比拼生态和未来,Spark和Flink哪家强?
  4. Apache Kafka与Spark Streaming的两种整合方法及其优缺点
  5. Adaptive Execution 让 Spark SQL 更智能更高效
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读