加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

老板说“我们要做个性化推荐”时,你该怎么办......

发布时间:2017-09-07 04:02:08 所属栏目:运营 来源:PMCAFF产品社区
导读:副问题#e# 今天头条的走红发动了“本性化保举”的观念,自此之后,内容型的产物,本性化算法就逐渐从卖点变为标配。 陪伴着“呆板进修”,“大数据”之类的热词和观念,产物的档次刹时进步了许多。而各类保举算法毫不只仅是研发本身的使命,作为产物司理,

此刻,你的内容产物顺遂渡过了早期阶段,拥有了几万乃至十几万级此外日活。这时辰,你发明热度算法导致用户的阅读内容过于齐集,而本性化和长尾化的内容却鲜有人看,看来是时辰开展本性化保举,让用户不只能读到各人都喜好的内容,也能读到只有本身感乐趣的内容。

本性化保举一样平常有两种通用的办理方案,一是基于内容的相干保举,二是基于用户的协同过滤。

因为基于用户的协同过滤对用户局限有较高要求,因此更多行使基于内容的相干保举来切入。

这里引入一个观念叫“消息特性向量”来标识消息的属性,以及用来比拟消息之间的相似度。我们把消息看作是全部要害词(标签)的合集,理论上,假如两个消息的要害词越相同,那两个消息是相干内容的也许性更高。 

消息特性向量是由消息包括的全部要害词抉择的。获得消息特性向量的第一步,是要对消息内容举办到要害词级此外拆分。

1、分词

分词必要有两个库,即正常的词库和停用词库。正常词库相同于一本辞书,是把内容拆解为词语的尺度;停用词库则是在分词进程中必要起首弃掉的内容。

停用词首要是没有现实寄义的,譬喻“The”,“That”,“are”之类的助词;表达两个词直接相关的,譬喻“behind”,“under”之类的介词,以及许多常用的高频但没有方向性的动词,譬喻“think”“give”之类。显而易见,这些词语对付分词没有任何浸染,因此在分词前,先把这些内容剔除。

剩下对的内容则行使尺度词库举办拆词,拆词要领包括正向匹配拆分,逆向匹配拆分,起码切分等常用算法,这里不做睁开。

由于收集天下热词频出, 尺度词库和停用词库也必要不绝更新和维护,譬喻“蓝瘦香菇”,“套路满满”之类的词语,也许对最终的结果会发生影响,假如不实时更新到词库里,算法就会“一脸懵逼”了。

因此,保举在网上查找或购置那些能随时更新的词库,各类语种都有。

2、要害词指标

前面已经说过,消息特性向量是该消息的要害词合集,那要害词的重合度就长短常重要的权衡指标了。

那么题目来了,假如两条消息的要害词重合度到达80%,是否声名两条消息有80%的相干性呢?

着实不是,举个例子:

(1)一条“广州摩拜单车投放量激增”的消息,首要讲摩拜单车的投放环境,这篇消息里“摩拜单车”是一个很是高频的词汇,消息在末了有一句“最近广州气候不错,各人可以骑单车出去散心”。因此“广州气候”这个要害词也被收录进了特性向量。

(2)其它一条消息“广州回南天即将竣事,气候一连好转”,这篇消息末了有一句“气候好转,各人可以骑个摩拜单车出门溜溜啦”,消息内里“广州气候”长短常高频的词汇,“摩拜单车”尽量被收录,但只呈现了一次。

这两个消息的要害词固然相同,讲的却是完全差异的内容,相干性很弱。假如只是看要害词重合度,呈现错误判定的也许性就很高;以是特性向量还必要有第二个要害词的指标,叫消息内频率,称之为TF(Term Frequency),权衡每个要害词在消息内里是否高频。

那么题目来了,假如两条消息的要害词重合度高,消息中要害词的频率也相差无几,是否声名相干性很强呢?

理论上是的,但又存在其它一种环境:假如我们消息库里全部的消息都是讲广州的,广州气候,广州交通,广州经济,广州体育等,他们都是讲广州相干的环境,要害词都包括广州,天河,越秀,海珠(广州各区)等,而且有着相同的频率,因此算法很轻易将它们判定为强相干消息。

从区域角度讲,这种相干性确实很强,但从内容种别层面,着实没有太多相干性,假如我是一个别育迷,你给我保举气候,交通之类的内容,就没多大意义了。

因此引入第三个要害词的指标,即要害词在在全部文档中呈现的频率的相反值,称之为IDF(Inverse Document Frequency)。

为什么会是相反值?由于一个要害词在某条消息呈现的频率最大,在全部文档中呈现的频率越小,该要害词对这条消息的特性标识浸染越大。

这样每个要害词对消息的浸染就能被权衡出来即TFIDF=TF * IDF,这也就是闻名的TF-IDF模子。

3、相干性算法

做完分词和要害词指标后,每一篇消息的特性就能用要害词的荟萃来标识了:

老板说“我们要做本性化保举”时,你该怎么办......

个中word0,1,2……n是消息的全部要害词,tfidf0,1,2……n则是每个要害词的tfidf值。

两个消息的相似度就能通过重合的要害词的tfidf值来权衡了。按照之前所学的常识,几许中夹角余弦可以用来权衡两个向量的偏向的差别性,因此在我们的算法中行使夹角余弦来计较消息要害词的相似度。夹角越小,相似度越高。

有了要害词和各要害词的tfidf之后,就可以计较消息的相似度了。假设两条消息的特性列表如下:

老板说“我们要做本性化保举”时,你该怎么办......

可以看到两条消息有 5 个重合的要害词:广州,摩拜单车,太阳,天河和市长,因此两条消息的相干性由这 5 个要害词抉择,计较方法如下:

老板说“我们要做本性化保举”时,你该怎么办......

得出两条消息的相干性最终值;用同样的要领能得出一条消息与消息库内里全部内容的相干性。

4、用户特性

获得消息特性往后,还必要获得用户特性才气对两者举办匹配和保举,那怎么得到用户特性呢?

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读