文章自动生成标签的算法分析与实现

文章自动生成标签的算法分析与实现,第1张

唯有回望,才能发现,我们究竟已经走出多远。

唯有前瞻,才能相信,我们沿着这条航线,一定能抵达梦想的彼岸。

假设有一篇文章,标题和内容如下:

如果要为此文章自动生成标签,该如何做呢?

1、创建一个带指针的字符串对象

2、生成标签字典

2.1 定义标签节点 TagNode

2.2 生成字典 TagNode[]

2.3 在文本中匹配标签

指针从文本的开头,向后遍历,计算当前的位置的headTwoCharMix,即此处的 “Bo” 2个字符,然后计算Hash值定位到字典的位置,字典的位置只会出现如下两种情况:

1、权重问题

标题和内容的权重应该是不同的,所以在匹配出标签的时候,需要给匹配到的标签添加分数,依据得分高低对匹配标签排序

2、英文字符大小写的问题

例如:标签库中有一个标签“Docker”,结果文中出现的是 “docker”,这两个字符串是不相等的,从逻辑上来讲,标签是匹配到的,所以要调整算法,将大写字母全部转换为小写字母来匹配

带指针的字符串 StringPointer.java

标签节点 TagNode.java

标签分数统计类 TagBean.java

标签匹配工具类 TagTools.java

与企业业务关联最紧密的客户标签往往是带有预测性的,比如,某客户的营销价值,该客户对产品的心理价位预期。这些标签的提取需要在模型的基础上更进一步,利用更复杂的算法组合计算得出。

比如航司需要区分客户属性,判断出是否为商务旅客,就可以利用逻辑回归、K-均值聚类、支持向量机、神经网络等机器学习算法,计算其为商务旅客的概率。如逻辑回归算法,可以选取“是否VIP”、“是否团队购票”、“是否商务舱”、“订座——出行日期差是否小于N天”、“出行是否周末”,“近一年内出行次数是否大于N次”、“出行城市是否大于N座”等变量。最终得出该客户是否为商务旅客的预测标签。

同样的,企业希望预测预测某客户对某商品的购买概率,如果没有足够的行为数据或历史交易数据支持(如浏览该商品超过N秒,近期购买过该产品),则需要利用协同过滤等算法进行计算,结合历史购买记录中的相同属性商品、类似特征人群的购买记录等数据参数,计算出该客户是否会购买商品的预测标签。创略科技是国内首个CDP客户数据平台,在标签基础数据整合、标签管理、客户画像上有着突出的表现。

2-Hop的基本思想是通过选择部分顶点作为中心点来覆盖连通路径,每个中心点wi被赋予一对集合In和Out,分别记录能够到达wi的图中部分顶点和wi能够到达的图中的部分顶点。这样任意两个顶点u和v之间的可达关系可表示为:顶点u是否可以通过某个中心顶点wi到达顶点v。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/8051359.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-13
下一篇2023-04-13

发表评论

登录后才能评论

评论列表(0条)

    保存