分享文章中关键词的提取与拓展方法

分享文章中关键词的提取与拓展方法,第1张

分享文章中关键词的提取与拓展方法

在自然语言处理领域,处理海量文本文件的关键是提取用户关心的问题。无论是长文还是短文,我们都可以通过几个关键词来窥视整篇文章的主题。同时,基于文本的推荐和基于文本的搜索都高度依赖于文本关键词。关键词提取的准确性直接关系到推荐系统或搜索系统的最终效果。

因此,关键词提取是文本挖掘的重要组成部分。从文本中提取关键词有三种方法:有监督的、半监督的和无监督的。有监督的关键词抽取算法是将关键词抽取算法构造成判断文档中的词或短语是否为关键词的两类问题。因为这是一个分类问题,所以有必要提供标记的训练预测。训练语料库用于训练关键词提取模型。根据该模型,需要抽取关键词的文档的关键词抽取算法是半监督的。

只需要少量的训练数据来构建关键词抽取模型,然后利用该模型对新文本进行检查。选择关键字,手动筛选这些关键字,并将筛选出的关键字添加到训练集中,以重新训练模型。无监督方法不需要人工标记语料库。用一些方法在文本中寻找比较重要的词作为关键词,提取关键词。有监督的文本关键词提取算法需要较高的人工成本,现有的文本关键词提取主要采用无监督的关键词提取,适用性较强。

关键词抽取的过程如下:无监督文本关键词抽取流程图无监督关键词抽取算法可以分为三类:基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。基于统计特征的文本关键词提取算法基于统计特征的关键词提取算法是利用文档中的统计信息提取关键词。

一般来说,对文本进行预处理得到候选词集,然后通过特征值量化从候选词集中得到关键词。基于统计特征的关键词抽取方法的关键是采用何种特征值量化指标。

目前常用的方法有三种:1。基于词权重的特征量化主要包括偏音、词频、倒文档频率、相对词频、词长等。2.基于词位置的特征量化方法是基于不同位置的句子对文档的重要性不同的假设。通常一篇文章的前n个字,后n个字,开头,结尾,标题,引言都是代表词。这些词可以作为关键词表达整个话题。3.基于词相关信息的特征量词的相关信息是指词与文档的相关程度,包括互信息、命中值、贡献度、依赖度、tf-idf值等。下面是一些常用的特征值定量指标。部分语音切分和语法分析的结果。现有的关键词大多是名词或动名词。

一般来说,名词比其他词类更能表达文章的主旨。但是,词性作为特征量化的指标,通常与其他指标结合使用。单词的频率表示单词在文本中出现的频率。一般来说,我们认为一个词在文本中出现的频率越高,越有可能成为文章的核心词。词频只是统计文本中出现的单词数。而仅通过词频得到的关键词,具有很大的不确定性。对于长文本,这种方法会产生很多噪音。

一般来说,词的位置对词的价值很大。比如标题和摘要本身就是作者总结的文章主旨,所以这些地方出现的词具有代表性,更容易成为关键词。但由于每个作者的习惯、写作方式、关键句位不同,这也是一种非常广泛的获取关键词的方法,通常不会单独使用。互信息和互信息是信息论中的一个概念,是衡量变量相互依赖程度的指标。信息不限于实值随机变量。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/880199.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-13
下一篇2022-05-13

发表评论

登录后才能评论

评论列表(0条)

    保存