分享文章中要害词的提取与拓展要领-百分百源码网

分享文章中要害词的提取与拓展要领

发布时间：05/16 来源：未知浏览：关键词：

在天然说话处置领域，处置海量文本文件的要害是提取会员最体贴的题目。不管是长文本还是短文本，我们都可以通过几个要害词来窥视整个文本的主题。同时，不管是基于文本的举荐还是基于文本的搜寻，对文本要害字的依赖性也很大。要害词提取的正确性直接关系到举荐系统或搜寻系统的终究结果。

因而，要害字提取是文本开掘领域的一个重要组成局部。从文本中提取要害词有三种要领：监督、半监督和无监督。监督要害字提取算法是将要害字提取算法结构为两类题目来判断文档中的词或短语是否为要害字。因为这是一个分类题目，因而有须要供给标志的练习预测。练习语料库用于练习要害词提取模型。依据该模型，对需要提取要害字的文档的要害字提取算法进行了半监督。

结构要害词提取模型只需要少量的练习数据，然后应用模型对新文本进行检查。要害字提取，手动筛选这些要害字，并将筛选后的要害字增加到培训集以从新培训模型。无监督的要领不需要手动标志语料库。一些要领被用来探求文本中更重要的词作为要害字并提取要害字。监督文本要害字提取算法要求人工老本高，现有的文本要害字提取主要采纳无监督要害字提取，适用性强。

文本要害字提取的历程如下：无监督文本要害字提取流程图无监督要害字提取算法可分为三类：基于统计特征的要害字提取、基于词图模型的要害字提取和基于主题模型的要害字提取。基于统计特征的文本要害字提取算法基于统计特征的要害字提取算法基于统计特征的要害字提取算法是应用文档中的统计信息提取要害字。

个别状况下，文本经过预处置得到候选词集，然后通过特征值量化从候选词集中获得要害词。基于统计特征的要害词提取要领的要害是采纳何种特征值量化目标。

当前常用的要领有三种：1、基于词权的特征量化主要包括局部语音、词频、反向文档频率、相对词频、词长等。2、基于词位的特征量化要领是基于不一样位置的句子对文献的重要性不一样的假如。平常，文章的前N个词、后N个词、开头、结尾、标题和引言都是有代表性的词。这些词可以把整个主题表达为要害词。3、基于词关联信息的特征量词的关联信息是指词与词、词与文献的关联程度，包括互信息、命中值、奉献度、依赖度、tf-idf值等，这里有一些常用的特征值量化目标。局部语音分词和语法剖析的效果。现有的要害词大多是名词或动名词。

个别来说，名词比言语的其他局部更能表达文章的主旨。然而，作为特征量化的目标，局部语音平常与其他目标联合运用。单词频率表示单词在文本中涌现的频率。个别来说，我们以为一个词在文本中涌现的频率越高，它就越有可能成为文章的中心词。单词频率只是盘算文本中涌现的单词数。然而，仅依托词频获得的要害词拥有很大的不肯定性。关于长文本，此要领将发生大量噪声。

个别来说，词的位置对词有很大的价值。例如，标题和摘要自身是作者总结的文章的主要思想，因而涌现在这些地方的词拥有代表性，更容易成为要害词。然而，因为每个作者都有不一样的习惯、写作要领和要害句子的位置，这也是一种非常宽泛的获得要害词的要领，平常不独自运用。互信息和互信息是信息论中的一个概念，是掂量变量彼此依赖性的一个目标。彼此信息不限于实值随机变量。

打赏