该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词...该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。展开更多
该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取...该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取过程中,将最新的实体抽取工具OLLIE引入到专利领域,得到了比传统SAO抽取工具更好的抽取结果。和传统的SAO方法相比,对Action元组进行了大量分析,通过重复大量实验,确定了Action元组的结构特征。最后,通过实验验证,将vector space module(VSM)模型和SAO结构进行融合,得到了比仅仅通过VSM模型进行相似度计算更好的结果。展开更多
文摘该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×ProportionalDocument Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。
基金国家高技术研究发展计划(863)(the National High- Tech Research and Development Plan of China under Grant No.2006AA01Z148)教育部科学技术研究重点项目(the Scientific Key Project of Ministry of Education of China under Grant No.207148)
文摘该文提出了一种基于subject-action-object(SAO)的专利结构化相似度计算方法。传统的基于关键词的定量分析方法没有考虑专利自身的结构特点,忽略了对专利间内在关系的计算,该文弥补了传统的基于关键词的定量方法的不足。在SAO结构抽取过程中,将最新的实体抽取工具OLLIE引入到专利领域,得到了比传统SAO抽取工具更好的抽取结果。和传统的SAO方法相比,对Action元组进行了大量分析,通过重复大量实验,确定了Action元组的结构特征。最后,通过实验验证,将vector space module(VSM)模型和SAO结构进行融合,得到了比仅仅通过VSM模型进行相似度计算更好的结果。