摘要
在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法———文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。
Based on the analysis of existing text representation methods, a new model for text representation that decompose text to paragraphs, sentences and phrases hierarchically is introduced in this study contrast with the inadequacy of existing text representation methods. With the help of this model we propose a text similarity computing method on the unit of paragraph of text. The following experiments carried on the testing set proved a better effect by this method.
出处
《现代情报》
CSSCI
2013年第2期21-23,124,共4页
Journal of Modern Information
基金
湖北省教育厅人文社科项目"云计算环境下图书馆信息服务模型研究"(2012Q190)研究成果之一
关键词
文本相似度
文本空间表示模型
段落
算法
text similarity
text space representation model
paragraph
algorithm