-
题名基于词重要性的信息检索图模型
被引量:11
- 1
-
-
作者
王明文
洪欢
江爱文
左家莉
-
机构
江西师范大学计算机信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第4期134-141,共8页
-
基金
国家自然科学基金(61272212
61462043
+2 种基金
61462045)
江西省自然科学基金(20122BAB211032
2015BAB217014)
-
文摘
在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档来建立检索模型的方法中大多是基于词项独立性假设,用TF和IDF的函数来计算词项的重要性,并未考虑词项之间的关系。该文采用基于词项图(graph-of-word)的文档表示形式来捕获词项间的依赖关系,提出了一种新的基于词重要性的信息检索图模型TI-IDF。根据词项图得到文档中词项的共现矩阵和词项间的概率转移矩阵,通过马尔科夫链计算方法来确定词项在文档中的重要性(Term Importance,TI),并以此替代索引过程中传统的词项频率TF。该模型具有更好的鲁棒性,我们在国际公开数据集上与传统的检索模型进行了比较。实验结果表明,该文提出的模型都要优于BM25,且在大多数情况下优于BM25的扩展模型、TW-IDF等模型。
-
关键词
词项重要性
词项图
检索模型
ti-idf
-
Keywords
term importance
graph-of-word
retrieval model
ti-idf
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于TI-Rank的弹幕关键词提取方法
被引量:2
- 2
-
-
作者
何梓源
张仰森
吴云芳
亓文法
-
机构
北京信息科技大学智能信息处理研究所
北京大学计算语言学研究所
北京大学王选计算机研究所
-
出处
《计算机工程与设计》
北大核心
2022年第2期580-586,共7页
-
基金
国家自然科学基金项目(61772081)
国家重点研发计划基金项目(2018YFB1403104)。
-
文摘
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。
-
关键词
词频-逆文档频率
文本关键词抽取
词频词义关键词提取
三级梯度评价标准
视频弹幕
-
Keywords
TF-IDF
TextRank
TI-RANK
three-level gradient evaluation standard
video barrage
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-