期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于TI-Rank的弹幕关键词提取方法 被引量:2
1
作者 何梓源 张仰森 +1 位作者 吴云芳 亓文法 《计算机工程与设计》 北大核心 2022年第2期580-586,共7页
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数... 为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWTextRank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWTextRank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。 展开更多
关键词 词频-文档频率 文本关键词抽取 词频词义关键词提取 三级梯度评价标准 视频弹幕
下载PDF
基于多线程多重因子加权的关键词提取算法 被引量:5
2
作者 林满山 韩雪娇 宋威 《计算机工程与设计》 CSCD 北大核心 2013年第7期2398-2402,2407,共6页
针对英文短文本的内容精悍、格式多变的特点,提出了基于多线程多重因子加权的文本关键词提取算法。该算法利用词频-逆向文档频率(TF-IDF)算法计算文本集中单词的词频因子,及代表单词出现位置、长度和同现关系的位置因子、词长因子和同... 针对英文短文本的内容精悍、格式多变的特点,提出了基于多线程多重因子加权的文本关键词提取算法。该算法利用词频-逆向文档频率(TF-IDF)算法计算文本集中单词的词频因子,及代表单词出现位置、长度和同现关系的位置因子、词长因子和同现因子,采用基于Future模式多线程并发计算4个因子的权值。再计算单词的4个因子累积权值并排序。实验结果表明,基于多线程多重因子加权的关键词提取算法能够有效提高短文本关键词提取的准确率和召回率。 展开更多
关键词 英文短文本 关键词提取 多重因子加权 多线程 词频-逆向文档频率
下载PDF
基于万有引力模型的关键词自动抽取方法 被引量:1
3
作者 李欢 吕学强 +1 位作者 李宝安 徐丽萍 《计算机工程与设计》 北大核心 2019年第4期1091-1098,共8页
为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征... 为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。 展开更多
关键词 万有引力模型 词频-文档分布熵 关键词抽取 词语关联度 依存句法距离
下载PDF
《统计与决策》期刊文献规模的探测
4
作者 钮亮 杨玉香 《统计与决策》 CSSCI 北大核心 2016年第9期107-111,共5页
以中国知网中"统计与决策"期刊1985—2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行... 以中国知网中"统计与决策"期刊1985—2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行投影,通过社团分割和介数中心性计算核心年度文档和核心主题以及其对应的关键词。文章克服了共词网络分析法对同名异意,异名同意的问题,实现自动挖掘科技文献主题。 展开更多
关键词 “文档-关键词”矩阵 主题模型 二分图 社团分割 介数中心性 统计与决策
下载PDF
基于主题建模的文本相关分析与情感研究 被引量:1
5
作者 乔平安 刘佩龙 《现代电子技术》 北大核心 2019年第18期125-129,135,共6页
伴随着互联网信息技术的飞速发展,网络上文本信息增长迅速,对文本进行研究、处理和分析已成为热门研究课题.这些海量的文本数据中包含的大量信息,如何挖掘这些文本中隐含的信息是目前自然语言处理和文本检索领域的一大研究难点.针对此... 伴随着互联网信息技术的飞速发展,网络上文本信息增长迅速,对文本进行研究、处理和分析已成为热门研究课题.这些海量的文本数据中包含的大量信息,如何挖掘这些文本中隐含的信息是目前自然语言处理和文本检索领域的一大研究难点.针对此情况提出一种基于主题建模的文本相关分析和情感研究的方法,充分挖掘海量文本隐含信息.该方法首先对文本进行整洁后计算文本之间的相关系数,然后依据相关系数把整洁文本转化为文档-词项矩阵后输入LAD模型进行建模分析,最后基于情感词典进行总-分式的情感研究.实验结果表明,该方法能够充分挖掘文本潜在信息,效率较好且可视化效果好. 展开更多
关键词 主题建模 相关分析 情感研究 情感词典 文档-词项矩阵 可视化效果
下载PDF
基于SVD的档案学主题挖掘
6
作者 奉国和 王丹迪 李媚婵 《山东大学学报(理学版)》 CAS CSCD 北大核心 2016年第1期95-100,共6页
收集2010—2014年国家社科基金档案学领域立项课题,基于课题名称进行分词等预处理,得到词项-文档矩阵,依据词项重要性设计局部及全局权重,组合局部与全局权重,得到词项-文档矩阵权重值。利用奇异值分解SVD进行特征降维,研究在不同维度下... 收集2010—2014年国家社科基金档案学领域立项课题,基于课题名称进行分词等预处理,得到词项-文档矩阵,依据词项重要性设计局部及全局权重,组合局部与全局权重,得到词项-文档矩阵权重值。利用奇异值分解SVD进行特征降维,研究在不同维度下近5 a国家社科档案学立项课题研究主题。经过可视化分析得到社科档案学七大研究主题为:非物质文化遗产保护、电子文件管理、数字资源建设及体系、档案信息资源价值与挖掘、档案保护机制、档案馆研究、档案信息安全。 展开更多
关键词 词项-文档矩阵 奇异值分解 权重设计 档案学课题 主题挖掘
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部