-
题名基于句子的文本表示及中文文本分类研究
被引量:3
- 1
-
-
作者
何维
王宇
-
机构
大连理工大学管理学院
-
出处
《情报学报》
CSSCI
北大核心
2009年第6期839-843,共5页
-
基金
国家自然科学重点基金资助项目(70431001).
-
文摘
文本挖掘技术是信息资源管理的一项关键技术。向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息。为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性。实验证明,基于句子包的KNN算法的平均精度(92.12%)和召回率(92.01%)是比较理想的。
-
关键词
信息资源管理
句子包
文本表示
文本分类
-
Keywords
information resources management
bag of sentences
text representation
text categorization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
H146.3
[语言文字—汉语]
-
-
题名基于改进BoS的Web文本分类研究
被引量:1
- 2
-
-
作者
彭俊杰
陈丹敏
-
机构
河南大学计算机与信息工程学院
-
出处
《南京邮电大学学报(自然科学版)》
北大核心
2013年第1期79-83,共5页
-
基金
河南省科技攻关项目(102102210489)资助项目
-
文摘
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度。改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度。经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高。
-
关键词
WEB文本分类
句子包
向量空间模型
文本挖掘
-
Keywords
web text classification
bag of sentences
vector space model
text mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文本结构树的论文复制检测算法
被引量:4
- 3
-
-
作者
王森
王宇
-
机构
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2009年第10期50-55,共6页
-
文摘
针对目前学术界抄袭现象日趋严重的问题,提出基于文本结构树的论文复制检测算法。将一篇论文分为三层的结构树:最上层的根节点表示整篇论文,分支节点表示句子包,叶节点表示句子。根据一个函数和句子的综合相似度计算句子相似度,以最大句子相似度计算叶节点相似度,上层节点的相似度由相邻的下层节点相似度计算得到。选用中国期刊全文数据库中的论文进行测试,实验结果证明该算法是可行的、高效的。
-
关键词
复制检测
句子相似度
句子包
结构树
-
Keywords
Copy detection Sentence similarity Sentence bag Structure tree
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-