-
题名基于文档标引图模型的文本相似度策略
被引量:4
- 1
-
-
作者
高茂庭
王正欧
-
机构
上海海事大学计算机科学与工程系
天津大学系统工程研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第7期19-22,共4页
-
基金
国家自然科学基金资助项目(60275020)
上海市教委科研基金资助项目(06FZ007)
上海海事大学重点学科建设基金资助项目(XL0101)
-
文摘
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。
-
关键词
文本聚类
文档标引图
文本相似度
文本特征模型
-
Keywords
text clustering
Document Index Graph(DIG)
document similarity
text feature model
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名锐化高斯模板在文本特征项权重调整方法中的应用
被引量:1
- 2
-
-
作者
路永和
何新宇
-
机构
中山大学资讯管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2012年第12期39-44,共6页
-
基金
国家高技术研究发展计划(863计划)基金资助项目"农产品全供应链多源信息感知技术与产品开发--感知终端多通讯协议及汇聚节点研制"(项目编号:2012AA101701-03)的研究成果之一
-
文摘
阐述二维高斯模板和锐化高斯模板的构建过程及其对图像的锐化处理技术,提出文本特征项权重调整方法的主要思想,并以此为依据,论述基于锐化高斯模板的文本特征项权重调整方法。以搜狗自然语言实验室的文本分类语料库中的新闻文档作为实验对象,采用宏平均F测度值作为分类效果评价标准,采用中心点法和K-最近邻方法(KNN)作为分类器的分类算法进行实验。实验结果表明:在KNN分类法下,基于锐化高斯模板的文本向量模型权重调整方法起到提升分类效果的作用,但对中心点法的影响并不大。
-
关键词
文本分类
锐化高斯模板
向量空间模型文本特征
-
Keywords
Text categorization Sharpen Gaussian template Vector space model Text feature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名实验考试系统中的基于词频代码反剽窃技术
- 3
-
-
作者
赵靖
-
机构
安徽科技学院
-
出处
《现代计算机》
2019年第19期28-31,共4页
-
基金
移动互联网新技术创客实验室(No.Xj201743)
-
文摘
随着网络发展,编码在线考试系统的大量应用,有效地检测源代码克隆剽窃有着应用。代码相似度检测方法或者仅利用普通的文本短语相似检测方法,或者利用过于更为复杂低效的源代码的编译特征度量。注意到高级语言源代码的依赖保留词高度结构化特征,在OJ实践中提出一个基于保留词频率源代码相似度快速检测方法:首先通过词法分析切分统计词汇,进而产生源代码的保留词词频向量来计算相似度。通过大量在线源代码的实验结果表明有很快的检测速度和较好的检测效果,并在AOJ系统中大量使用,效果较好。
-
关键词
源代码克隆检测
词法分析
文本特征向量模型
-
Keywords
Code Similarity Detection
Lexical Analysis
Reserve-Words Frequency Metrics
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-