语义分析在汉语相似性文献检测中的应用研究被引量：1

Research on the Application of Semantic Analysis in Chinese Document Similarity Detection

下载PDF

导出

摘要相似性文献检测技术在数字图书馆、知识产权保护等应用中有着较强的实际意义和应用价值.汉语中存在着许多歧义现象,导致汉语相似性文献检测的难度远大于英文文献.结合汉语的特点,提出了一种改进的基于词频统计的汉语相似性文献检测方法.首先,利用关键词和统计信息进行切词与消歧.其次,在语义分析的基础上抽取特征词并计算权重.最后,通过构造加权词频向量空间完成相似性检测.对本科生毕业论文的小规模实验表明:该方法能有效消除切分歧义,降低运算规模,提高检测精度与速度. The technology of Chinese documents similarity detection has a great practical significance and application value in the fields of digital libraries, intellectual property protection and other applications. There are many ambiguities in Chinese. This leads to the fact that Chinese documents similarity detection is more difficult than that of English. With Chinese characteristics, an improved method is provided to detect the similarity of Chinese documents based on word frequency statistics.

作者谈文蓉冯山刘莉

机构地区西南民族大学计算机科学与技术学院四川师范大学数学与软件科学学院

出处《四川师范大学学报（自然科学版）》 CAS CSCD 北大核心 2010年第4期554-558,共5页 Journal of Sichuan Normal University（Natural Science）

基金国家自然科学基金(60603009) 四川省重点科技攻关基金(05SG022-016) 四川省教育厅自然科学重点基金(09ZA100)资助项目

关键词语义分析相似度切分歧义汉语文献特征提取加权词频 semantics analysis similarity word sense ambiguity Chinese document feature extraction weighted word frequency

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1Manber U.Finding similar files in a large file system[A]//Proceedings of the Winter USENIX Technical Conference.San Francisco:USENIX Association Press,1994:1-10.
2Brin S,Davis J,Garcia-Molina H.Copy detection mechanisms for digital documents[A]//Proceedings of the ACM SIGMOD International Conference on Management of Data.San Jose:ACM Press,1995:398-409.
3Shivakumar N,Garcia-Molina H.A copy detection mechanism for digital documents[A]//Proceedings of the 2nd International Conference on Theory and Practice of Digital Libraries.Austin,Texas:ACM press,1995:9-17.
4宋擒豹,沈钧毅.数字商品非法复制和扩散的监测机制[J].计算机研究与发展,2001,38(1):121-125. 被引量：38
5李旭,刘国华,余靖,王蕾.一种面向文档复制检测的特征提取方法[J].小型微型计算机系统,2008,29(5):813-816. 被引量：3
6何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791. 被引量：25
7赵铁军.机器翻译原理[M].哈尔滨：哈尔滨工业大学出版社,2001..
8谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
9江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
10鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69

二级参考文献67

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3夏天,樊孝忠,刘林,骆正华.基于ALICE的汉语自然语言接口[J].北京理工大学学报,2004,24(10):885-889. 被引量：11
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
6谈文蓉,杨宪泽.MIS智能处理的近似评判法及其算法研究[J].计算机科学,2005,32(3):226-228. 被引量：6
7金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
8吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
9杨宪泽,谈文蓉,唐向阳,秦沿海.一种混合式机器翻译方法及其算法[J].计算机应用与软件,2005,22(9):142-144. 被引量：6
10金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9

共引文献286

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
3王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
4王小华,卢小康.基于N-Gram的文本去重方法研究[J].杭州电子科技大学学报（自然科学版）,2010,30(2):61-64. 被引量：5
5张蒲生,苏运霖,方德葵.同时嵌入数字许可和版权标识的版权控制方案[J].计算机工程与应用,2004,40(25):213-217.
6张蒲生,苏运霖,方德葵.一种嵌入机器指纹的版权控制方法[J].计算机应用研究,2004,21(7):144-146. 被引量：1
7李军怀,张景,吕林涛,张志强.基于Internet的传统商品防伪系统[J].计算机工程,2004,30(19):32-34. 被引量：3
8鲍军鹏,沈钧毅,刘晓东.一个基于网格的文本复制检测系统[J].微电子学与计算机,2004,21(9):7-10. 被引量：7
9杨宪泽,秦沿海,唐向阳,撒晓英,刘明志.机器翻译中设计的两个算法[J].科技通报,2005,21(2):189-192. 被引量：5
10张蒲生,苏运霖,方德葵.一种隐藏和提取版权控制数据的技术方案[J].小型微型计算机系统,2005,26(3):500-504.

同被引文献8

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
3NIGAM K, MCCALLUM A, THRUN S. Text classification from labeled and unlabled documents using EM[J]. Machine Learning, 1999, 39(23): 103-134.
4BRIN S, DAVIS J, GARCIA-MOLINA Chicopee detection mechanisms for digital documents[C]. In: Proceedings of the ACM SIGMOD Conference on Management of Data, a Jose California, 1995, 126-141.
5SHIVAKUMAR N, GARCIA-MOLINA H. A copy detection mechanism for digital documents[C]. In: Proceedings off the 2^nd International Conference on Theory and Practice of Digital Libraries.Austin, Texas, USA, 1995, 9-17.
6李旭,刘国华,余靖,王蕾.一种面向文档复制检测的特征提取方法[J].小型微型计算机系统,2008,29(5):813-816. 被引量：3
7江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
8任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20

引证文献1

1谈文蓉,刘莉.基于汉语相似性文献检测的特征提取算法研究[J].西南民族大学学报（自然科学版）,2011,37(3):464-468.

1谈文蓉,刘莉.基于汉语相似性文献检测的特征提取算法研究[J].西南民族大学学报（自然科学版）,2011,37(3):464-468.
2王中立.汉语自动分词中切分歧义及处理技术[J].许昌学院学报,2006,25(2):118-121. 被引量：1
3敬告作者——投稿时请检测参考文献[J].麦类作物学报,2013,33(3).
4敬告作者--投稿时请检测参考文献[J].麦类作物学报,2013,33(5).
5敬告作者——投稿时请检测参考文献[J].麦类作物学报,2013,33(6).
6敬告作者--投稿时请检测参考文献[J].麦类作物学报,2013,33(4).
7李萍.试论现代汉语词语的切分技术[J].中国新技术新产品,2010(24):232-232.
8方沛,初永宝.毕业论文管理中计算机的应用[J].科学时代,2011(11):327-328.
9张纯青,陈超,邵正荣,俞能海.基于加权词频的信息检索相似度评价模型[J].计算机仿真,2008,25(1):134-137. 被引量：2
10本刊编辑部.简讯[J].徐州师范大学学报（自然科学版）,2009,27(2):38-38.

四川师范大学学报（自然科学版）

2010年第4期

浏览历史

内容加载中请稍等...

语义分析在汉语相似性文献检测中的应用研究被引量：1

参考文献18

二级参考文献67

共引文献286

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

语义分析在汉语相似性文献检测中的应用研究 被引量：1

参考文献18

二级参考文献67

共引文献286

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

语义分析在汉语相似性文献检测中的应用研究被引量：1