三个层面的中文文本主题自动提取研究被引量：13

Extract Subject from Chinese Text with Three Different Levels

下载PDF

导出

摘要为适应Internet时代和大规模文献处理的需要 ,以中文文本为处理对象 ,研究了从主题词、主题概念和主题句三个不同层面自动抽取文本主题的方法 ,着重讨论了加权体系和一些经验值的获取方法。对新闻类文献做了实验。 To meet the requirement of Internet and large scale text processing,this paper introduces how to automatically extract subject from Chinese texts. We extract the subject from three different levels: subject word,subject concept and subject sentence. We put the emphasis on how to form the weighting system and acquire the experience coefficient values. Based on the experimental results of news articles,we briefly analyze the performance.

作者韩客松王永成沈洲吴芳芳

机构地区上海交通大学

出处《中文信息学报》 CSCD 北大核心 2001年第4期20-27,共8页 Journal of Chinese Information Processing

基金 8 6 3计划资助项目!(86 3 - 30 6 -ZD0 3- 0 4- 1)

关键词主题词主题概念主题句加权中文文本主题提取文本处理 subject word subject concept subject sentence weighting

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1牛凯.中文科技文献计算机自动标引系统的研究[J].情报学报,1995,14(1):16-26. 被引量：2
2唐振民,靳从,杨静宇,李远复.一种用于自动标引系统的主题词自动切分方法[J].南京理工大学学报,1995,19(5):401-404. 被引量：2
3靳从,樊春丽,杨静宇.主题词自动标引中的知识处理方法[J].情报理论与实践,1996,19(2):30-33. 被引量：3
4薛翠芳,郭炳炎.汉语文本特征词的抽取方法[J].情报学报,2000,19(3):242-247. 被引量：21
5韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
6陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
7唐振民，南京理工大学学报，1995年，19卷，5期，401页

二级参考文献27

1郭友仁.汉语科技文献的自动标引及其试验结果的分析[J].情报科学,1988,9(2):15-23. 被引量：3
2郭友仁.汉语文献自动标引专家系统中的知识表达[J].情报科学,1987,8(4):1-8. 被引量：1
3何建章.汉语科技文献自动抽词的探讨与试验[J].情报科学,1987,8(4):35-45. 被引量：3
4史继红,赖茂生.汉语自动标引加权方法试验研究[J].现代图书情报技术,1994(3):18-21. 被引量：1
5孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
6黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
7俞士汶，现代汉语语法信息词典详解，1998年
8Chang Y I，IEEE Trans Knowledge Data Engineering，1997年，9卷，1期，179页
9Chen C Y，IEEETranson Know ledge and Data Engineering，1997年，9卷，1期，148页
10Chen I R，Computer J，1995年，38卷，3期，245页

共引文献84

1滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
2黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
3温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
4吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
5马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
6唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
7陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
8邱立新.试析《鲁府禁方》中童便的应用[J].中国科技信息,2005(12):168-169.
9孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
10钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.

同被引文献99

1陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
2许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24
3许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
4刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
5袁里驰,钟义信.基于相似度的词聚类算法[J].微电子学与计算机,2005,22(8):93-95. 被引量：4
6郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
7唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
8温有奎 ,温浩 ,徐端颐 ,潘龙法 .基于创新点的知识元挖掘[J].情报学报,2005,24(6):663-668. 被引量：37
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48

引证文献13

1唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
2程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
3朱恒民,马静,黄卫东.基于领域本体的中文Web文本主题特征抽取方法[J].情报理论与实践,2008,31(2):286-288. 被引量：5
4陈炯,张永奎.基于加权信息论的突发事件新闻主题抽取方法[J].计算机应用,2008,28(B06):150-151. 被引量：5
5刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展,2010,20(7):72-75. 被引量：3
6袁晓峰.一种基于主题的Web文本聚类算法[J].成都大学学报（自然科学版）,2010,29(3):249-252. 被引量：1
7陈炯,张永奎.一种基于词聚类的文本特征描述方法[J].计算机系统应用,2011,20(2):211-215. 被引量：4
8段磊,唐常杰,左劼,彭京,刘婷婷,苟驰.Web实时环境两级过滤中文文本内容自学习算法[J].计算机科学与探索,2011,5(8):695-706. 被引量：3
9王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：33
10袁晓峰.基于词语相关度的文档主题抽取算法[J].成都大学学报（自然科学版）,2012,31(4):367-369.

二级引证文献103

1Shuang Yang,Yan Tang.News Topic Detection Based on Capsule Semantic Graph[J].Big Data Mining and Analytics,2022,5(2):98-109. 被引量：2
2程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
3施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
4周晨,罗翀.美国自动生成元数据应用计划AMeGA及其启示[J].图书馆建设,2008(1):43-45.
5程德生.工商行业知识库主题词提取及作用[J].福建电脑,2008,24(12):44-45.
6牟帅,黄映辉,李冠宇.语义Web服务的OWL-S描述及其应用[J].计算机技术与发展,2009,19(1):13-16. 被引量：1
7何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
8徐沛娟,李雄飞,惠玥,张桂林.中文文本分类相关算法的研究与实现[J].吉林大学学报（理学版）,2009,47(4):790-794. 被引量：12
9黄振晗.基于文档特征的Web主题文本提取[J].现代计算机,2009,15(8):26-30.
10张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8

1张清军,朱才连.基于统计的中文文本主题自动提取研究[J].四川大学学报（工程科学版）,2004,36(3):97-100. 被引量：7
2陆尧,周卫东,李嬴,赵会仁,岳京立.利用VB实现全屏数据编辑功能数据表的方法[J].锦州医学院学报,1999,20(2):31-33. 被引量：1
3曾庆祝.Excel 97的Interner功能[J].微电脑世界,1998(18):68-68.
4风河与Intel合作推出MID Linux平台[J].单片机与嵌入式系统应用,2008,8(8):67-67.
5杭月,严军,等.基于Web的Internet网络管理[J].世界网络与多媒体,2000,8(3):20-21.
6黎皓.基于SNMP的网络性能管理系统研究[J].通讯世界（下半月）,2013(5):5-7. 被引量：4
7岑贤道,吴健.有效访问Interner信息资源[J].中国计算机用户,1996(10):60-61. 被引量：2
8李殿勋.嵌入式系统与Internet的融合技术[J].科海故事博览：科技探索,2011(3):98-98. 被引量：1
9袁枭,王炎鑫,宋绪政.Java语言的特点与C++语言的比较研究[J].科技创新与应用,2016,6(28):101-101. 被引量：1
10什么是Internet？[J].中国农业会计,2000(9):43-43.

中文信息学报

2001年第4期

浏览历史

内容加载中请稍等...

三个层面的中文文本主题自动提取研究被引量：13

参考文献7

二级参考文献27

共引文献84

同被引文献99

引证文献13

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

三个层面的中文文本主题自动提取研究 被引量：13

参考文献7

二级参考文献27

共引文献84

同被引文献99

引证文献13

二级引证文献103

相关作者

相关机构

相关主题

浏览历史

三个层面的中文文本主题自动提取研究被引量：13