基于HMM的百科辞典文本中句子的知识点分类被引量：5

A HMM Based Topic Categorization of Sentences in Encyclopedia Texts

下载PDF

导出

摘要在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点。知识点是一般文本处理领域中话题这一概念在百科全书文本中的具体表现。属于同一个类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型不同的条目文本中的分布有较强的规律性。在条目文本中识别出对应的知识点序列是百科全书中知识提取过程的重要一环。该文提出了一种基于隐马尔科夫(HMM)模型的方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8%。 There is a certain common text structure shared by the articles dealing with the same kind items of encyclopedia.In other words,there are several common topics to appear in most of these texts,and the sequences of the topics in these texts are similar to each other.In the case of articles dealing with Chinese City,every sentence is covered by one of the common topics,like Area and Population,Clime etc.Automatic categorization of each sentence according to common topics will be very useful in encyclopedia knowledge retrieval.This paper presented a HMM based method of sentence categorization according to common topics,which utilizes the topic transitional information.Experiment shows that this method can provide acceptable performance,the precision of the sentence categorization in the Chinese City articles is 91.8%.

作者许勇宋柔

机构地区北京工业大学计算机学院北京语言大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 2005年第4期35-37,133,共4页 Computer Engineering and Applications

基金国家自然科学基金(编号:60272055) 国家863高技术研究发展计划(编号:2001AA114111)资助

关键词 HMM 百科辞典知识获取自然语言处理 HMM,encyclopedia knowledge retrieval,natural language processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
2朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
3G Salton,A Singhal,C BucHey et al.Automatic text decomposition using text segments and text themes[C].In:Procoedings of Hypertext'96,New York:ACM Press, 1996:53-65.
4Marti A Hearst.Multi-Paragraph Segmentation of Expository Text[C]. In:Proceedings of the 32nd Meeting of the Association for Computational Linguistics,Los Cruces,NM, 1994-06.
5Lang K Newsweeder.Learning to filter net news[C].In:Proceedings of the 12th International Conference on Machine Learning, 1995:331-339.
6Christopher D Manning,Hinrich Schutze.Foundations of Statistical Natural Language Processin[M].The MIT Press, 1996.

二级参考文献8

1邹涛.基于WWW的信息发现技术研究（博士学位论文）[M].南京：南京大学,1999..
2邹涛，博士学位论文，1999年
3Yang Y，Information Retrieval J，1999年
4Yang Y，INRT J，1998年
5吴立德，大规模中文文本处理，1997年，7页
6陈世福，人工智能与知识工程，1997年，391页
7Yang Y，ACM Transactions on Information Systems，1994年
8Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页

共引文献94

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2杨丽华,李保林.邮件过滤系统中预处理方法的研究与实现[J].湖北汽车工业学院学报,2007,21(3):40-43. 被引量：2
3马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
4贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
5张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
6高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
7谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
8刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
9钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
10王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2

同被引文献68

1方卫东,袁华,刘卫红.基于Web挖掘的领域本体自动学习[J].清华大学学报（自然科学版）,2005,45(S1):1729-1733. 被引量：31
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3李颖新,刘全金,阮晓钢.多发性骨髓瘤基因表达谱分析[J].北京工业大学学报,2004,30(3):286-289. 被引量：2
4崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
5宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005(9):10-13. 被引量：16
6张树良,冷伏海.基于文献的知识发现的应用进展研究[J].情报学报,2006,25(6):700-712. 被引量：47
7周秀会.知识元搜索引擎:CNKI知识搜索平台[J].现代情报,2007,27(5):220-222. 被引量：18
8王璐,朱东华,任智军.科技术语属性抽取方法研究[J].现代图书情报技术,2007(5):69-72. 被引量：8
9王洪伟,伊磊,王洪滨.面向关系模式的领域本体获取[J].计算机工程,2007,33(3):1-3. 被引量：9
10中国社会科学院语言研究所词典编辑室.现代汉语词典[M].5版.北京:商务印书馆,2004:323.

引证文献5

1化柏林.国内外知识抽取研究进展综述[J].情报杂志,2008,27(2):60-62. 被引量：13
2化柏林,张新民.从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J].情报科学,2010,28(2):311-315. 被引量：16
3郑彦宁,化柏林.句子级知识抽取在情报学中的应用分析[J].情报理论与实践,2011,34(12):1-4. 被引量：18
4丁玉飞,王曰芬,刘卫江.面向半结构化文本的知识抽取研究[J].情报理论与实践,2015,38(3):101-106. 被引量：8
5钱力,张晓林,王茜.科技论文的研究设计指纹自动识别方法构建与实现[J].图书情报工作,2018,62(2):135-143. 被引量：6

二级引证文献56

1张岚.计算机领域中的本体[J].内蒙古科技与经济,2009(20):87-88. 被引量：1
2汪景梁,李波.网络环境下知识抽取的特点与应用前景[J].情报科学,2010,28(6):859-862. 被引量：2
3丁君军,郑彦宁,化柏林.国内外属性抽取研究综述[J].情报科学,2011,29(5):793-796. 被引量：9
4郑彦宁,化柏林.句子级知识抽取在情报学中的应用分析[J].情报理论与实践,2011,34(12):1-4. 被引量：18
5丁君军,郑彦宁,化柏林.基于规则的学术概念属性抽取[J].情报理论与实践,2011,34(12):10-14. 被引量：30
6高新陵,王正兴.“十一五”期间我国文献情报领域知识发现研究综述[J].图书情报工作,2011,55(24):56-60. 被引量：2
7杨志伟,杨克巍,毛杰,谭跃进.基于XML的装备体系能力知识管理系统[J].计算机工程,2012,38(3):34-36. 被引量：1
8韩普,王东波,谢靖.文本中知识点的知识组织系统研究与架构[J].图书与情报,2013(6):13-18.
9谢靖,陈静,王东波.齐普夫定律在中文短语知识中的呈现[J].情报学报,2014,33(1):11-22. 被引量：5
10吴超,郑彦宁,化柏林.数值信息抽取研究进展综述[J].中国图书馆学报,2014,40(2):107-119. 被引量：10

1骆梅柳,朱帅.网络课程的社会学解析[J].中国信息技术教育,2010(20):101-101.
2张帆,乐小虬.面向领域科技文献的句子级创新点抽取研究[J].现代图书情报技术,2014(9):15-21. 被引量：16
3魏鹤君,李红波,吕涛.《信息安全保密》网络课程设计与研究[J].中国信息技术教育,2014(5):118-119. 被引量：1
4李敬雨.借助句子分析,促进历史有效复习[J].中学政史地（高中文综）,2016,0(7):45-47.
5孟秀艳,王志良,李娜,刘遥峰.情感机器人的情感模型研究[J].计算机科学,2008,35(6):158-162. 被引量：12
6何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
7耿铁华.新版《中国大百科全书》高句丽词条误释说明[J].通化师范学院学报,2010,31(7):1-3.
8缪仁将,余世明,马吉富,陈祥金.基于嵌入式系统和CAN总线的自动售货机控制系统[J].自动化技术与应用,2007,26(3):26-29. 被引量：2
9黄小江,万小军,肖建国.基于协同图排序的对比新闻自动摘要[J].北京大学学报（自然科学版）,2013,49(1):31-38. 被引量：4
10彭敏,高斌龙,黄济民,刘纪平.基于高质量信息提取的微博自动摘要[J].计算机工程,2015,41(7):36-42. 被引量：7

计算机工程与应用

2005年第4期

浏览历史

内容加载中请稍等...

基于HMM的百科辞典文本中句子的知识点分类被引量：5

参考文献6

二级参考文献8

共引文献94

同被引文献68

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于HMM的百科辞典文本中句子的知识点分类 被引量：5

参考文献6

二级参考文献8

共引文献94

同被引文献68

引证文献5

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

基于HMM的百科辞典文本中句子的知识点分类被引量：5