基于多层最大熵模型的句子主干分析被引量：4

Skeleton Parsing Based on Multi-layer Maximum Entropy Model

下载PDF

导出

摘要句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大熵模型,它的底层最大熵利用句子的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大熵模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。 The main task of Skeleton Parsing is to identify the skeleton of a sentence automatically.Chinese Skeleton Parsing is a key problem in NLP.Because of the interrelation of the skeleton in the same context,a Multi-layer Maximum Entropy Model（MMEM） for the skeleton parsing was proposed.The low-layer ME analyzed skeleton by the context features while the high-layer ME analyzed skeleton by both the result of the low-layer ME and the features between sentences.The experiment showed that MMEM was efficient for Chinese skeleton parsing.A high precision was achieved under a small corpus while it was dependable on the scale of corpus.With the increasing of the corpus,the precision of MMEM improves slowly.

作者葛斌封孝生谭文堂肖卫东

机构地区国防科技大学C

出处《计算机科学》 CSCD 北大核心 2010年第12期156-160,共5页 Computer Science

基金国家自然科学基金项目(60903225 60172012) 湖南省自然科学基金项目(03JJY3110)资助

关键词最大熵多层最大熵模型主干词主干分析自然语言理解 Maximum entropy Multi-layer maximum entropy model Skeleton word Skeleton parsing Natural language processing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1黄永文,何中市.基于全局折扣的统计语言模型平滑技术[J].重庆大学学报（自然科学版）,2005,28(8):51-55. 被引量：3
2黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

二级参考文献25

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.
3Y. Yang, X. Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf. onResearch and Development in the Information Retrieval. NewYork: ACM Press, 1999.
4Y. Yang, C. G. Chute. An example based mapping method for text categorization and retrieval. ACM Trans. on Information Systems, 1994, 12(3): 252 -277.
5E. Wiener. A neural network approach to topic spotting. The 4th Annual Syrup. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995.
6R. E. Schapire, Y. Singer. Improved boosting algorithms using confidence-rated predications. In: Proc. of the 11th Annual Conf.on Computational Learning Theory. New York: ACM Press,1998. 80--91.
7T. Joachims. Text categorization with support vector machines:Learning with many relevant features. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998. 137-142.
8Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) : 76-- 88.
9R. Adwait. Maximum entropy models for natural language ambiguity resolution: [ Ph. D. dissertation ] . Pennsylvania:University of Pennsylvania, 1998.
10R. Adwait. A maximum entropy model for part-of-speech tagging. The Empirical Methods in Natural Language Processing Conference, Philadelphia, USA, 1996.

共引文献99

1陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
2修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
3钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
5尚文倩,瞿有利,黄厚宽,朱海滨,林永民,董红斌.基于基尼的模糊kNN分类器(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):87-90.
6周琳.摄影,靠的就是眼力[J].军事记者,2006(10):52-52.
7尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
8崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
9司广涛,李培峰,朱巧明,李军辉.基于最大熵模型的邮件过滤系统研究[J].计算机工程与应用,2006,42(32):119-121.
10贾宁.使用概念基元特征进行自动文本分类[J].计算机工程与应用,2007,43(1):24-26. 被引量：6

同被引文献43

1毕崇武,叶光辉,李明倩,曾杰妍.基于标签语义挖掘的城市画像感知研究[J].数据分析与知识发现,2019,3(12):41-51. 被引量：7
2共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
3董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
4格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
5薛永增,杨沐昀,赵铁军,韩习武,齐浩亮.面向体育领域的句子主干翻译技术研究[J].中文信息学报,2005,19(5):24-30. 被引量：1
6祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
7赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别[C]//第五届全国青年计算语言学研讨会论文集,2010:480-486.
8CHRIS Man-ning, HINRICH SCHUTZE. Foundations of statistical natural language processing [ M ]. Cambridge, MA : MIT Press, 1999.
9ADAM L BERGER, VINCENT J Della Pietra, Stephen A Della Pietra. A maximum entropy approach to natural language processing[J]. Journal Computational Linguistics Archive, 1996,22 ( 1 ) : 39-71.
10ADWAIT R. Maximum entropy models for natural language ambguity resolution [ M ]. Pennsylvania : Pennsyl- vania, 1998.

引证文献4

1Wei Xu,Ke Zhao,Zhenzhen Yi,Yatao Li,Peitao Cheng.Automatically Identifying the Sentence Skeleton of Chinese Sentences Based on the Event Model[J].Tsinghua Science and Technology,2012,17(3):248-255. 被引量：1
2徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7
3臧国全,王家振,毕崇武,耿瑞利.政府数据中敏感数据识别与隐私计量研究[J].图书情报工作,2022,66(15):66-75. 被引量：3
4肖洋,臧国全.个人金融数据的敏感性识别与隐私计量研究[J].情报理论与实践,2023,46(9):105-114. 被引量：2

二级引证文献13

1王玮,郭创拓.科技金融数据信息流通的现实风险与法律监管[J].法治论坛,2023(3):34-49.
2邹后孝.基于词语级的藏语显示情感句的情感分析与研究[J].网友世界,2014,0(17):317-317.
3范希辉,李刚,叶纯,陈代梅.基于混合策略的文图自动转换方法研究[J].火力与指挥控制,2016,41(5):11-14.
4高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
5万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1
6张瑞.藏文在线评论情感分析研究综述[J].智库时代,2018(35):206-208. 被引量：2
7才让叁智,多拉.贫语言资源条件下藏文分句数据集构建研究[J].高原科学研究,2022,6(4):85-94.
8才让叁智,多拉,格桑多吉,洛桑嘎登,仁增多杰.TASSM_BS:基于Bi-LSTM和Self-Attention的藏文自动分句方法[J].中文信息学报,2023,37(5):44-52.
9肖洋,臧国全.个人金融数据的敏感性识别与隐私计量研究[J].情报理论与实践,2023,46(9):105-114. 被引量：2
10吴宁博,李金燕,杨帆,丁红发.我国政府数据开放的隐私风险判定及其治理路径研究[J].情报杂志,2023,42(11):192-198.

1齐浩亮,杨沐昀,孟遥,韩习武,赵铁军.面向特定领域的汉语句法主干分析[J].中文信息学报,2004,18(1):1-5. 被引量：8

计算机科学

2010年第12期

浏览历史

内容加载中请稍等...

基于多层最大熵模型的句子主干分析被引量：4

参考文献3

二级参考文献25

共引文献99

同被引文献43

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多层最大熵模型的句子主干分析 被引量：4

参考文献3

二级参考文献25

共引文献99

同被引文献43

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于多层最大熵模型的句子主干分析被引量：4