基于互信息的宋史语料库词表的提取被引量：4

Word Extraction Based on Mutual Information for Ancient Chinese Language Database

下载PDF

导出

摘要基于统计语言模型,对《续资治通鉴长编》进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段. In order to extract multi-character words from ancient Chinese database, statistical features are studied. The candidate words are extracted based on mutual information of character. It is up to the user to judge whether a candidate word is real word or not. After a word is extracted, the mutual information that is related to it will be modified accordingly. Word is extracted recursively. There are 3 694 words in 6 500 candidate words that extracted based on mutual information threshold. The experimental result shows that mutual information method is an effective auxiliary approach for multi-character word extraction from an ancient Chinese database.

作者李新福赵杰梁巍

机构地区河北大学数学与计算机学院河北大学电子信息工程学院河北大学管理学院

出处《河北大学学报（自然科学版）》 CAS 北大核心 2006年第5期557-560,共4页 Journal of Hebei University(Natural Science Edition)

基金河北省自然科学基金资助项目(F2006001020) 河北省教育厅科研基金资助项目(2005347)

关键词古籍数据库互信息抽词统计特征 ancient Chinese Language database statistical feature word extraction mutual information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
2FENG HAODI,CHEN KANG,DENG XIAO TIE,et al.Accessor variety criteria for Chinese word extraction[J].Computational linguistics,2004,30(1):75-93.
3刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
4THANARUK,THEERAMUNKONG.Pattern based features vs.statistical features in decision tree for word segmentation[J].IEICE Transactions on Information and Systems,2004,5:1254-1260.
5SPROAT R,SHIH C,GALE W,et al.A stochastic finite state word segmentation algorithm for Chinese[J].Compute linguist,1996,22:377-404.
6罗盛芬,孙茂松.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学报,2003,17(3):9-14. 被引量：32

二级参考文献12

1郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
2陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
3Giuliano, V.E. The interpretation of word associations. In Statistical Association Methods for Mechanized Documentation. National Bureau of Standards Miscellaneous Publication, 1965.25-32.
4Fano, R. Transmission of Information. MIT Press, 1961.
5Resnik, P. Selectional constrains: an information-theoretic model and its computational realization.Cognition, 1996, (61) : 127-159.
6Dunning, T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics,1993, 19(1).
7Church, K.W. , Gale, W.A. Concordances for paralld text. In Proceedings of the 7th Annual Conference of the UW Center for ITE New OED & Text Research. Oxford, 1991, 40-62.
8Smadja, F. Retrieving collocations from text: Xtract. Computational Linguistics, 1993, (19): 143-177.
9Church, K.W. , Hanks, P. Word association norms, mutual information and lexicography. Computational Linguistics. 16(1), 1990,22-29.
10Ferreira da Silva, J. , Pereira Lopes, G. A local maxima method and a fair dispersion normalization for extracting multi-word units from corpora. In the 6th Meetings on Mathematics of Language. 1961,369-381.

共引文献130

1王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
2张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
3熊英,朱杰,孙静.A Semi-automatic Method Based on Statistic for Mandarin Semantic Structures Extraction in Specific Domains[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):25-29. 被引量：1
4郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
5黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
6李成城,赵述芳,刘建毅,钟义信.基于动态规划算法的专有名词切分[J].计算机应用研究,2005,22(7):78-80. 被引量：2
7王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
8王桂平,林鹏.基于双侧语料评价模型的专业词汇识别算法[J].计算机与现代化,2005(9):13-15.
9王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
10白菊平.探讨提高中文文献信息检索质量的相关技术[J].农业图书情报学刊,2005,17(12):119-120. 被引量：1

同被引文献37

1赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的入侵检测[J].计算机工程与应用,2005,41(1):141-143. 被引量：7
2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
3岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6
4张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：65
5陈宏明,郭冰.会计信息化环境内部会计控制设计研究——以某钢铁集团采购与付款内部会计控制为例分析[J].长沙理工大学学报（社会科学版）,2006,21(2):53-56. 被引量：6
6刘政怡,龚建成,吴建国.基于交叉覆盖算法的中文文本分类[J].计算机工程,2006,32(19):183-184. 被引量：8
7苏劲松,周昌乐,李翼鸿.基于统计抽词和格律的全宋词切分语料库建立[J].中文信息学报,2007,21(2):52-57. 被引量：11
8刘慧婷,倪志伟,李建洋,刘政怡.基于交叉覆盖算法的时间序列模式匹配[J].计算机应用,2007,27(2):425-427. 被引量：8
9王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
10中国历代年号索引表[EB/OL].[2009-03-03].http://qbar.qq.com/jb2i2z3c/2162.htm.

引证文献4

1刘政怡,吴建国,李炜.基于交叉覆盖算法的中文分词[J].计算机工程与设计,2010,31(6):1355-1357. 被引量：4
2黄建年,侯汉清.中国古籍文本分词的一次试验[J].情报学报,2011,30(6):618-625. 被引量：6
3韩月阳,邓世昆,贾时银,李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,21(7):29-31. 被引量：10
4李娜,白振田,包平.基于《方志物产》的古籍知识组织路径探析[J].古今农业,2016(1):105-113. 被引量：5

二级引证文献24

1曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
2张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
3黄建年.基于VFP+Word的多文本古籍索引编制实验[J].现代图书情报技术,2011(10):85-89. 被引量：2
4索娟娟,于宝英.基于灰熵的汉语机器翻译消歧研究[J].科技信息,2012(3):39-39.
5田野,贾李蓉,李园白,刘静,刘丽红,李敬华,于彤,杨策,张竹绿.网络论坛中中医药信息的聚类分析研究[J].世界中医药,2012,7(6):535-536. 被引量：1
6张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
7冯光,乔丹丹,常静怡.基于分词匹配的主观题自动评阅技术研究[J].计算机与现代化,2013(3):212-214. 被引量：4
8唐惠燕,包平.基于GIS的农业史研究前景初探[J].中国农史,2013,32(2):132-137. 被引量：4
9何恩贵,杜丙新.中文文字云图生成技术的研究及应用[J].中国电化教育,2013(8):116-120. 被引量：3
10孙冰,李晓丽.一种基于领域优化的集成交叉覆盖神经网络[J].合肥工业大学学报（自然科学版）,2014,37(2):238-242.

1杨志芹.古籍数据库系统的检索方法与进阶技巧[J].兰台世界（下半月）,2008(12):21-22.
2郑春英.不认识的字就用手写输入[J].网友世界,2009(16):17-17.
3霍文硕.基于云平台技术的古籍数据库建设安全初探[J].电子技术与软件工程,2014(2):198-199. 被引量：1
4王丽华.基于TRS的古籍数据库建设[J].中国索引,2006,4(1):31-33. 被引量：2
5奥图码PK-101[J].微型计算机,2009,29(14):80-80.
6王绯.一个具有技术特色的古籍数据库——《龙语瀚堂》[J].中国索引,2005,3(3):45-46.
7文友.学学欧阳修的“度量”[J].广西电业,2005(5):81-81.
8屏幕取词,上网不再有“不懂”[J].网友世界,2011(19):54-54.
9任家东,王倩,王蒙.一种基于频繁模式有向无环图的数据流频繁模式挖掘算法[J].燕山大学学报,2011,35(2):115-120. 被引量：4
10杨兴平.汉语辞典好帮手[J].微电脑世界,2010(3):100-100.

河北大学学报（自然科学版）

2006年第5期

浏览历史

内容加载中请稍等...

基于互信息的宋史语料库词表的提取被引量：4

参考文献6

二级参考文献12

共引文献130

同被引文献37

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于互信息的宋史语料库词表的提取 被引量：4

参考文献6

二级参考文献12

共引文献130

同被引文献37

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于互信息的宋史语料库词表的提取被引量：4