基于二元背景模型的新词发现被引量：10

New word detection based on a background bigram model

导出

摘要该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。 A new word detection method was developed that first extracts bigrams from the target foreground corpus based on their foreground and background likelihood ratio.Then,it filters and extends the bigrams to qualified new words according to statistical metrics including the frequency,rigidity and conditional probability.The method makes sure that the selected words are actually new based on background knowledge,and fixes the word boundary precisely according to the statistical metrics.The method requires no resources such as word lists,word segmentation models or rules.The methods for determining the thresholds for the different statistical metrics and for cutting the noise bigrams are also discussed.The method has been tested on online novels.

作者吴悦燕鹏举翟鲁峰

机构地区复旦大学数学科学学院盛大语音创新院

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2011年第9期1317-1320,共4页 Journal of Tsinghua University(Science and Technology)

关键词新词发现二元组背景模型似然比 new word detection bigram background model likelihood ratio

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1CHEN Aitao. Chinese word segmentation using minimal linguistic knowledge [C]// SIGHAN'03. Stroudsburg, PA, USA:ACL, 2003:148-151.
2GUO Zhili. Using mutual information to identify new features for text documents of various domains [C]// Proceedings of 17th Pacific Asia Conference on Language, Information and Computation. Singapore: COLIPS Publications, 2003 : 372 - 379.
3WANG Meichu, HUANG Churen, CHEN Kehjiann. The identification and classification of unknown words in Chinese: an n-grams based approach [C]// The Proceedings of the 1994 Kyoto Conference: A Festschrift for Professor Akira Ikeya. Tokyo: The Logico-Linguistic Society of Japan, 1995 113 - 123.
4贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
5齐振宇,赵军,杨帆.一种开放式中文命名实体识别的新方法[C]//第五届全国信息检索学术会议论文集.北京:中国中文信息学会,2009:paper60.
6PENG Fuchun, FENG Fangfang, Andrew M. Chinese segmentation and new word detection using conditional random fields [C]// COLING'04. Stroudsburg, PA, USA: ACL, 2004: 562-569.
7韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15
8Smadja F. Retrieving collocations from text: Xtract [J]. Computational Linguistics-Special issue on using large corpora: I, 1993, 19(1): 143-177.

二级参考文献18

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
3刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
4王立希,王建东,汪静.基于数据挖掘的新词发现[J].计算机应用研究,2006,23(12):195-197. 被引量：8
5周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
6贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
7Fuchun Peng, Fangfang Fcng, Andrew McCallum. Chinese segmentation and new word detection using conditional random fields [C]//COLING 2004, Gene va, Switzerland, 2004.
8Patrick Pantel, Dekang Lin. A Statistical Corpus- based Term Extractor[C]//Ottawa, Canda. Lecture Notes in Artificial Intelligence, 2001: 36-46.
9Schutze H,Hull D,Pederson J.A Comparison of Classifiers and Document Representations for the Routing Problem. In Croft .(Eds.), Proceedings ofSIGIR-95, 15th ACM Intemational Conference on Research and Development in Information Retrieval,New York:ACM Pres
10Tan Chademeng ,Wang Yuanfang, Lee Chando. The Use of Bigrams to Enhance Text Categorization.lnformation Processing and Management,2002,38:529-546

共引文献40

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
4孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].中国索引,2006,4(4):42-45.
5孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].图书馆工作与研究,2007(1):22-25. 被引量：6
6周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
7吴春颖,王士同,蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用,2008,28(3):764-767. 被引量：4
8王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008(2):35-40. 被引量：7
9韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
10韩艳,林煜熙,姚建民.基于统计信息的未登录词的扩展识别方法[J].中文信息学报,2009,23(3):24-30. 被引量：15

同被引文献162

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
7于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
8崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
9罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
10傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：9

引证文献10

1刘哲,黄永峰,罗芳,陈跻,王丙坤.网络新词识别算法研究[J].计算机工程与科学,2013,35(9):141-145. 被引量：6
2王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
3李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35
4李卫平,杨杰,王钢.多变参pLSI文本敏感特征抽取算法[J].计算机应用研究,2015,32(9):2587-2589. 被引量：2
5韦强申.基于多特征提取的中文二元分类[J].科技风,2016(2):11-11.
6雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
7符贤哲,刘胜全,刘艳,郭竹为,赵美玲.基于生存法则的稳定新词识别方法的研究[J].新疆大学学报（自然科学版）,2018,35(1):73-79. 被引量：1
8李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
9雷晓,常春,刘伟.面向叙词表更新的新术语分布特征研究[J].图书情报工作,2019,63(20):121-128. 被引量：3
10于浏洋,郭志刚,陈刚,席耀一.面向知识图谱构建的知识抽取技术综述[J].信息工程大学学报,2020,21(2):227-235. 被引量：22

二级引证文献78

1余晓蕾,朱笛,王立昊,林军,向剑文.基于知识图谱的嵌入式操作系统测试用例复用推荐模型[J].武汉大学学报（理学版）,2023,69(2):187-194. 被引量：3
2那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
3何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
4王馨,王煜,王亮.基于新词发现的网络新闻热点排名[J].图书情报工作,2015,59(6):68-74. 被引量：11
5车飞.近十余年来汉语网络新词语研究述略[J].重庆工商大学学报（社会科学版）,2015,32(3):102-113. 被引量：6
6孙立远,周亚东,管晓宏.利用信息传播特性的中文网络新词发现方法[J].西安交通大学学报,2015,49(12):59-64. 被引量：5
7刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
8夭荣朋,许国艳,宋健.基于改进互信息和邻接熵的微博新词发现方法[J].计算机应用,2016,36(10):2772-2776. 被引量：24
9高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
10万琪,于中华,陈黎,宋磊磊,丁革建.利用新词探测提高中文微博的情感表达抽取[J].中国科学技术大学学报,2017,47(1):63-69. 被引量：5

1刘杰,傅秀芬.基于OWL-S的语义Web服务发现方法[J].计算机技术与发展,2012,22(4):73-76.
2构建三纬安全架构[J].信息系统工程,2003,16(3):43-43.
3宋翠.网络拓扑发现算法的研究[J].企业导报,2014(16):137-137. 被引量：1
4阿飞.KMPlayer也能看电视[J].电脑迷,2007,0(15):61-61.
5DBOY.扮靓数码相片四步走[J].电脑应用文萃,2005(5):12-13.
6游骑士.ACDSee帮你加密照片[J].网友世界,2009(1):20-20.
7张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
8张海营.网络信息检索中堆栈——最大匹配自动分词算法研究[J].计算机光盘软件与应用,2011(8):27-27.
9陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
10王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5

清华大学学报（自然科学版）

2011年第9期

浏览历史

内容加载中请稍等...

基于二元背景模型的新词发现被引量：10

参考文献8

二级参考文献18

共引文献40

同被引文献162

引证文献10

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

基于二元背景模型的新词发现 被引量：10

参考文献8

二级参考文献18

共引文献40

同被引文献162

引证文献10

二级引证文献78

相关作者

相关机构

相关主题

浏览历史

基于二元背景模型的新词发现被引量：10