基于Web知识的中文分词结果优化被引量：6

OPTIMISING CHINESE WORD SEGMENTATION BASED ON WEB KNOWLEDGE

下载PDF

导出

摘要随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。 As people＇s activities on the Internet become more and more frequent,the new words on the web are constantly emerging. The recognition efficiency of existing Chinese word segmentation system is relatively low on new words. The identification efficiency on new words directly impacts the precision of word segment,as well as affects the services quality of internet applications. Based on the segmentation results of current word segmentation system,we propose an approach for implementing the new words recognition by using Web knowledge such as search engine and Baidupedia and combining the statistics and matching,which further realises the optimisation of primitive segmentation results of the system. Experimental data show that the proposed method can effectively identify the new Web words and achieves the optimisation of segmentation results.

作者杨阳魏晓秦成磊

机构地区上海应用技术学院计算机科学与信息工程学院

出处《计算机应用与软件》 CSCD 2015年第12期55-58,共4页 Computer Applications and Software

关键词中文分词未登录词网络新词搜索引擎分词优化 Chinese word segmentation Unknown word New Web word Search engine Word segmentation optimisation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张赢,万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,19(5):134-136. 被引量：2
2岳晓光,梁晓诚,麦范金,赵子强.基于.NET的中文分词系统设计与实现[J].微计算机信息,2010,26(12):215-216. 被引量：7
3郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
4蔡勇,刘美玲,李玫,胡豪.一种中医药行业搜索引擎的推荐词产生方式[J].计算机系统应用,2013,22(5):151-154. 被引量：3
5谢红薇,王栋.基于Web文本挖掘中的一种中文分词算法研究[J].电脑开发与应用,2007,20(7):6-8. 被引量：2
6张五辈,白宇,王裴岩,张桂平.一种中医名词术语自动抽取方法[J].沈阳航空航天大学学报,2011,28(1):72-75. 被引量：8
7都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
8张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36

二级参考文献66

1蔡雷.语料库技术在英语教学中的应用与研究[J].宿州学院学报,2008,23(5):159-161. 被引量：8
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
7张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
8杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
9郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
10邱明明,吴国新.一种个性化垃圾邮件识别系统的设计[J].计算机技术与发展,2007,17(1):136-138. 被引量：4

共引文献58

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
3岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：37
4行情[J].现代计算机（中旬刊）,2010(2):81-84.
5岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
6季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
7霍跃红,姚振军,汪榕培.计算机辅助核心译者发现系统的设计与实现[J].计算机工程与设计,2010,31(17):3936-3938.
8潘虹,徐朝军.LCS算法在术语抽取中的应用研究[J].情报学报,2010,29(5):853-857. 被引量：11
9孙瑞娜,古丽拉.阿东别克.哈萨克语基本名词短语自动识别研究与实现[J].中文信息学报,2010,24(6):114-119. 被引量：11
10陈士超,郁滨.面向术语抽取的双阈值互信息过滤方法[J].计算机应用,2011,31(4):1070-1073. 被引量：10

同被引文献44

1陈智,隋光远,皮秀云.论知识点是人的认知单位[J].心理科学,2002,25(3):369-370. 被引量：23
2肖敏.领域本体的构建方法研究[J].情报杂志,2006,25(2):70-71. 被引量：19
3刘晓丽,王涛,苏鹏,梁令.文本分类检索技术在工程中的应用[J].无线电工程,2008,38(10):58-61. 被引量：1
4刘光蓉.“C程序设计”课程内容本体构建[J].电化教育研究,2008,29(12):42-45. 被引量：12
5朱郑州,吴开贵,吴中福,陈乙雄,高旻.基于知识点本体的个性化课程组织方法[J].计算机科学,2009,36(12):124-128. 被引量：9
6张林曼,吴升.地理编码系统中地名地址分词算法研究[J].测绘科学,2010,35(2):46-48. 被引量：16
7纪文倩,李舟军,巢文涵,陈小明.一种基于LexRank算法的改进的自动文摘系统[J].计算机科学,2010,37(5):151-154. 被引量：15
8崔阳,杨炳儒.超图在数据挖掘领域中的几个应用[J].计算机科学,2010,37(6):220-222. 被引量：15
9胡侠,林晔,王灿,林立.自动文本摘要技术综述[J].情报杂志,2010,29(8):144-147. 被引量：24
10王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41

引证文献6

1阳小兰,杨威,钱程,朱福喜.融合HowNet和BTM模型的短文本聚类方法[J].计算机工程与设计,2017,38(5):1258-1263. 被引量：9
2刘海燕,张钰.基于LexRank的中文单文档摘要方法[J].兵器装备工程学报,2017,38(6):85-89. 被引量：5
3吕健颖,尚福华,曹茂俊.课程知识本体自动构建方法研究[J].计算机应用与软件,2018,35(8):55-59. 被引量：2
4葛云生,孔杰.分布式全文检索技术的研究及应用[J].计算机工程与设计,2018,39(9):2997-3001. 被引量：3
5方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术,2019,15(7Z):203-204.
6杨恒,颜宏文.基于DBM的电力投诉工单分类的应用研究[J].计算技术与自动化,2020,39(3):86-90. 被引量：3

二级引证文献22

1翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.
2孙晓腾,李学明.基于论文关键词和篇章结构的自动文摘抽取方法[J].现代计算机,2018,24(9):8-12.
3张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
4牛亚男.具有词判别力学习能力的短文本聚类概率模型研究[J].计算机应用研究,2018,35(12):3569-3574. 被引量：3
5王远志,张海坤,高标,陆文成.基于文本相似度计算的兴趣网络构建方法研究[J].安庆师范大学学报（自然科学版）,2018,24(3):72-76.
6张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报（自然科学版）,2019,21(3):69-72. 被引量：8
7杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计,2019,40(10):2985-2990. 被引量：14
8孙涛.基于LSTM的时政新闻摘要提取研究[J].信息技术与信息化,2020(1):206-208.
9李敏,陶宏才.基于关键词抽取的网络博客自动文摘算法的研究[J].成都信息工程大学学报,2020,35(2):158-162. 被引量：2
10周诗源,王英林.基于布谷鸟搜索优化算法的多文档摘要方法[J].计算机工程,2020,46(7):58-64. 被引量：4

1李景峰,李琰,陈平.一种新的互联网应用体系结构[J].计算机科学,2001,28(5):47-49. 被引量：1
2李景峰,李琰,陈平.互联网软件工程的概念及关键问题[J].计算机科学,2001,28(6):10-13. 被引量：1
3石岚岚,夏克俭.基于Flex和.NET的WebGIS的设计与实现[J].微计算机信息,2008,24(31):233-234. 被引量：10
4孙磊.基于Web知识的无监督英文目录标签消歧[J].计算机应用与软件,2010,27(9):224-227. 被引量：1
5杨学明,刘柏嵩.基于本体的Web知识集成研究[J].情报杂志,2006,25(5):63-65. 被引量：1
6陈晔妮.浅谈RIA开发[J].电脑学习,2010(3):7-8. 被引量：1
7刘凤霞,陈国栋,黄洪海,翟朝亮,余轮.面向富互联网应用的数据传输策略研究[J].计算机工程与设计,2012,33(7):2837-2841. 被引量：1
8楚王辉,宫一凡,陈云.游戏碰撞逻辑在SilverLight中的应用[J].电脑与信息技术,2008,16(4):65-67.
9郑义.基于Web知识的分布式知识库的模型研究[J].长春师范学院学报（自然科学版）,2007,26(6):81-84.
10梁军,肖琳,张立洋,陈炜钊.REST风格人力资源类互联网应用系统设计与优化[J].计算机工程与应用,2013,49(8):261-265. 被引量：6

计算机应用与软件

2015年第12期

浏览历史

内容加载中请稍等...

基于Web知识的中文分词结果优化被引量：6

参考文献8

二级参考文献66

共引文献58

同被引文献44

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Web知识的中文分词结果优化 被引量：6

参考文献8

二级参考文献66

共引文献58

同被引文献44

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Web知识的中文分词结果优化被引量：6