基于国内现存文本语料库规范化的现状研究及改进

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

下载PDF

导出

摘要当前国内对于文本可视化的研究还停留在初级阶段,存在着许多方法处理文本语料库。随着科学技术的不断发展,网络变得越来越普及,人们可以从网络上获得大量的文本资料信息,本文主要针对如何获取序列化、规范化的汉语的语料库提出了一种新的框架。 The current domestic for text visualization research still stays in the primary stage, there are many ways to deal with text corpus. With the continuous development of science and technology, network has become more and more popular. We can get a lot of text information from the Internet, this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

作者孙温稳 Sun Wenwen(Information Science & Technology College9Zhengzhou Normal University,Zhengzhou Henan 450044)

机构地区郑州师范学院信息科学与技术学院

出处《河南科技》 2016年第11期19-20,共2页 Henan Science and Technology

关键词语料库工具包文本规范化 corpus toolkit text normalization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

1李洋.微博文本规范化研究综述[J].现代计算机,2014,20(2):26-29.
2钱涛,姬东鸿,戴文华.基于迁移的微博分词和文本规范化联合模型[J].华南理工大学学报（自然科学版）,2015,43(11):47-53.
3孙温稳.XML文本的标准化[J].电子技术与软件工程,2016(7):187-187. 被引量：1
4陈嘉勇.基于WEKA平台的文本聚类研究与实现[J].中国管理信息化,2009,12(21):9-12. 被引量：1
5郑秋生,刘守喜.基于CRF的互联网文本命名实体识别研究[J].中原工学院学报,2016,27(1):70-73. 被引量：9
6唐家渝,刘知远,孙茂松.文本可视化研究综述[J].计算机辅助设计与图形学学报,2013,25(3):273-285. 被引量：53
7邓加原,姬东鸿,费超群,任亚峰.基于无监督学习算法的推特文本规范化[J].计算机应用,2016,36(7):1887-1892. 被引量：1
8宋亚军,于中华,陈黎,丁革建,罗谦.一种改进的社交媒体文本规范化方法[J].中文信息学报,2015,29(5):104-111. 被引量：1
9于洪志,杨博,关白.藏文文本规范化技术的研究与实践[J].西北民族大学学报（自然科学版）,2006,27(1):43-47. 被引量：3
10蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5

河南科技

2016年第11期

浏览历史

内容加载中请稍等...

基于国内现存文本语料库规范化的现状研究及改进

相关作者

相关机构

相关主题

浏览历史