汉语语料库加工技术被引量：1

The Process Techndogy of Chinese Corpus

下载PDF

导出

摘要实现对大规模真实文本的处理是计算语言学今后的一个时期的战略目标。基于语料库的语言研究是计算语言学一个重要领域，这是由于语料库是最理想语言知识资源。为从语料库获取语言知识，必须在各个层次上对汉语语料库进行加工。本文讨论了汉语语料库的加工技术，即对语料库进行词法、句法和语义等方面的标注。其中。 The large scale authentic text processing becomes a strategic target of the computational linguistics. The linguistic research based on corpus is an important region of the conputational linguistics. This is because corpus is the most ideol resource of linguistic knouledge. Inorder to fbtain linguistic knowledge from Chinese corpus, we must process Chinese corpus at all levels. This paper discusses the process technology of Chinese corpus. The Chinese corpus must be annotated with part of speech, syntactic relation and semantic re1ation. Especially we introduce the Aystem of Chinese automatic word segmentation and the approach of parsing Chinses phrase's boundaries in detail.

作者张国煊

出处《杭州电子工业学院学报》 1996年第1期32-37,共6页 Journal of Hangzhou Institute of Electronic Engineering

关键词自然语言处理语料库计算机汉语语料库加工 natural Language Processing Corpus

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张国煊,郁梅,王小华.基于互信息的汉语短语边界划分[J].杭州电子工业学院学报,1995,15(1):1-5. 被引量：5
2张国煊,王小华,周必水.快速书面汉语自动分词系统及其算法设计[J]计算机研究与发展,1993(01).

共引文献4

1刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
2葛宁,王军.领域Ontology的自动丰富——基于ADL地名表的实例研究[J].计算机科学,2007,34(9):156-162. 被引量：5
3许有胜.连动结构的自动识别和分析[J].巢湖学院学报,2013,15(4):108-115. 被引量：3
4罗耀华.介词并入与“X+于”类结构的词汇化研究[J].长江学术,2016(4):107-118. 被引量：5

同被引文献9

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
3孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
4JOHN SINCLAIR. Corpus Concordance Collocation[M]. Oxford: Oxford University Press, 1999.
5DOUGLAS BIBER, SUSAN CONRAD, RANDIREPPEN. Corpus Linguistics [M]. Cambridge:Cambridge University Press, 2000.
6刘岩斌,俞士汶,孙钦善.古诗研究的计算机支持环境的实现[J].中文信息学报,1997,11(1):27-36. 被引量：12
7胡俊峰,俞士汶.唐宋诗之计算机辅助深层研究[J].北京大学学报（自然科学版）,2001,37(5):727-733. 被引量：24
8胡俊峰,俞士汶.唐宋诗中词汇语义相似度的统计分析及应用[J].中文信息学报,2002,16(4):39-44. 被引量：43
9傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量：24

引证文献1

1王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量：2

二级引证文献2

1张景祥,安培壮,苏娜.唐诗字频熵分析与通俗性定级[J].科技资讯,2009,7(6):241-243. 被引量：2
2刘懋霖,赵萌,王昊.面向古诗词的物象库构建方法及其分布规律研究[J].图书馆杂志,2024,43(1):96-108. 被引量：1

1裴艳.用于机器翻译的汉语语料库——中文应做到形式化、公理化、算法化、自动化[J].中文信息,1997,14(1):32-33. 被引量：1
2张国煊,郁梅,王小华.基于互信息的汉语短语边界划分[J].杭州电子工业学院学报,1995,15(1):1-5. 被引量：5
3郁梅,张国煊,王小华.基于规则的汉语短语边界划分的研究[J].苏州大学学报（自然科学版）,1994,10(3):226-232. 被引量：2
4陈传波,米西峰.JAVA访问数据库的接口JDBC[J].焦作大学学报,2000,14(4):49-51. 被引量：1
5李帛.Petri网在工作流建模中的分析与应用[J].信息与电脑（理论版）,2012(12):172-173. 被引量：1
6高军,陈锡先.无监督的动态分词方法[J].北京邮电大学学报,1997,20(4):66-69. 被引量：4
7刘林,史红梅,张艳君.统计机器翻译中短语切分的新方法[J].电子测试,2017,28(1X):26-27.
8尹锋.基于神经网络的汉语自动分词系统的设计与分析[J].情报学报,1998,17(1):41-50. 被引量：30
9袁琳琳,陈红平.汉语自动分词系统的设计与实现[J].信息与电脑（理论版）,2014,0(7):166-168.
10王彩荣,李晓毅,黄玉基.汉语自动分词系统的评价[J].微处理机,2003,24(5):28-30. 被引量：1

杭州电子工业学院学报

1996年第1期

浏览历史

内容加载中请稍等...

汉语语料库加工技术被引量：1

参考文献2

共引文献4

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

汉语语料库加工技术 被引量：1

参考文献2

共引文献4

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

汉语语料库加工技术被引量：1