-
题名词汇计量研究与常用词知识库建设
被引量:5
- 1
-
-
作者
俞士汶
朱学锋
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室
语言能力协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期16-20,共5页
-
基金
国家重点基础研究发展计划(2014CB340504)
国家自然科学基金(61272221
61170163)
-
文摘
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。
-
关键词
汉语常用词知识库
《中国语言生活状况报告》
综合型语言知识库
《现代汉语语法信息词典》
部件词
-
Keywords
knowledge base of Chinese commonly used words
Language Situation in China
comprehensive lan-guage knowledge base
Grammatical Knowledge base of Contemporary Chinese
component word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语料库技术及其应用
被引量:48
- 2
-
-
作者
常宝宝
俞士汶
-
机构
北京大学计算语言学研究所/计算语言学教育部重点实验室
-
出处
《外语研究》
CSSCI
北大核心
2009年第5期43-51,共9页
-
基金
中国国家973课题(2004CB318102)
国家社会科学基金项目(06BYY048)的支持
-
文摘
现代意义上的语料库最早出现于20世纪60年代,40多年来,发展迅速,不但规模越来越大,而且加工深度越来越深,语料库方法在语言研究和计算语言学研究领域发挥了重要作用。本文首先概要介绍了语料库的概念、发展和应用,然后介绍了北京大学的现代汉语基本标注语料库和汉英双语平行语料库,最后介绍了北京大学计算语言学所开发的基于语料库的双语词典编纂平台,重点介绍了其中的词汇分析技术。
-
关键词
语料库
汉语语料库
汉英平行语料库
词典编纂平台
-
分类号
H087
[语言文字—语言学]
-
-
题名基于SVM融合多特征的介词结构自动识别
被引量:4
- 3
-
-
作者
温苗苗
吴云芳
-
机构
北京大学计算语言学研究所计算语言学教育部重点实验室(北京大学)
-
出处
《中文信息学报》
CSCD
北大核心
2009年第5期19-24,共6页
-
基金
国家863高技术研究发展计划基金项目(2007AA01Z198)
国家自然科学基金项目(60703063)
+1 种基金
国家社会科学基金项目(08CYY016)
国家973重点基础研究发展规划基金项目(2004CB318102)
-
文摘
介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确的后边界。探讨了不同的特征选择,并尝试加入语义信息等不同特征组合以提高识别准确率。对常用的68个介词进行边界识别实验,5折交叉验证的准确率达到90.95%,优于前人的识别结果。
-
关键词
计算机应用
中文信息处理
介词结构识别
支持向量机
语义类
-
Keywords
computer application
Chinese information processing
prepositional phrase identification
SVM
semantic class
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-