-
题名面向范畴语法分析的汉语词库的构造及实现
被引量:2
- 1
-
-
作者
秦莉娟
周昌乐
-
机构
浙江大学西溪校区计算机系
-
出处
《中文信息学报》
CSCD
北大核心
2001年第3期16-21,共6页
-
基金
国家自然科学基金!(6 99830 0 6 )
-
文摘
在蒙太鸠语法理论的基础上 ,利用范畴语法对汉语进行句法分析 ,并针对汉语范畴动态标注的不确定性进行跨层次松弛关联的计算研究 ,需要相应地构造范畴化机器词库。本文采用基本词库加扩展生成的思想构建生成的面向范畴语法分析的汉语词库 ,除具有一般词库的特点外 ,还对词语的范畴归属、词谓、词用等相关信息给出说明 ,以供范畴句法分析时选用。实验结果表明 ,在假设完备的前提下 ,测试该词库取得了较好的效果。
-
关键词
范畴语法
汉语词库
自然语言理解
计算语言学
-
Keywords
category grammar
Chinese word stock
natural language understanding
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语文语转换中的音库词库
被引量:2
- 2
-
-
作者
潘春华
武港山
-
机构
南京大学计算机软件新技术国家重点实验室计算机科学与技术系
-
出处
《计算机应用研究》
CSCD
北大核心
2004年第3期167-169,共3页
-
基金
国家自然科学基金资助项目(60073030)
国家"863"基金资助项目 (2 0 0 1AA1 1 0 3 3 4)
-
文摘
阐述了为实现汉语文本到语音转换而设计的汉语词库和语音库的设计思想和实现技术。
-
关键词
文语转换
汉语词库
语音库
中文信息处理
-
Keywords
Text-to-speech Conversion
Chinese Word Library
Speech Library
Chinese Information Processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语谓词组合范畴语法词库的自动构建研究
被引量:3
- 3
-
-
作者
周强
-
机构
清华大学信息技术研究院语音和语言技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第3期196-203,共8页
-
基金
国家重点基础研究发展计划(2013CB329304)
国家自然科学基金(61373075)
-
文摘
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
-
关键词
组合范畴语法
汉语谓词词库
多资源融合
-
Keywords
combinatory category grammar
Chinese predicate lexicon
multi-resources integration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名自适应汉语词数据库的实现
- 4
-
-
作者
周国栋
王永成
-
机构
上海交通大学电脑应用技术研究所
-
出处
《情报学报》
CSSCI
北大核心
1994年第3期172-176,共5页
-
文摘
中文信息处理在字一级的问题基本解决以后,正在向词一级的处理阶段发展。进入词一级处理阶段以后的一个首要任务就是要建立一个用计算机管理的高性能的汉语词库系统。本文在B-树的基础上,提出并实现了一种新的前缀B*树聚集索引结构,并且根据中文信息处理的特点,将自适应的概念引人数据库,开发出了一个具有较高性能的汉语词库系统。
-
关键词
自适应
数据库
聚集索引
中文信息处理
汉语词库
数据块
数据链
索引值
空间利用率
管理系统
-
分类号
G35
[文化科学—情报学]
-
-
题名字母词的使用必须规范化
被引量:2
- 5
-
-
作者
连真然
-
机构
西南交通大学
-
出处
《科技术语研究》
2006年第2期24-26,共3页
-
-
关键词
外文字母
规范化
工厂自动化
语言单位
汉语拼音
办公自动化
现代汉语
汉语词库
卡拉OK
家务劳动
-
分类号
H136
[语言文字—汉语]
-
-
题名别样风情
- 6
-
-
作者
胡苏
-
出处
《微型计算机》
北大核心
2007年第06Z期120-125,共6页
-
文摘
它们虽然有着巧夺天工的造型、但同时也有着不按常理出牌的外观,甚至有时候我们在博大的汉语词库中竟然找不出一个恰当的形容词来描述它。此外它们还拥有不同寻常的功能与特立独行的操作,一切风格和主流格格不入。但不可否认它们却始终走在数字家庭的最前沿,以充满创造性的思维打造出一片属于自己的天地。
-
关键词
风情
汉语词库
数字家庭
形容词
-
分类号
TU238.2
[建筑科学—建筑设计及理论]
-
-
题名SNS中的文本数据挖掘
- 7
-
-
作者
顾森
-
出处
《程序员》
2012年第8期113-115,共3页
-
文摘
在大规模中文语料中,词语往往具有内部凝合固定、出现环境丰富等特点。我们可以借助这些特征,用数学方法刻画出一个字符串成词的概率,从而得到一种无需知识库就能从大规模语料中抽取词语的算法。对人人网的用户状态数据进行抽词,并与已有的现代汉语词库进行对比,我们便能得到一份新词列表,这将给中文分词等算法带来很大帮助。
-
关键词
数据挖掘
SNS
文本
中文分词
数学方法
状态数据
汉语词库
字符串
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名回头
- 8
-
-
作者
丁南清
-
出处
《语文世界(上旬刊)》
2000年第10期7-7,共1页
-
-
关键词
汉语词库
“辣”
-
分类号
I267
[文学—中国文学]
-