-
题名基于特征序列的语义分类体系的自动构建
- 1
-
-
作者
陈刚
刘扬
-
机构
北京大学计算语言学研究所
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期52-57,共6页
-
基金
国家重点基础研究发展计划资助项目(2014CB340504)
国家社科基金重大项目(12&ZD119)
-
文摘
词义知识表示主要依赖属性描述或分类描述,这两种方式各有所长,但不同表示之间相互转换的可行性与现实状况还未被关注。在属性描述的基础上,该文引入序关系的思想,提出基于特征序列的概念与方法,以此来模拟、分析概念涵义从一般到特殊的渐次生成过程,发掘尚未显性化的中间概念,自动构建出一个语义分类体系。以HowNet(2000版)数据为例,实验表明该方法可以生成一个性质优良、覆盖完全的新的语义分类体系,并反映此前的属性描述在语言知识工程实践中不易察觉的一些问题。
-
关键词
词义知识
属性描述
分类描述
序关系
特征序列
语义分类体系
-
Keywords
lexical semantics
feature description
taxonomic description
ordering relation
feature sequences
seman- tic taxonomy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的汉语语义角色分类体系与标注实践
被引量:2
- 2
-
-
作者
宋衡
曹存根
王亚
王石
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2023年第1期16-32,共17页
-
基金
国家重点研发计划(2017YFC1700302,2017YFB1002300)
国家自然科学基金(61702234)
北京市科技新星计划交叉学科合作课题(Z191100001119014)。
-
文摘
语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。
-
关键词
汉语语义角色分类体系
知识抽取
文本挖掘
浅层语义分析
语料库
-
Keywords
Chinese semantic roles taxonomy
knowledge extraction
text mining
shallow semantic analysis
corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MDL的汉语语义选择限制自动获取
被引量:3
- 3
-
-
作者
贾玉祥
李育光
昝红英
-
机构
郑州大学信息工程学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2018年第1期66-71,共6页
-
基金
国家自然科学基金项目(61402419)
国家社会科学基金项目(14BYY096)
+1 种基金
国家高技术研究发展计划863课题(2012AA011101)
国家重点基础研究发展计划973课题(2014CB340504)
-
文摘
语义选择限制是一种重要的词汇语义知识,有助于自然语言的句法语义分析,也有助于解决自然语言处理中的数据稀疏问题.提出了基于语义分类体系和最小描述长度原则的汉语语义选择限制知识自动获取方法,对现有的名词语义分类体系进行改造,实现了一个知识获取的高效算法.基于大规模语料进行知识获取,对获取的优选语义类进行了分析,并进行了伪消歧实验,与基于KL距离的方法进行了对比,体现了所用方法的有效性.
-
关键词
语义选择限制
词汇知识获取
最小描述长度
语义分类体系
-
Keywords
selectional preferences
lexical acquisition
minimum description length(MDL)
semantic taxonomy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名统计语言模型中词的自动聚类技术研究
被引量:3
- 4
-
-
作者
高升
徐志明
-
机构
湛江海洋大学信息工程学院
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第11期69-70,152,共3页
-
基金
国家863项目"语音识别与语音合成的短语构成技术"资助(编号:863-306-03-02-1)
-
文摘
为了压缩基于词的统计语言模型的参数空间,以便构造模型空间更加紧密的ClassN-gram模型,该文研究了汉语词的自动聚类技术,提出了一种基于评价函数的汉语词的聚类算法,该算法采用词的相似度理论,并通过构造词的启发式候选词类链表,极大提高了聚类算法的工作效率。
-
关键词
统计语言模型
聚类算法
评价函数
语义分类体系
-
Keywords
Statistical language model,Clustering algorithm,Evaluation function,Literature classification
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-