-
题名一种义项矩阵模型SMM
被引量:3
- 1
-
-
作者
孙斌
-
机构
北京大学计算语言学研究所
-
出处
《中文信息学报》
CSCD
北大核心
2005年第2期28-35,共8页
-
基金
国家自然科学基金资助项目 (6 0 4 75 0 2 0 )
-
文摘
本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型 ,称为“义项矩阵模型”SMM(SenseMatrixModel) .利用词语和义项的关联提出了一种新的文档表示 ,即把文档表示成为一个term×sense矩阵 ,由此引进或建立起一些很有效用的数据分析技术 ,包括基于矩阵范数的文档相似度计算、文档向量和矩阵的离散余弦变换 (DCT)、多维数据正交分解 (MAD)等 ,并提供了一种新的、无需翻译或者模型训练集的跨语言检索和多语言文本分类的技术。另外 ,还讨论了对文档进行DCT的部分试验结果。
-
关键词
计算机应用
中文信息处理
信息检索
检索模型
义项矩阵
-
Keywords
computer application
Chinese information processing
inoformation retrieval
retrieval model
sense matrix
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于向量空间模型的有导词义消歧
被引量:37
- 2
-
-
作者
鲁松
白硕
黄雄
张健
-
机构
中国科学院计算技术研究所软件研究室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第6期662-667,共6页
-
基金
国家"九七三"重点基础研究发展规化项目基金! (G19980 3 0 5 10 )
国家自然科学基金! (69773 0 0 8)
国家"八六三"高技术研究发
-
文摘
词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。
-
关键词
词义消歧
向量空间模型
义项矩阵
自然语言理解
有导机器学习
-
Keywords
word sense disambiguation(WSD), vector space model, sense-matrix, weight of context position, supervised machine learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-