-
题名基于树状语料库的中文短语相似度计算
被引量:4
- 1
-
-
作者
费洪晓
莫天池
林青
杨艳群
谭叶清
严星俊
-
机构
中南大学软件学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2013年第8期18-20,42,共4页
-
基金
国家自然科学基金项目(61073186)
中南大学米塔尔学生创新创业项目(11MX07)
-
文摘
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。
-
关键词
自然语言处理
文件摘要
中文短语相似度计算
树状语料库
关键词序列
-
Keywords
Natural language processing Document summarisation Chinese short sentence similarity calculation Tree-structure corpus Keywords sequence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文短语文本相似度计算新方法
被引量:2
- 2
-
-
作者
王莹莹
任贤
龙鹏飞
-
机构
济南市科学技术信息研究所信息开发室
河池学院计算机与信息科学系
长沙理工大学计算机与通信工程学院
-
出处
《软件导刊》
2011年第1期79-81,共3页
-
文摘
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法。用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要。
-
关键词
相似度
文字匹配位置集合
文字匹配最小位置偏移值
文字匹配贡献值
短语文本相对相似度
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于最近邻算法的短语结构语法关系判定方法
被引量:2
- 3
-
-
作者
杨泉
朱瑞平
-
机构
北京师范大学汉语文化学院
-
出处
《计算机与数字工程》
2021年第12期2551-2555,共5页
-
基金
国家社会科学基金项目“基于人工智能的短语结构句法关系判定方法研究”(编号:21BYY205)资助。
-
文摘
提出了一种基于词义相似度和最近邻算法的“N1+N2”结构短语语法关系判定方法。首先从“N1+N2”结构中两对名词间的语义相似度定义了短语结构间的相似度,在此基础上给出最近邻分类算法所需要的短语结构间距离的概念;然后建设了一个标注了词语语义类别和短语语法关系的“N1+N2”结构的样本语料库,建立了一种能够标注“N1+N2”结构关系的最近邻分类算法;最后用测试集中计算机标注结果与人工标注结果比较来测试算法效果。实验结果显示,基于论文所提算法的计算机自动标注结果正确率达到97.55%,该结果证明了论文设计算法的有效性。
-
关键词
短语相似度
词义相似度
语法关系
知识本体
最近邻算法
-
Keywords
phrase similarity
word semantic similarity
grammatical relation
knowledge ontology
nearest neighbor algo⁃rithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名快速混合Web文档聚类
被引量:3
- 4
-
-
作者
杨瑞龙
朱庆生
谢洪涛
-
机构
重庆大学计算机学院
后勤工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第22期12-15,共4页
-
基金
国家科技支撑计划No.2007BAH08B04
重庆市科技支撑计划No.2008AC20084~~
-
文摘
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。
-
关键词
聚类算法
K-MEANS算法
后缀树
WEB文档聚类
基于短语的相似度
-
Keywords
clustering algorithms
K-means algorithm
suffix tree
Web document clustering
phrase-based similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于高校官网的校情简介数据分析方法
- 5
-
-
作者
王松松
高伟勋
-
机构
上海师范大学信息与机电工程学院
-
出处
《计算机与现代化》
2018年第8期66-72,共7页
-
文摘
对高校官网校情简介数据进行挖掘分析,提出基于短语树形结构与Cilin Sim Hash算法相结合的短语相似度计算方法。首先将短语转换成以数字为根节点的树形结构来计算相似度,接着将同义词词林与Sim Hash算法相结合实现基于Cilin Sim Hash算法的相似度计算,最后将基于短语结构的相似度方法与基于Cilin Sim Hash算法的相似度方法加权,来实现短语相似度的计算。将该算法应用到高校官网数据分析过程中,进而对高校官网数据进行聚类分析,得出高校官网数据与高校评价指标之间的关系;获取高校官网数据中的结构化数据,通过聚类算法来对相关指标数据进行分析,表明高校的发展在不同办学层次下仍然是不平衡的。
-
关键词
高校官网
短语相似度
SIM
HASH
高校评价指标
-
Keywords
university official website
phrase similarity
SimHash
college evaluation index
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-