-
题名基于分类词典的文本相似性度量方法
被引量:6
- 1
-
-
作者
李海林
邹金串
-
机构
华侨大学信息管理系
华侨大学现代应用统计与大数据研究中心
-
出处
《智能系统学报》
CSCD
北大核心
2017年第4期556-562,共7页
-
基金
国家自然科学基金项目(61300139)
福建省自然科学基金项目(2015J01581)
+1 种基金
华侨大学中青年教师科研提升计划项目(ZQN-PY220)
华侨大学研究生科研创新能力培育计划项目(1511307006)
-
文摘
针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法,通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明,新方法在聚类与分类实验中均能取得较好的实验结果,相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。
-
关键词
文本挖掘
语义分析
分类词典
关键词提取
词语编码
相似性度量
聚类
分类
-
Keywords
data mining
semantic analysis
classified dictionary
keywords extraction
encoder
similarity measure
clustering
classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名作为语言逻辑剖析的对比研究
被引量:2
- 2
-
-
作者
丰国欣
-
机构
湖北师范学院外国语学院
-
出处
《湖北师范学院学报(哲学社会科学版)》
2013年第2期21-25,共5页
-
文摘
本文从对比研究的三个维度和三个研究层面,探讨了英汉两种语言的词语编码机制的差异,认为英语重"音义结合",而汉语则重"音形义结合";为了扩大编码范围,英语用语法化了的前缀、后缀等对词根的意义进行限制,而汉语则从语汇单位中抽象出共同的概念性语义要素,形成字组。本文还分析了英汉语句法结构的不同,认为英语遵循"主谓一致"的形式逻辑,而汉语遵循"意义协同"的语义逻辑。文章还认为,对比研究的意义在于挖掘语言现象背后所蕴含的思维逻辑。
-
关键词
对比研究
思维逻辑
词语编码
句法结构
-
Keywords
contrastive study
thought logic
lexical encoding
syntactic Structure
-
分类号
H0
[语言文字—语言学]
-