-
题名基于改进语义距离的网络评论聚类研究
被引量:9
- 1
-
-
作者
杨震
王来涛
赖英旭
-
机构
北京工业大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2014年第12期2777-2789,共13页
-
基金
国家自然科学基金(61001178)
国家软科学研究计划(2010GXQ5D317)
+4 种基金
北京市优秀人才计划
北京市属高等学校青年拔尖人才计划(CITTCD201404052)
北京市教育委员会科技计划(KM201210005024)
北京工业大学基础研究基金
可信计算北京市重点实验室开放课题
-
文摘
针对在线评论,提出了一种短文本语义距离计算模型,将文本距离看成是形式距离和单元语义距离的综合.首先,在对变异短文本进行预处理的基础上,以中文词语为单位,利用词典进行语义扩展,计算短文本间最大匹配距离,将其作为衡量短文本间形式距离的指标;其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离;最后,利用加权的方法将形式距离和单元语义距离综合为文本距离,并将其应用于网络在线评论的聚类分析.特别地,为了缓解短文本长度差异所造成的计算误差,提出利用词表长度对距离进行惩罚,并根据Zipf’s Law和Heap’s Law的对应关系,给出了一种文本词表长度的估计方法,并阐明了文本Zipf指数α对长度惩罚的关键性作用机制.实验结果表明,改进算法优于传统方法,聚类性能显著提升.
-
关键词
文本聚类
在线评论
语义距离
长度惩罚
-
Keywords
text clustering
online comment
semantic distance
length penalty
Heap's law
Zipf's law
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于集束搜索算法改进的机器翻译系统研究
- 2
-
-
作者
梁亚敏
李亚峰
-
机构
咸阳师范学院
-
出处
《自动化与仪器仪表》
2023年第9期183-187,共5页
-
基金
省级《中国叙事体系建设下的大学英语课程思政元素挖掘》(2022HZ1894)
校级《生态翻译学理论在奥斯汀作品孙致礼译本中的应用与研究》(XSYK18030)
校级《咸阳师范学院2017“青蓝人才”培养项目》(No.XSYQL201703)。
-
文摘
机器翻译在当前社会中具有广泛的应用,对促进人们交流、提升工作效率等具有重要意义。研究对当前英语机器翻译系统进行改进,将集束搜索算法与语言模型相结合,并在其中引入长句惩罚措施。为防止机器翻译出现信息缺失、重复翻译等问题,研究通过对比实验对提出的模型进行性能验证,结果显示研究提出的模型在运行时间中可达到0.32 s;模型翻译精度达到0.93。通过训练集与测试集反应,模型的损失率可降低至0.08;模型PLEU评分可达到0.937分。结果表明,该模型无论在中译英还是英译中的情况下,均具有较好性能。研究为进一步提升机器翻译性能提供了新的思路。
-
关键词
集束搜索
集束宽度
语言模型
长度惩罚措施
英语翻译
-
Keywords
cluster search
bundle width
language model
length penalty measures
MT
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-