-
题名基于无监督语义哈希的高效相似题检索模型
- 1
-
-
作者
佟威
何理扬
李锐
黄威
黄振亚
刘淇
-
机构
教育部教育考试院
中国科学技术大学计算机科学与技术学院
认知智能全国重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2024年第1期206-216,共11页
-
基金
国家教育考试科研规划课题(GJK2021009)
国家重点研发计划项目(2021YFF0901003)
+1 种基金
国家自然科学基金资助项目(62106244)
安徽高校协同创新项目(GXXT-2022-042)。
-
文摘
相似题检索旨在从数据库中找到与给定查询试题考查目标相似的试题。随着在线教育的不断发展,试题数据库日益庞大,且由于试题数据的专业属性使标注相关性非常困难,因此需要一种高效且无需标注的相似题检索模型。无监督语义哈希能在无监督信号的前提下将高维数据映射为低维且高效的二值表征。但不能简单地将语义哈希模型应用在相似题检索模型中,因为试题数据具有丰富的语义信息,而二值向量的表征空间有限。为此,提出一个能获取、保留关键信息的相似题检索模型。首先,设计了一个关键信息获取模块获取试题数据的关键信息,并引入去冗余目标损失去除冗余信息;其次,在编码过程中引入随时间变化的激活函数,减少编码信息损失;再次,为了最大化利用汉明空间,在优化过程中引入比特平衡目标和比特无关目标以优化二值表征的分布。在MATH和HISTORY数据集上的实验结果表明,相较于表现最好的文本语义哈希模型DHIM(Deep Hash InfoMax),所提模型在2个数据集的3个召回率设置上分别平均提升约54%和23%;在检索效率方面,所提模型比最优的相似题检索模型QuesCo具有明显的优势。
-
关键词
相似题检索
无监督语义哈希
表征学习
对比学习
-
Keywords
similar exercise retrieval
unsupervised semantic hashing
representation learning
contrastive learning
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-