-
题名一种基于类别先验信息的问题检索语言模型
- 1
-
-
作者
吉宗诚
王斌
-
机构
中国科学院计算技术研究所
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2014年第4期98-103,122,共7页
-
基金
国家自然科学基金资助项目(61070111)
科学院先导资助项目(XDA06030200)
-
文摘
社区问答系统已经积累了大量的以层次类别结构进行组织的问题答案对。为了能够重用这些非常宝贵的历史问题答案对资源,设计出一个非常有效的问题检索模型至关重要。在该文中,我们在语言模型建模的框架下提出了一种新的基于问题类别先验信息的方法来提高相似问题检索的性能。特别地,我们将叶子类别语言模型看作是Dirichlet超参来对一元语言模型的参数进行加权,从而提出了一种新的基于类别先验信息的语言模型。该方法具有严格的数学推导依据。在来源于Yahoo!Answers的真实的大量数据集上做了实验比较和分析,实验结果表明我们提出的方法比之前简单的线性插值的方法具有非常显著的性能提升。
-
关键词
社区问答
问题检索
类别
类别先验信息
语言模型
-
Keywords
Community Question Answering
Question Retrieval
category
category priori language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户回答顺序的社区问答答案质量预测研究
被引量:6
- 2
-
-
作者
徐安滢
吉宗诚
王斌
-
机构
中国科学院计算技术研究所
华为诺亚方舟实验室
中国科学院信息工程研究所
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期132-138,共7页
-
文摘
近年来,随着互联网的普及和知识爆炸性的增长,社区问答网站积累了大量的用户和内容,同时也产生了大量的低质量文本,极大地影响了用户检索满意答案的效率,因此如何提升答案质量预测的性能十分重要。目前,社区问答答案质量预测方面的研究大都是使用点方式(pointwise)来实现分类模型,但由于问题的难度不同,对答案的要求也有所差异,使用点方式会忽略掉部分答案的特点,所以该文使用点对方式(pairwise)来预测答案质量。另外,已有的研究工作表明,社区问答中同一问题下的答案数量特征对答案质量预测没有效果,甚至有冗余作用。对于时间差也有相同的结论,即不能提升预测性能。该文提出了一种将上述两者结合在一起的新特征,实验结果表明,该特征能显著提高社区问答答案质量预测的性能。
-
关键词
答案质量预测
排序学习
社区问答
回答顺序
-
Keywords
answer quality prediction
larning to rank
community question answering
answering order
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-