-
题名一种领域语料驱动的句子相关性计算方法研究
- 1
-
-
作者
李峰
黄金柱
李舟军
杨伟铭
-
机构
北京航空航天大学软件开发环境国家重点实验室
中国人民解放军后勤科学研究所
中国人民解放军外国语学院语言工程系
-
出处
《计算机科学》
CSCD
北大核心
2016年第5期188-192,208,共6页
-
基金
国家自然科学基金项目(61170189,61370126)
高等学校博士学科点专项科研基金(20111102130003)
软件开发环境国家重点实验室自选课题(SKLSDE-2013ZX-19)资助
-
文摘
句子相关性计算在自然语言处理的多个实践应用中均具有十分重要的作用,如舆情监测、信息检索、统计机器翻译等。在明确相似性与相关性之间的关系之后,设计了一种基于领域语料驱动的句子相关性计算方法,该方法基于同一领域的语料构建一个"句-段-篇"3层的领域语义空间,通过度量词语在各个层级间的共现概率、共现平均距离和句长等因子来测量词间的主题相关性。与基于字面特征、HowNet和同义词词林的方法进行了实验对比,结果表明该方法具有较好的实践应用价值。
-
关键词
句子相关度
语料驱动
主题相关性
计算模型
-
Keywords
Sentence relevance
Corpus driven
Topic relevance
Calculation model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合句子级别检索的信息检索模型
被引量:6
- 2
-
-
作者
左家莉
王明文
吴水秀
万剑怡
-
机构
江西师范大学计算机信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第2期107-112,120,共7页
-
基金
国家自然科学基金(61462043
61462045
+1 种基金
61562042)
江西省自然科学基金(20151BAB217014)
-
文摘
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。
-
关键词
信息检索模型
句子级别检索
句子相关度
-
Keywords
information retrieval model
sentence level retrieval
sentence relevant
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-