期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于双语LDA的跨语言文本相似度计算方法研究 被引量:7
1
作者 程蔚 线岩团 +2 位作者 周兰江 余正涛 王红斌 《计算机工程与科学》 CSCD 北大核心 2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相... 基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 展开更多
关键词 双语LDA 跨语言文本相似度 余弦相似度 主题频率-逆文档频率
下载PDF
基于树状语料库的中文短语相似度计算 被引量:4
2
作者 费洪晓 莫天池 +3 位作者 林青 杨艳群 谭叶清 严星俊 《计算机应用与软件》 CSCD 北大核心 2013年第8期18-20,42,共4页
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在... 在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。 展开更多
关键词 自然语言处理 文件摘要 中文短语相似度计算 树状语料库 关键词序列
下载PDF
基于改进孪生网络结构的相似法律案例检索研究 被引量:7
3
作者 李兰君 周俊生 +1 位作者 顾颜慧 曲维光 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期84-90,共7页
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档... 针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题,进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验,结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。 展开更多
关键词 文档相似度计算 孪生网络 注意力机制 文档内容压缩
下载PDF
用带权重的pq-gram算法计算XML文档相似度 被引量:1
4
作者 王成勇 杜庆伟 +1 位作者 孙静 孙振 《计算机与现代化》 2015年第3期20-25,共6页
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点... XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。 展开更多
关键词 XML文档 计算相似度 pq-gram 权重
下载PDF
一种政府公文智能辅助写作系统 被引量:1
5
作者 柏峰 李宁 施运梅 《北京信息科技大学学报(自然科学版)》 2021年第5期28-32,共5页
为提升政府公文写作的效率,设计开发了一种公文智能辅助写作系统,在机关单位人员撰写公文时可检索、推荐相似的政府公文以作参考。使用Lucene对政府公文进行倒排索引,实现了公文的关键词检索。提出了一种多因素加权融合相似度计算算法,... 为提升政府公文写作的效率,设计开发了一种公文智能辅助写作系统,在机关单位人员撰写公文时可检索、推荐相似的政府公文以作参考。使用Lucene对政府公文进行倒排索引,实现了公文的关键词检索。提出了一种多因素加权融合相似度计算算法,将公文标题的编辑距离和公文文本的语义距离加权融合。系统在THUCNews数据集上的结果优于TF-IDF和Word2Vec。目前已经应用于私有云环境下服务化智能办公平台,具有较好的实用性。 展开更多
关键词 政府公文 辅助写作 智能推荐 相似度计算
下载PDF
基于自然语言处理技术的电网招标资料查重系统研制 被引量:9
6
作者 刘玉林 郭雅娟 +1 位作者 陈锦铭 陈昊 《电力信息与通信技术》 2018年第5期11-17,共7页
电网公司在项目招标采购过程中,一般要对招标资料进行查重工作,在历史项目资料库中查找是否存在类似项目,以防止项目重复招标的情况发生,避免资金浪费。文章使用潜在语义索引的方法,对文档中的语义进行分析,使用自然语言处理领域的中文... 电网公司在项目招标采购过程中,一般要对招标资料进行查重工作,在历史项目资料库中查找是否存在类似项目,以防止项目重复招标的情况发生,避免资金浪费。文章使用潜在语义索引的方法,对文档中的语义进行分析,使用自然语言处理领域的中文分词、词向量转换、词权重计算、主题建模等技术构建了一套文档相似度分析系统,可在海量历史项目资料库中快速找出与目标文档相似的项目,并计算出文档相似度百分比,辅助招标采购专职判断招标资料是否合规。系统的研究与应用,对规范电网公司项目招标采购管理具有重要实用价值。 展开更多
关键词 文档查重 中文分词 主题建模 语义分析 相似度计算
下载PDF
基于自然语义处理的裁判文书分割系统
7
作者 郑少婉 陆培民 《信息技术与网络安全》 2018年第2期55-57,共3页
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助... 研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助人们更好地了解案件。通过两个部分详解了系统的构建以及分割的实现,系统构建主要包括线下裁判文书采集、语料库训练,以及线上的分析模块。 展开更多
关键词 Word2vec 中文分词 文书分割 相似度计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部