期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于双语LDA的跨语言文本相似度计算方法研究
被引量:
7
1
作者
程蔚
线岩团
+2 位作者
周兰江
余正涛
王红斌
《计算机工程与科学》
CSCD
北大核心
2017年第5期978-983,共6页
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相...
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。
展开更多
关键词
双语LDA
跨语言文本相似度
余弦相似度
主题频率-逆文档频率
下载PDF
职称材料
基于树状语料库的中文短语相似度计算
被引量:
4
2
作者
费洪晓
莫天池
+3 位作者
林青
杨艳群
谭叶清
严星俊
《计算机应用与软件》
CSCD
北大核心
2013年第8期18-20,42,共4页
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在...
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。
展开更多
关键词
自然语言处理
文件摘要
中文短语相似度计算
树状语料库
关键词序列
下载PDF
职称材料
基于改进孪生网络结构的相似法律案例检索研究
被引量:
7
3
作者
李兰君
周俊生
+1 位作者
顾颜慧
曲维光
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019年第1期84-90,共7页
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档...
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题,进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验,结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。
展开更多
关键词
文档相似度计算
孪生网络
注意力机制
文档内容压缩
下载PDF
职称材料
用带权重的pq-gram算法计算XML文档相似度
被引量:
1
4
作者
王成勇
杜庆伟
+1 位作者
孙静
孙振
《计算机与现代化》
2015年第3期20-25,共6页
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点...
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。
展开更多
关键词
XML文档
计算相似度
pq-gram
权重
下载PDF
职称材料
一种政府公文智能辅助写作系统
被引量:
1
5
作者
柏峰
李宁
施运梅
《北京信息科技大学学报(自然科学版)》
2021年第5期28-32,共5页
为提升政府公文写作的效率,设计开发了一种公文智能辅助写作系统,在机关单位人员撰写公文时可检索、推荐相似的政府公文以作参考。使用Lucene对政府公文进行倒排索引,实现了公文的关键词检索。提出了一种多因素加权融合相似度计算算法,...
为提升政府公文写作的效率,设计开发了一种公文智能辅助写作系统,在机关单位人员撰写公文时可检索、推荐相似的政府公文以作参考。使用Lucene对政府公文进行倒排索引,实现了公文的关键词检索。提出了一种多因素加权融合相似度计算算法,将公文标题的编辑距离和公文文本的语义距离加权融合。系统在THUCNews数据集上的结果优于TF-IDF和Word2Vec。目前已经应用于私有云环境下服务化智能办公平台,具有较好的实用性。
展开更多
关键词
政府公文
辅助写作
智能推荐
相似度计算
下载PDF
职称材料
基于自然语言处理技术的电网招标资料查重系统研制
被引量:
9
6
作者
刘玉林
郭雅娟
+1 位作者
陈锦铭
陈昊
《电力信息与通信技术》
2018年第5期11-17,共7页
电网公司在项目招标采购过程中,一般要对招标资料进行查重工作,在历史项目资料库中查找是否存在类似项目,以防止项目重复招标的情况发生,避免资金浪费。文章使用潜在语义索引的方法,对文档中的语义进行分析,使用自然语言处理领域的中文...
电网公司在项目招标采购过程中,一般要对招标资料进行查重工作,在历史项目资料库中查找是否存在类似项目,以防止项目重复招标的情况发生,避免资金浪费。文章使用潜在语义索引的方法,对文档中的语义进行分析,使用自然语言处理领域的中文分词、词向量转换、词权重计算、主题建模等技术构建了一套文档相似度分析系统,可在海量历史项目资料库中快速找出与目标文档相似的项目,并计算出文档相似度百分比,辅助招标采购专职判断招标资料是否合规。系统的研究与应用,对规范电网公司项目招标采购管理具有重要实用价值。
展开更多
关键词
文档查重
中文分词
主题建模
语义分析
相似度计算
下载PDF
职称材料
基于自然语义处理的裁判文书分割系统
7
作者
郑少婉
陆培民
《信息技术与网络安全》
2018年第2期55-57,共3页
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助...
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助人们更好地了解案件。通过两个部分详解了系统的构建以及分割的实现,系统构建主要包括线下裁判文书采集、语料库训练,以及线上的分析模块。
展开更多
关键词
Word2vec
中文分词
文书分割
相似度计算
下载PDF
职称材料
题名
基于双语LDA的跨语言文本相似度计算方法研究
被引量:
7
1
作者
程蔚
线岩团
周兰江
余正涛
王红斌
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2017年第5期978-983,共6页
基金
国家自然科学基金(61363044
61462054)
+2 种基金
云南省科技厅面上项目(2015FB135)
云南省教育厅科学研究基金(2014Z021)
昆明理工大学省级人培项目(KKSY201403028)
文摘
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。
关键词
双语LDA
跨语言文本相似度
余弦相似度
主题频率-逆文档频率
Keywords
bilingual LDA
cross-lingual document similarity calculation
cosine
similarity
topic fre-quency-inverse
document
frequency
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于树状语料库的中文短语相似度计算
被引量:
4
2
作者
费洪晓
莫天池
林青
杨艳群
谭叶清
严星俊
机构
中南大学软件学院
出处
《计算机应用与软件》
CSCD
北大核心
2013年第8期18-20,42,共4页
基金
国家自然科学基金项目(61073186)
中南大学米塔尔学生创新创业项目(11MX07)
文摘
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。
关键词
自然语言处理
文件摘要
中文短语相似度计算
树状语料库
关键词序列
Keywords
Natural language processing
document
summarisation Chinese short sentence
similarity
calculation
Tree-structure corpus Keywords sequence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进孪生网络结构的相似法律案例检索研究
被引量:
7
3
作者
李兰君
周俊生
顾颜慧
曲维光
机构
南京师范大学计算机科学与技术学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019年第1期84-90,共7页
基金
国家自然科学基金(61472191
61772278
+3 种基金
41571382)
福建省信息处理与智能控制重点实验室开放基金(MJUKF201705)
江苏省高校哲学社会科学研究项目(2016SJB740004)
江苏省高校自然科学研究重大项目(15KJA420001)资助
文摘
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题,进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验,结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。
关键词
文档相似度计算
孪生网络
注意力机制
文档内容压缩
Keywords
document
similarity
calculation
siamese network
attention mechanism
document
content compression
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
用带权重的pq-gram算法计算XML文档相似度
被引量:
1
4
作者
王成勇
杜庆伟
孙静
孙振
机构
南京航空航天大学计算机科学与技术学院
出处
《计算机与现代化》
2015年第3期20-25,共6页
基金
国家自然科学基金资助项目(61202350)
文摘
XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。
关键词
XML文档
计算相似度
pq-gram
权重
Keywords
XML
document
s
calcul
ate
similarity
pq-gram
weight
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种政府公文智能辅助写作系统
被引量:
1
5
作者
柏峰
李宁
施运梅
机构
北京信息科技大学计算机学院
出处
《北京信息科技大学学报(自然科学版)》
2021年第5期28-32,共5页
基金
国家重点研发计划项目(2018YFB1004100)。
文摘
为提升政府公文写作的效率,设计开发了一种公文智能辅助写作系统,在机关单位人员撰写公文时可检索、推荐相似的政府公文以作参考。使用Lucene对政府公文进行倒排索引,实现了公文的关键词检索。提出了一种多因素加权融合相似度计算算法,将公文标题的编辑距离和公文文本的语义距离加权融合。系统在THUCNews数据集上的结果优于TF-IDF和Word2Vec。目前已经应用于私有云环境下服务化智能办公平台,具有较好的实用性。
关键词
政府公文
辅助写作
智能推荐
相似度计算
Keywords
government
document
s
assistant writing
intelligent recommendation
similarity
calculation
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于自然语言处理技术的电网招标资料查重系统研制
被引量:
9
6
作者
刘玉林
郭雅娟
陈锦铭
陈昊
机构
国网江苏省电力公司电力科学研究院
出处
《电力信息与通信技术》
2018年第5期11-17,共7页
文摘
电网公司在项目招标采购过程中,一般要对招标资料进行查重工作,在历史项目资料库中查找是否存在类似项目,以防止项目重复招标的情况发生,避免资金浪费。文章使用潜在语义索引的方法,对文档中的语义进行分析,使用自然语言处理领域的中文分词、词向量转换、词权重计算、主题建模等技术构建了一套文档相似度分析系统,可在海量历史项目资料库中快速找出与目标文档相似的项目,并计算出文档相似度百分比,辅助招标采购专职判断招标资料是否合规。系统的研究与应用,对规范电网公司项目招标采购管理具有重要实用价值。
关键词
文档查重
中文分词
主题建模
语义分析
相似度计算
Keywords
document
duplicated-checking
Chinese word segmentation
theme modeling
semantic analysis
similarity
calculation
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于自然语义处理的裁判文书分割系统
7
作者
郑少婉
陆培民
机构
福州大学物理与信息工程学院
出处
《信息技术与网络安全》
2018年第2期55-57,共3页
文摘
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助人们更好地了解案件。通过两个部分详解了系统的构建以及分割的实现,系统构建主要包括线下裁判文书采集、语料库训练,以及线上的分析模块。
关键词
Word2vec
中文分词
文书分割
相似度计算
Keywords
Word2vec
Chinese word segmentation
document
segmentation
similarity
calculation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于双语LDA的跨语言文本相似度计算方法研究
程蔚
线岩团
周兰江
余正涛
王红斌
《计算机工程与科学》
CSCD
北大核心
2017
7
下载PDF
职称材料
2
基于树状语料库的中文短语相似度计算
费洪晓
莫天池
林青
杨艳群
谭叶清
严星俊
《计算机应用与软件》
CSCD
北大核心
2013
4
下载PDF
职称材料
3
基于改进孪生网络结构的相似法律案例检索研究
李兰君
周俊生
顾颜慧
曲维光
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019
7
下载PDF
职称材料
4
用带权重的pq-gram算法计算XML文档相似度
王成勇
杜庆伟
孙静
孙振
《计算机与现代化》
2015
1
下载PDF
职称材料
5
一种政府公文智能辅助写作系统
柏峰
李宁
施运梅
《北京信息科技大学学报(自然科学版)》
2021
1
下载PDF
职称材料
6
基于自然语言处理技术的电网招标资料查重系统研制
刘玉林
郭雅娟
陈锦铭
陈昊
《电力信息与通信技术》
2018
9
下载PDF
职称材料
7
基于自然语义处理的裁判文书分割系统
郑少婉
陆培民
《信息技术与网络安全》
2018
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部