期刊文献+
共找到190篇文章
< 1 2 10 >
每页显示 20 50 100
Near-duplicate document detection with improved similarity measurement 被引量:2
1
作者 袁鑫攀 龙军 +1 位作者 张祖平 桂卫华 《Journal of Central South University》 SCIE EI CAS 2012年第8期2231-2237,共7页
To quickly find documents with high similarity in existing documentation sets, fingerprint group merging retrieval algorithm is proposed to address both sides of the problem:a given similarity threshold could not be t... To quickly find documents with high similarity in existing documentation sets, fingerprint group merging retrieval algorithm is proposed to address both sides of the problem:a given similarity threshold could not be too low and fewer fingerprints could lead to low accuracy. It can be proved that the efficiency of similarity retrieval is improved by fingerprint group merging retrieval algorithm with lower similarity threshold. Experiments with the lower similarity threshold r=0.7 and high fingerprint bits k=400 demonstrate that the CPU time-consuming cost decreases from 1 921 s to 273 s. Theoretical analysis and experimental results verify the effectiveness of this method. 展开更多
关键词 similarity estimation near-duplicate document detection fingerprint group Hamming distance minwise hashing
下载PDF
Hadoop-Based Similarity Computation System for Composed Documents 被引量:1
2
作者 Xiaoming Zhang Zhipeng Qin +3 位作者 Xuwei Liu Qianyun Hou Baishuang Zhang Jie Wu 《Journal of Computer and Communications》 2015年第5期196-202,共7页
There exist a large number of composed documents in universities in the teaching process. Most of them are required to check the similarity for validation. A kind of similarity computation system is constructed for co... There exist a large number of composed documents in universities in the teaching process. Most of them are required to check the similarity for validation. A kind of similarity computation system is constructed for composed documents with images and text information. Firstly, each document is split and outputs two parts as images and text information. Then, these documents are compared by computing the similarities of images and text contents independently. Through Hadoop system, the text contents are easily and quickly separated. Experimental results show that the proposed system is efficient and practical. 展开更多
关键词 similarity COMPUTATION Composed documentS Map REDUCE SYSTEM Integration
下载PDF
Establish Evidence Chain Model on Chinese Criminal Judgment Documents Using Text Similarity Measure
3
作者 Yixuan Dong Yemao Zhou +6 位作者 Chuanyi Li Jidong Ge Yali Han Mengting He Dekuan Liu Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2018年第2期4-4,共1页
关键词 CRIMINAL JUDGMENT documentS JUDGMENT documentS reasoningBig data EVIDENCE CHAIN TEXT similarity measure Word2vecWeight of EVIDENCE CHAIN
下载PDF
Topic Model Based Text Similarity Measure for Chinese Judgment Document
4
作者 Yue Wang Jidong Ge +5 位作者 Yemao Zhou Yi Feng Chuanyi Li ZhongjinLi Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2017年第2期9-11,共3页
In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning... In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning. In this situation, some ideas about Chinese courts can reach automation or get better result through the research of machine learning, such as similar documents recommendation, workload evaluation based on similarity of judgement documents and prediction of possible relevant statutes. In trying to achieve all above mentioned, and also in face of the characteristics of Chinese judgement document, we propose a topic model based approach to measure the text similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet Allocation (LDA), Labeled Latent Dirichlet Allocation (LLDA) and other treatments. Combining with the characteristics of Chinese judgment document,we focus on the specific steps of approach, the preprocessing of corpus, the parameters choices of training and the evaluation of similarity measure result. Besides, implementing the approach for prediction of possible statutes and regarding the prediction accuracy as the evaluation metric, we designed experiments to demonstrate the reasonability of decisions in the process of design and the high performance of our approach on text similarity measure. The experiments also show the restriction of our approach which need to be focused in future work. 展开更多
关键词 CHINESE JUDGMENT documents Data science Machine learning Natural language processing Text similarity TF-IDF TOPIC model LATENT DIRICHLET ALLOCATION Labeled LATENT DIRICHLET ALLOCATION
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类
5
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
基于文本摘要的无监督关键词抽取方法
6
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
基于跨层级多视角特征的多语言事件探测
7
作者 张志远 张维彦 +1 位作者 宋雨秋 阮彤 《计算机科学》 CSCD 北大核心 2024年第5期208-215,共8页
多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻... 多语言事件探测任务的目标是将多种语言的新闻文档集合组织成不同的关键事件,其中每个事件可以包含不同语言的新闻文档。该任务有助于各种下游任务应用,如多语言知识图谱构建、事件推理、信息检索等。目前,多语言事件探测主要分为先翻译再事件探测与先单语言检测再跨多种语言对齐两种方法,前者依赖翻译的效果,后者需要为每种语言单独训练模型。为此,提出了一种名为基于跨层级多视角特征融合的多语言事件探测方法,端到端地进行多语言事件探测任务。该方法从不同层级利用文档的多视角特征,获得了高可靠性的多语言事件探测结果并提升了低资源语言事件探测的泛化性能。在9种语言混合的新闻数据集上进行的实验表明,所提方法的BCubed F1值提升了4.63%。 展开更多
关键词 多语言预训练模型 多语言事件探测 新闻文档聚类 加权相似度 增量聚类
下载PDF
基于深度特征融合的协同推荐算法
8
作者 王成 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期460-468,共9页
深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神... 深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神经网络对所输入的潜在特征进行训练,生成用户-项目评分;最后利用词频-逆向文件频率算法所生成的推荐候选集,融合用户-项目评分并最终输出推荐结果。利用MovieLens评分数据进行实验,该文混合推荐算法的平均绝对差(MAE)和均方根误差(RMSE)分别为0.7459、0.8886,比传统深度神经网络分别提高14.143%与24.341%,也优于对照组的混合推荐模型。 展开更多
关键词 深度神经网络 二次多项式 词频-逆向文件频率 特征融合 相似度
下载PDF
基于堆栈集成学习的文档隐含语义相似度判断算法
9
作者 杜洁 李芹 +1 位作者 潘媛 梁国迪 《电子设计工程》 2024年第3期74-77,82,共5页
受到文档数量规模的影响,文档隐含语义相似度判断结果存在不精准的问题,提出基于堆栈集成学习的文档隐含语义相似度判断算法。构建堆栈集成学习模型,输入文档隐含语义,获得与原文本一一对应的原始文本词袋向量。赋值名词、副词、形容词... 受到文档数量规模的影响,文档隐含语义相似度判断结果存在不精准的问题,提出基于堆栈集成学习的文档隐含语义相似度判断算法。构建堆栈集成学习模型,输入文档隐含语义,获得与原文本一一对应的原始文本词袋向量。赋值名词、副词、形容词,借助辅助词库矢量,识别类似隐含语义。构建文档隐含语义向量模型,提取基于文档隐含语义索引关键词。使用堆栈集成学习方法训练关键词,计算相似度获取判别结果。实验结果表明,该算法与实际关键词提取个数最大误差为1个,最高召回率为86%,相似度判断结果较为精准。 展开更多
关键词 堆栈集成学习 文档隐含语义 语义相似度 判断
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
10
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
MERGING AND SPLITTING SECOND-ORDER SELF-SIMILAR PROCESSES (TRAFFICS) 被引量:2
11
作者 施建俊 诸鸿文 《Journal of Shanghai Jiaotong university(Science)》 EI 2000年第2期33-37,共5页
Recent traffic measurements in corporate LANs, Variable Bit Rate (VBR) video sources, ISDN control channels, and other communication systems, have indicated traffic behavior of self similar nature, which has implicati... Recent traffic measurements in corporate LANs, Variable Bit Rate (VBR) video sources, ISDN control channels, and other communication systems, have indicated traffic behavior of self similar nature, which has implications for design, control and analysis of high speed networks. Merging and splitting are two basic networking operations. This paper gave the necessary and sufficient conditions for that merging of second order self similar traffic streams also results in a second order self similar stream. It shows that splitting traffic streams of the second order self similar stream are still self similar streams by the independent splitting operation. 展开更多
关键词 SELF similar TRAFFIC MERGING TRAFFIC SPLITTING TRAFFIC document code:A
下载PDF
A Novel Method for Transforming XML Documents to Time Series and Clustering Them Based on Delaunay Triangulation
12
作者 Narges Shafieian 《Applied Mathematics》 2015年第6期1076-1085,共10页
Nowadays exchanging data in XML format become more popular and have widespread application because of simple maintenance and transferring nature of XML documents. So, accelerating search within such a document ensures... Nowadays exchanging data in XML format become more popular and have widespread application because of simple maintenance and transferring nature of XML documents. So, accelerating search within such a document ensures search engine’s efficiency. In this paper, we propose a technique for detecting the similarity in the structure of XML documents;in the following, we would cluster this document with Delaunay Triangulation method. The technique is based on the idea of representing the structure of an XML document as a time series in which each occurrence of a tag corresponds to a given impulse. So we could use Discrete Fourier Transform as a simple method to analyze these signals in frequency domain and make similarity matrices through a kind of distance measurement, in order to group them into clusters. We exploited Delaunay Triangulation as a clustering method to cluster the d-dimension points of XML documents. The results show a significant efficiency and accuracy in front of common methods. 展开更多
关键词 XML Mining document CLUSTERING XML CLUSTERING Schema Matching similarity Measures DELAUNAY TRIANGULATION Cluster
下载PDF
Designing a Document Retrieval Method for University Digital Libraries Based on Hadoop Technology
13
作者 Haixia He 《Journal of Contemporary Educational Research》 2021年第12期82-87,共6页
With the development of big data,all walks of life in society have begun to venture into big data to serve their own enterprises and departments.Big data has been embraced by university digital libraries.The most cumb... With the development of big data,all walks of life in society have begun to venture into big data to serve their own enterprises and departments.Big data has been embraced by university digital libraries.The most cumbersome work for the management of university libraries is document retrieval.This article uses Hadoop algorithm to extract semantic keywords and then calculates semantic similarity based on the literature retrieval keyword calculation process.The fast-matching method is used to determine the weight of each keyword,so as to ensure an efficient and accurate document retrieval in digital libraries,thus completing the design of the document retrieval method for university digital libraries based on Hadoop technology. 展开更多
关键词 Hadoop technology University digital library document retrieval method Semantic similarity
下载PDF
商业保理项下商业汇票债权凭证的法律效力研究
14
作者 赵慈拉 《上海立信会计金融学院学报》 2023年第2期44-56,共13页
文章围绕商业汇票能否成为商业保理的标的这一命题进行了论证,认为商业汇票不能成为商业保理的标的资产(光票保理),但可成为商业保理中具有法律效力的债权凭证。文章将现行商业保理以商业汇票与基础交易合同、销售发票、应付账款电子凭... 文章围绕商业汇票能否成为商业保理的标的这一命题进行了论证,认为商业汇票不能成为商业保理的标的资产(光票保理),但可成为商业保理中具有法律效力的债权凭证。文章将现行商业保理以商业汇票与基础交易合同、销售发票、应付账款电子凭证等诸项债权凭证应用做了比较分析。商业保理作为实体经济的一项特殊融资模式,具有逆周期特点,当经济步入下行周期时企业对保理融资的需求将会增大,在应收账款票据化的发展趋势下,商业汇票以其法律关系明确,确权手续简便,便于保理后融资,保理商同时享有票据权利和应收账款权的优势,成为保理商在基础交易合同、销售发票、类票据等多项债权凭证中的占优选择。在厘清商业保理与商业汇票的依存关系基础上,文章对电子商业汇票在商业保理、银行保理的实际应用及保理后银行贴现、标准化票据发行提出了监管政策建议。 展开更多
关键词 商业保理 商业汇票 类票据 债权凭证 应收账款票据化
下载PDF
基于知识图谱的商用飞机维修方案推荐系统集成建模 被引量:4
15
作者 邢雪琪 丁雨童 +2 位作者 夏唐斌 潘尔顺 奚立峰 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第3期512-521,共10页
针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度... 针对我国商用飞机智能维修和数字化诊断的需求,面向非结构化故障隔离手册,提出新型BM长短期记忆网络(BM LSTM)算法.运用多数投票法融合条件随机场(CRF)、双向长短期记忆网络(BiLSTM)、BiLSTM CRF 3种实体识别算法,有效提高实体识别精度.基于商用飞机维修故障诊断手册构建维修方案知识图谱,结合词频-逆向文件频率(TF-IDF)相似度算法与BM LSTM算法,设计商用飞机维修方案推荐系统,实现通过检索非结构化故障描述文本准确匹配到维修方案的功能.实验结果表明,利用商用飞机故障隔离手册构建知识图谱、基于所提创新方法开发的维修方案推荐系统,能够有效保证维修信息精确匹配,显著提高维修方案形成效率. 展开更多
关键词 商用飞机 故障隔离手册 BM长短期记忆网络(BM LSM) 知识图谱 词频-逆向文件频率(TF-IDF)相似度
下载PDF
PCCS部分聚类分类:一种快速的Web文档聚类方法 被引量:23
16
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。 展开更多
关键词 聚类 分类 特征选取 文档相似性 PCCS WEB文档 信息检索
下载PDF
概念与文档的语义相似度计算 被引量:7
17
作者 宋玲 郭家义 +2 位作者 张冬梅 汤晓兵 高楠 《计算机工程与应用》 CSCD 北大核心 2008年第35期163-167,共5页
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计... 将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 展开更多
关键词 概念相似度 文档相似度 本体 文档聚类
下载PDF
一种基于群体智能的Web文档聚类算法 被引量:41
18
作者 吴斌 傅伟鹏 +2 位作者 郑毅 刘少辉 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1429-1435,共7页
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于... 将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 . 展开更多
关键词 群体智能 WEB 文档聚类算法 自组织聚类 群体相似度 互联网 信息检索
下载PDF
基于语义依存的汉语句子相似度计算 被引量:127
19
作者 李彬 刘挺 +1 位作者 秦兵 李生 《计算机应用研究》 CSCD 北大核心 2003年第12期15-17,共3页
句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法... 句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法结构信息,由此提出了一种基于语义依存的汉语句子相似度计算的方法,该方法取得了令人满意的实验效果。 展开更多
关键词 相似度计算 语义 依存结构 自然语言处理 多文档文摘
下载PDF
一种基于词共现的文档聚类算法 被引量:15
20
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档聚类 文档模型 词共现 文档相似度 聚类增益
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部