期刊文献+
共找到542篇文章
< 1 2 28 >
每页显示 20 50 100
Genetic-Frog-Leaping Algorithm for Text Document Clustering 被引量:1
1
作者 Lubna Alhenak Manar Hosny 《Computers, Materials & Continua》 SCIE EI 2019年第9期1045-1074,共30页
In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from lar... In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from large collections of data,and particularly documents,has become more necessary and challenging.Text clustering is such a technique;it consists in dividing a set of text documents into clusters(groups),so that documents within the same cluster are closely related,whereas documents in different clusters are as different as possible.Clustering depends on measuring the content(i.e.,words)of a document in terms of relevance.Nevertheless,as documents usually contain a large number of words,some of them may be irrelevant to the topic under consideration or redundant.This can confuse and complicate the clustering process and make it less accurate.Accordingly,feature selection methods have been employed to reduce data dimensionality by selecting the most relevant features.In this study,we developed a text document clustering optimization model using a novel genetic frog-leaping algorithm that efficiently clusters text documents based on selected features.The proposed approach is based on two metaheuristic algorithms:a genetic algorithm(GA)and a shuffled frog-leaping algorithm(SFLA).The GA performs feature selection,and the SFLA performs clustering.To evaluate its effectiveness,the proposed approach was tested on a well-known text document dataset:the“20Newsgroup”dataset from the University of California Irvine Machine Learning Repository.Overall,after multiple experiments were compared and analyzed,it was demonstrated that using the proposed algorithm on the 20Newsgroup dataset greatly facilitated text document clustering,compared with classical K-means clustering.Nevertheless,this improvement requires longer computational time. 展开更多
关键词 text documents clustering meta-heuristic algorithms shuffled frog-leaping algorithm genetic algorithm feature selection
下载PDF
Evolution and prospect of China's rural development policy: A policy text analysis of the No.1 Central Documents
2
作者 WANG Qiang 《Ecological Economy》 2018年第4期268-281,共14页
By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments a... By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments and new ideas, and the path of reform experienced economic recovery, industrial nurturing agriculture, agriculture modernization and rural revitalization. The study found that: farmers' income has always been the focus of attention; agricultural production has shifted from total demand to green ecology; urban and rural resource elements are not well-organized, resulting in internal contradictions. The implementation of the rural revitalization strategy is an important measure to fundamentally solve the rural development problems in the new era. 展开更多
关键词 the No.1 CENTRAL document text ANALYSIS rural development EVOLUTION PROSPECT
下载PDF
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
3
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 Mathematical Expression EXTRACTION Hidden MARKOV Model text FIELDS documentS SYMBOL Combination Features
下载PDF
Establish Evidence Chain Model on Chinese Criminal Judgment Documents Using Text Similarity Measure
4
作者 Yixuan Dong Yemao Zhou +6 位作者 Chuanyi Li Jidong Ge Yali Han Mengting He Dekuan Liu Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2018年第2期4-4,共1页
关键词 CRIMINAL JUDGMENT documentS JUDGMENT documentS reasoningBig data EVIDENCE CHAIN text similarity measure Word2vecWeight of EVIDENCE CHAIN
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类
5
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
Text Extraction in Complex Color Document Images for Enhanced Readability
6
作者 P. Nagabhushan S. Nirmala 《Intelligent Information Management》 2010年第2期120-133,共14页
Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text ... Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text with colors of background. Automatic segmentation of foreground text in such document images is very much essential for smooth reading of the document contents either by human or by machine. In this paper we propose a novel approach to extract the foreground text in color document images having complex background. The proposed approach is a hybrid approach which combines connected component and texture feature analysis of potential text regions. The proposed approach utilizes Canny edge detector to detect all possible text edge pixels. Connected component analysis is performed on these edge pixels to identify candidate text regions. Because of background complexity it is also possible that a non-text region may be identified as a text region. This problem is overcome by analyzing the texture features of potential text region corresponding to each connected component. An unsupervised local thresholding is devised to perform foreground segmentation in detected text regions. Finally the text regions which are noisy are identified and reprocessed to further enhance the quality of retrieved foreground. The proposed approach can handle document images with varying background of multiple colors and texture;and foreground text in any color, font, size and orientation. Experimental results show that the proposed algorithm detects on an average 97.12% of text regions in the source document. Readability of the extracted foreground text is illustrated through Optical character recognition (OCR) in case the text is in English. The proposed approach is compared with some existing methods of foreground separation in document images. Experimental results show that our approach performs better. 展开更多
关键词 Color document Image COMPLEX Background Connected Component ANALYSIS Segmentation of text texture ANALYSIS UNSUPERVISED THRESHOLDING OCR
下载PDF
基于词-主题-文本异质网络的短文本分类方法
7
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 短文本分类
下载PDF
从法书文献到童蒙读物的流传轨迹——以启功先生《说〈千字文〉》为线索
8
作者 于翠玲 《中国出版史研究》 2024年第1期21-33,共13页
智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文... 智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文献出版物及书法教学“启发童蒙”的功用,同时也为研究中国特色的阅读史提供了一个有意义的案例。 展开更多
关键词 启功 智永 千字文 法书文献 童蒙读物 阅读史
下载PDF
转录与传习:西周诰类文献生成机制研究
9
作者 林甸甸 《北京师范大学学报(社会科学版)》 北大核心 2024年第2期65-73,共9页
西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过... 西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过程中。传世诰类文献的核心文本为册命、赏赐仪式上所发布的原始诰辞;其附属的结构性成分为交代作诰历史背景的叙事导语,以及以“某人曰”为代表的结构性部件。“某人曰”在书面诰文中重复、平行地出现,有助于澄清和整肃话语主体,但也提示了诰文在传习过程中的可变异性。“王若曰”的插入位置,一定程度上反映了传习者对原始诰辞内容层次的理解,同时推动了诰辞转录为文本篇章的进程。 展开更多
关键词 诰类文献 文本结构 文献生成 话语权力 文本转录
下载PDF
公文结构的理论研究述评与前瞻
10
作者 杨霞 《秘书》 2024年第3期83-93,共11页
当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构... 当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构,在篇章语言学视角下结合中国文件制度语境,运用跨学科研究方法,深入探讨公文结构的语言表达、话语结构、信息组织模式以及篇章结构系统要素之间的关系等问题。这将有助于形成科学的理论知识体系,为社会组织进行公文写作和交流沟通提供有力的理论支撑。 展开更多
关键词 公文文本 公文结构 信息结构 语言结构体 篇章语言学
下载PDF
基于文字边缘失真特征的翻拍图像篡改定位
11
作者 陈昌盛 陈自炜 李锡劲 《中国科技论文》 CAS 2024年第2期160-168,199,共10页
针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行... 针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行决策。同时,为了评估检测方法的性能,构建了一个包含120张合法图像、1 200张翻拍篡改文档图像的数据集。实验结果表明:所提出的方法在跨库实验场景下词汇级别的ROC曲线下面积(area under ROC curve,AUC)和等错误率(equal error rate,EER)分别达到了0.84和0.23;与Forensic Similarity (128×128)和DenseFCN相比,所提出的特征结合LightDenseNet的方法在翻拍篡改文档数据集的跨库协议下,词汇级别的AUC指标分别提高了0.06和0.17。 展开更多
关键词 文档图像 翻拍攻击 篡改定位 文字边缘失真 翻拍篡改文档数据库
下载PDF
面向满文档案图像的手写体满文智能识别软件设计与实现
12
作者 孙凯明 孙磊 +3 位作者 王刚 张丽娜 郝明 邢芳芳 《自动化技术与应用》 2024年第1期91-94,共4页
面向黑龙江省档案馆馆藏满文档案数字化平台需求,运用Pytorch、SQL Server和OpenCV,开发了面向满文档案图像的手写体满文智能识别软件。该软件具有文档分割、手写满文单词识别和存储功能。满文历史档案图像分割模块采用基于异向高斯滤... 面向黑龙江省档案馆馆藏满文档案数字化平台需求,运用Pytorch、SQL Server和OpenCV,开发了面向满文档案图像的手写体满文智能识别软件。该软件具有文档分割、手写满文单词识别和存储功能。满文历史档案图像分割模块采用基于异向高斯滤波和连接组件方法实现,手写满文单词识别采用编码器-解码器的网络模型实现,该软件单词识别率达95%以上,已成功集成针对黑龙江省档案馆馆藏满文档案数字化平台建设的满文历史档案管理系统中。手写体满文智能识别技术及软件,为构建集满文档案图像采集、录入、识别、检索与分析为一体的满文档案数字化管理平台作技术支撑,为满族文化的保护和发掘提供先进的技术手段,对推进满文档案数字化和信息化等方面具有重要意义。 展开更多
关键词 满文档案图像 手写文字识别 深度学习
下载PDF
电子文件智能归档系统设计实现的演进逻辑与优化策略
13
作者 胡文学 丁海斌 +2 位作者 赵婧尧 罗夏钻 颜晗 《档案管理》 北大核心 2024年第3期34-38,共5页
伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所... 伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所介绍的系统通过对拟归档文件进行智慧排查,经过系统内置清单、系统比对、四性检测合格后智能形成元数据,最终向档案管理部门办理移交。智能归档与一般电子文件归档方式相比,具有智能化、自动化、一体化、网络化等特点。 展开更多
关键词 电子文件 归档 智能归档 文本相似度算法 人工智能 机器学习 四性检测 元数据
下载PDF
CRF机制结合LDA的病历文书后结构化系统的应用
14
作者 温煜 赖舒婷 +1 位作者 曾菲菲 雷佳雨 《微型电脑应用》 2024年第4期59-63,共5页
为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为... 为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为-6.97,与初始困惑度相比,LDA主题建模困惑度下降9.76%;当主题数量为3时,得到了一致性值的最低值为0.361;当主题数量为40时,得到了一致性值的最大值为0.442,与最低值相比,LDA主题建模一致性值上升22.44%。综上可以看出,研究的CRF机制结合LDA的病历文书后结构化系统具有较好的应用效果。 展开更多
关键词 条件随机场 半监督词典 隐式狄利克雷分布 病历文书 文本分类
下载PDF
面向中文法律裁判文书的抽取式摘要算法
15
作者 温嘉宝 杨敏 《集成技术》 2024年第1期62-71,共10页
裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了... 裁判文书自动摘要的目的在于让计算机能够自动选择、抽取和压缩法律文本中的重要信息,从而减轻法律从业者的工作量。目前,大多数基于预训练语言模型的摘要算法对输入文本的长度存在限制,因此无法对长文本进行有效摘要。为此,该文提出了一种新的抽取式摘要算法,利用预训练语言模型生成句子向量,并基于Transformer编码器结构融合包括句子向量、句子位置和句子长度在内的信息,完成句子摘要。实验结果显示,该算法能够有效处理长文本摘要任务。此外,在2020年中国法律智能技术评测(CAIL)摘要数据集上进行测试的结果表明,与基线模型相比,该模型在ROUGE-1、ROUGE-2和ROUGE-L指标上均有显著提升。 展开更多
关键词 抽取式摘要模型 法律裁判文书 文本自动摘要 深度神经网络
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:30
16
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 Fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
基于图文多模态融合的文档片段语义相似度判定算法
17
作者 潘媛 梁国迪 +1 位作者 邵馨叶 李芹 《电子设计工程》 2024年第3期106-109,114,共5页
为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现... 为使网络主机的差异性赋值能力得到保障,实现对相似性文档片段语义信息的准确判别,提出基于图文多模态融合的文档片段语义相似度判定算法。在多模态融合条件的基础上,联合图像区域检测结果、文本区域检测结果,建立完整的词袋模型,实现基于图文多模态融合的文档片段标注。根据文本数据预处理条件,确定关键词权值指标,联合已知文档片段语义信息,求取相似性度量值的准确计算结果,完成文档片段语义相似度判定算法的设计。对比实验结果可知,在图文多模态融合技术的支持下,差异性赋值指标的平均值达到了1.0,对于网络主机而言,其在准确判别相似性文档片段语义信息方面的应用能力得到了保障。 展开更多
关键词 图文多模态融合 文档片段 语义相似度 词袋模型 关键词权值 差异性赋值
下载PDF
计算机办公软件Word的具体操作应用探析
18
作者 黄美琴 《数字通信世界》 2024年第3期142-144,共3页
在办公软件中,Word作为一种基础软件,主要用于文字编辑、排版等方面,但是其功能多样,如果操作不熟练则会影响到软件功能的正常使用。鉴于此,文章主要围绕计算机办公软件Word的实际操作应用内容展开介绍,以期能够为相关人员的工作开展提... 在办公软件中,Word作为一种基础软件,主要用于文字编辑、排版等方面,但是其功能多样,如果操作不熟练则会影响到软件功能的正常使用。鉴于此,文章主要围绕计算机办公软件Word的实际操作应用内容展开介绍,以期能够为相关人员的工作开展提供借鉴和参考。 展开更多
关键词 WORD 计算机 办公软件 文档操作 文档管理 文本处理
下载PDF
利用interMedia-Text实现基于Web的大型文档库的全文检索模块 被引量:2
19
作者 夏戈 卜家岐 《计算机应用与软件》 CSCD 北大核心 2004年第1期22-23,102,共3页
随着电子文档的大量使用 ,如何建立高效的文档管理系统成为一个新的研究方向。本文就实现管理系统的一项技术难点 ,即大型文档的全文检索功能 ,提出了一种新的可行方案。其核心选用了最新的数据库技术interMedia -Text 。
关键词 数据库 interMedia-text WEB 大型文档库 全文检索模块 文档管理系统
下载PDF
An improved TF-IDF approach for text classification 被引量:4
20
作者 张云涛 龚玲 王永成 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第1期49-55,共7页
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synony... This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves the precision and recall of text classification compared with the conventional TF-IDF approach. 展开更多
关键词 文本处理 文本分析 TF-IDF 自动化 词语分级 出现频率
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部