期刊文献+
共找到540篇文章
< 1 2 27 >
每页显示 20 50 100
Research and Analysis of Grammatical Error Correction Technology for Chinese Documents
1
作者 Wei Jin Feng Jiang +2 位作者 Xiulai Wang Ningling Ma Yutao Zhang 《Journal of Computer and Communications》 2024年第8期202-223,共22页
With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial informati... With the widespread use of Chinese globally, the number of Chinese learners has been increasing, leading to various grammatical errors among beginners. Additionally, as domestic efforts to develop industrial information grow, electronic documents have also proliferated. When dealing with numerous electronic documents and texts written by Chinese beginners, manually written texts often contain hidden grammatical errors, posing a significant challenge to traditional manual proofreading. Correcting these grammatical errors is crucial to ensure fluency and readability. However, certain special types of text grammar or logical errors can have a huge impact, and manually proofreading a large number of texts individually is clearly impractical. Consequently, research on text error correction techniques has garnered significant attention in recent years. The advent and advancement of deep learning have paved the way for sequence-to-sequence learning methods to be extensively applied to the task of text error correction. This paper presents a comprehensive analysis of Chinese text grammar error correction technology, elaborates on its current research status, discusses existing problems, proposes preliminary solutions, and conducts experiments using judicial documents as an example. The aim is to provide a feasible research approach for Chinese text error correction technology. 展开更多
关键词 Chinese text Error Judicial documents Neural Network Deep Learning TRANSFORMER
下载PDF
Genetic-Frog-Leaping Algorithm for Text Document Clustering 被引量:1
2
作者 Lubna Alhenak Manar Hosny 《Computers, Materials & Continua》 SCIE EI 2019年第9期1045-1074,共30页
In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from lar... In recent years,the volume of information in digital form has increased tremendously owing to the increased popularity of the World Wide Web.As a result,the use of techniques for extracting useful information from large collections of data,and particularly documents,has become more necessary and challenging.Text clustering is such a technique;it consists in dividing a set of text documents into clusters(groups),so that documents within the same cluster are closely related,whereas documents in different clusters are as different as possible.Clustering depends on measuring the content(i.e.,words)of a document in terms of relevance.Nevertheless,as documents usually contain a large number of words,some of them may be irrelevant to the topic under consideration or redundant.This can confuse and complicate the clustering process and make it less accurate.Accordingly,feature selection methods have been employed to reduce data dimensionality by selecting the most relevant features.In this study,we developed a text document clustering optimization model using a novel genetic frog-leaping algorithm that efficiently clusters text documents based on selected features.The proposed approach is based on two metaheuristic algorithms:a genetic algorithm(GA)and a shuffled frog-leaping algorithm(SFLA).The GA performs feature selection,and the SFLA performs clustering.To evaluate its effectiveness,the proposed approach was tested on a well-known text document dataset:the“20Newsgroup”dataset from the University of California Irvine Machine Learning Repository.Overall,after multiple experiments were compared and analyzed,it was demonstrated that using the proposed algorithm on the 20Newsgroup dataset greatly facilitated text document clustering,compared with classical K-means clustering.Nevertheless,this improvement requires longer computational time. 展开更多
关键词 text documents clustering meta-heuristic algorithms shuffled frog-leaping algorithm genetic algorithm feature selection
下载PDF
Evolution and prospect of China's rural development policy: A policy text analysis of the No.1 Central Documents
3
作者 WANG Qiang 《Ecological Economy》 2018年第4期268-281,共14页
By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments a... By combing 20 documents of the Central Committee on the historical evolution of rural development policies since 1982, we hold that historical evolution has undergone reforms, adjustments, modernization developments and new ideas, and the path of reform experienced economic recovery, industrial nurturing agriculture, agriculture modernization and rural revitalization. The study found that: farmers' income has always been the focus of attention; agricultural production has shifted from total demand to green ecology; urban and rural resource elements are not well-organized, resulting in internal contradictions. The implementation of the rural revitalization strategy is an important measure to fundamentally solve the rural development problems in the new era. 展开更多
关键词 the No.1 CENTRAL document text ANALYSIS rural development EVOLUTION PROSPECT
下载PDF
Mathematical Expression Extraction in Text Fields of Documents Based on HMM
4
作者 Xuedong Tian Ruihan Bai +2 位作者 Fang Yang Jinyuan Bai Xinfu Li 《Journal of Computer and Communications》 2017年第14期1-13,共13页
Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed... Aiming at the problem that the mathematical expressions in unstructured text fields of documents are hard to be extracted automatically, rapidly and effectively, a method based on Hidden Markov Model (HMM) is proposed. Firstly, this method trained the HMM model through employing the symbol combination features of mathematical expressions. Then, some preprocessing works such as removing labels and filtering words were carried out. Finally, the preprocessed text was converted into an observation sequence as the input of the HMM model to determine which is the mathematical expression and extracts it. The experimental results show that the proposed method can effectively extract the mathematical expressions from the text fields of documents, and also has the relatively high accuracy rate and recall rate. 展开更多
关键词 Mathematical Expression EXTRACTION Hidden MARKOV Model text FIELDS documentS SYMBOL Combination Features
下载PDF
Establish Evidence Chain Model on Chinese Criminal Judgment Documents Using Text Similarity Measure
5
作者 Yixuan Dong Yemao Zhou +6 位作者 Chuanyi Li Jidong Ge Yali Han Mengting He Dekuan Liu Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2018年第2期4-4,共1页
关键词 CRIMINAL JUDGMENT documentS JUDGMENT documentS reasoningBig data EVIDENCE CHAIN text similarity measure Word2vecWeight of EVIDENCE CHAIN
下载PDF
基于融合矩阵的文本相似度计算实现检索结果聚类
6
作者 赵悦阳 崔雷 《医学信息学杂志》 CAS 2024年第3期58-64,共7页
目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分... 目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。 展开更多
关键词 文献检索 文本聚类 融合矩阵 文本相似度
下载PDF
我国民族语言文献文本数字化识别问题——基于OCR及其工具
7
作者 范俊军 刘贤娴 《暨南学报(哲学社会科学版)》 北大核心 2024年第6期31-45,共15页
我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进... 我国少数民族语言文献数量庞大,文字种类繁多,内容涵盖政治、经济、法律、历史、文学、艺术、宗教、天文、地理、医药等领域,是中华民族文化知识的重要组成部分。构建各民族文献文本数据,使之应用于自然语言处理和人工智能,能有效促进中华优秀传统知识创新性传承,促进知识社会化,是对各民族语言古文献和现代书报刊进行文字识别和文本转换数据构建的基础。国内早期OCR技术虽然解决了几种主要少数民族文字识别的问题,但因字符为非Unicode基本集编码而弃用。当前OCR技术已能较好识别蒙、藏、维、哈、朝等文种文献,但在处理我国汉文与少数民族文字混排图像文本时仍然效果不佳。因此应推进少数民族语言文献OCR识别技术创新。我国少数民族语言文献现行活态文字有十多种,其中非拉丁字系的文字有11种,OCR技术应重点解决这类少数民族语言字系的抄本、刻版和铅字印刷文本,以及汉文与民族文字混排文本的识别问题,研发开放的多功能工具和平台。在此基础上,进一步开展少数民族语言文献文本大规模数据构建,以促进我国语言科学研究和自然语言处理的创新发展。 展开更多
关键词 少数民族语言 民族文献 文本识别 OCR 数据构建 数字人文
下载PDF
Text Extraction in Complex Color Document Images for Enhanced Readability
8
作者 P. Nagabhushan S. Nirmala 《Intelligent Information Management》 2010年第2期120-133,共14页
Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text ... Often we encounter documents with text printed on complex color background. Readability of textual contents in such documents is very poor due to complexity of the background and mix up of color(s) of foreground text with colors of background. Automatic segmentation of foreground text in such document images is very much essential for smooth reading of the document contents either by human or by machine. In this paper we propose a novel approach to extract the foreground text in color document images having complex background. The proposed approach is a hybrid approach which combines connected component and texture feature analysis of potential text regions. The proposed approach utilizes Canny edge detector to detect all possible text edge pixels. Connected component analysis is performed on these edge pixels to identify candidate text regions. Because of background complexity it is also possible that a non-text region may be identified as a text region. This problem is overcome by analyzing the texture features of potential text region corresponding to each connected component. An unsupervised local thresholding is devised to perform foreground segmentation in detected text regions. Finally the text regions which are noisy are identified and reprocessed to further enhance the quality of retrieved foreground. The proposed approach can handle document images with varying background of multiple colors and texture;and foreground text in any color, font, size and orientation. Experimental results show that the proposed algorithm detects on an average 97.12% of text regions in the source document. Readability of the extracted foreground text is illustrated through Optical character recognition (OCR) in case the text is in English. The proposed approach is compared with some existing methods of foreground separation in document images. Experimental results show that our approach performs better. 展开更多
关键词 Color document Image COMPLEX Background Connected Component ANALYSIS Segmentation of text texture ANALYSIS UNSUPERVISED THRESHOLDING OCR
下载PDF
基于词-主题-文本异质网络的短文本分类方法
9
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 短文本分类
下载PDF
文本细读、文献考辨与“文心”前置:朝鲜杜诗学研究的基本维度——以左江《杜诗与朝鲜时代汉文学》为中心
10
作者 王成 《杜甫研究学刊》 2024年第3期69-77,86,共10页
杜诗学作为朝鲜古代诗学重要研究领域之一,单一的文本分析很难挖掘出杜诗在朝鲜文坛接受、传播与变化的丰富状貌,只有多维度阐释才能达成整体性的学术关照。左江《杜诗与朝鲜时代汉文学》以文本细读作为研究基础,重视文献考辨。该书秉... 杜诗学作为朝鲜古代诗学重要研究领域之一,单一的文本分析很难挖掘出杜诗在朝鲜文坛接受、传播与变化的丰富状貌,只有多维度阐释才能达成整体性的学术关照。左江《杜诗与朝鲜时代汉文学》以文本细读作为研究基础,重视文献考辨。该书秉承旧文献新用、新文献智用的研究原则,将义理阐释与文献考辨相结合,体现出“文心”前置的鲜明特点,进一步丰富了东亚汉文化圈的杜诗学研究空间。 展开更多
关键词 《杜诗与朝鲜时代汉文学》 朝鲜杜诗学 文本 文献 “文心”
下载PDF
从法书文献到童蒙读物的流传轨迹——以启功先生《说〈千字文〉》为线索
11
作者 于翠玲 《中国出版史研究》 2024年第1期21-33,共13页
智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文... 智永的《千字文》以楷书和草书体书写,有多种版本。启功的研究展示了法书文献的复制方式及流传轨迹,还强调《千字文》具有启发童蒙、流传广远的实用价值。这有助于人们了解古代法书文献的版本知识、认识“王羲之这个角色”、拓展法书文献出版物及书法教学“启发童蒙”的功用,同时也为研究中国特色的阅读史提供了一个有意义的案例。 展开更多
关键词 启功 智永 千字文 法书文献 童蒙读物 阅读史
下载PDF
转录与传习:西周诰类文献生成机制研究
12
作者 林甸甸 《北京师范大学学报(社会科学版)》 北大核心 2024年第2期65-73,共9页
西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过... 西周的“诰”是受诰方对“王告”这一话语行为的尊称,并在“王告”落实为书面文献时,作为文体名词使用。由于下位者参与了“诰”类文献的整理写作,受诰者在话语权力关系中的被动地位被表达出来,并呈现在仪式话语转录为经典文本的传习过程中。传世诰类文献的核心文本为册命、赏赐仪式上所发布的原始诰辞;其附属的结构性成分为交代作诰历史背景的叙事导语,以及以“某人曰”为代表的结构性部件。“某人曰”在书面诰文中重复、平行地出现,有助于澄清和整肃话语主体,但也提示了诰文在传习过程中的可变异性。“王若曰”的插入位置,一定程度上反映了传习者对原始诰辞内容层次的理解,同时推动了诰辞转录为文本篇章的进程。 展开更多
关键词 诰类文献 文本结构 文献生成 话语权力 文本转录
下载PDF
公文结构的理论研究述评与前瞻
13
作者 杨霞 《秘书》 2024年第3期83-93,共11页
当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构... 当前的公文结构研究在形式要素结构、写作思维结构、写作结构模式、整体篇章结构等方面已取得显著成果。然而,由于多数研究集中在形式的静态考察和表层的宏观描写,导致结论的适用性和解释力有限。因此,未来的研究应重点关注内容信息结构,在篇章语言学视角下结合中国文件制度语境,运用跨学科研究方法,深入探讨公文结构的语言表达、话语结构、信息组织模式以及篇章结构系统要素之间的关系等问题。这将有助于形成科学的理论知识体系,为社会组织进行公文写作和交流沟通提供有力的理论支撑。 展开更多
关键词 公文文本 公文结构 信息结构 语言结构体 篇章语言学
下载PDF
基于文字边缘失真特征的翻拍图像篡改定位
14
作者 陈昌盛 陈自炜 李锡劲 《中国科技论文》 CAS 2024年第2期160-168,199,共10页
针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行... 针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法。从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行决策。同时,为了评估检测方法的性能,构建了一个包含120张合法图像、1 200张翻拍篡改文档图像的数据集。实验结果表明:所提出的方法在跨库实验场景下词汇级别的ROC曲线下面积(area under ROC curve,AUC)和等错误率(equal error rate,EER)分别达到了0.84和0.23;与Forensic Similarity (128×128)和DenseFCN相比,所提出的特征结合LightDenseNet的方法在翻拍篡改文档数据集的跨库协议下,词汇级别的AUC指标分别提高了0.06和0.17。 展开更多
关键词 文档图像 翻拍攻击 篡改定位 文字边缘失真 翻拍篡改文档数据库
下载PDF
基线自适应透视变换的文本行矫正
15
作者 张梦林 杨淑莹 《天津理工大学学报》 2024年第4期76-82,共7页
相机拍摄的文档图像通常存在弯折和透视形变,这将导致由图像提取的文本行弯曲和文字的大小不一致。提出基线自适应透视变换来进行文本行矫正。该方法使用Bezier曲线拟合文本行中心和上、下边界基线,在文本行拉直矫正中加入了横向矫正效... 相机拍摄的文档图像通常存在弯折和透视形变,这将导致由图像提取的文本行弯曲和文字的大小不一致。提出基线自适应透视变换来进行文本行矫正。该方法使用Bezier曲线拟合文本行中心和上、下边界基线,在文本行拉直矫正中加入了横向矫正效果。提出的方法将需要矫正的文本行片段模拟为倾斜平面,当文本行片段高边方向与文档旋转轴向角度为45°时,未经过透视形变与经过透视形变的文本行片段高度比与宽度比的比值相同。根据片段高度与文本行平均高度比值进行宽度变化并计算透视变换矩阵,矫正其中存在的透视形变。对实际拍摄的文档图像提取的文本行进行人工检查,将没有完成的文本行拉直矫正,以及矫正后有字体较大错误形变的文本行图像作为矫正失败的文本行图像,文本行矫正成功的概率约为98.08%。 展开更多
关键词 文档矫正 文本行拉直 透视变换 基线估计
下载PDF
基于文本摘要的无监督关键词抽取方法
16
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
下载PDF
基于业务过程模型的刑事案件裁判文书过程信息自动梳理技术
17
作者 张源 邹文涛 +3 位作者 袁豪 李传艺 葛季栋 骆斌 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2968-2980,共13页
在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息... 在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息。尽管该特征广泛存在于不同领域的文本中,相关的研究却很少。为此,提出一种具有可移植性的文本过程挖掘算法,通过结合领域知识和机器学习建立名为“事件框架”的新型数据结构,从而解决上述难点并最终自动构建业务过程模型。通过人工构建的大量过程模型与自动生成的过程模型在结构、文本相似度上的实验对比,证明该算法能有效地解决上述挑战。 展开更多
关键词 过程挖掘 过程文本 自然语言处理 事件抽取 裁判文书
下载PDF
面向满文档案图像的手写体满文智能识别软件设计与实现
18
作者 孙凯明 孙磊 +3 位作者 王刚 张丽娜 郝明 邢芳芳 《自动化技术与应用》 2024年第1期91-94,共4页
面向黑龙江省档案馆馆藏满文档案数字化平台需求,运用Pytorch、SQL Server和OpenCV,开发了面向满文档案图像的手写体满文智能识别软件。该软件具有文档分割、手写满文单词识别和存储功能。满文历史档案图像分割模块采用基于异向高斯滤... 面向黑龙江省档案馆馆藏满文档案数字化平台需求,运用Pytorch、SQL Server和OpenCV,开发了面向满文档案图像的手写体满文智能识别软件。该软件具有文档分割、手写满文单词识别和存储功能。满文历史档案图像分割模块采用基于异向高斯滤波和连接组件方法实现,手写满文单词识别采用编码器-解码器的网络模型实现,该软件单词识别率达95%以上,已成功集成针对黑龙江省档案馆馆藏满文档案数字化平台建设的满文历史档案管理系统中。手写体满文智能识别技术及软件,为构建集满文档案图像采集、录入、识别、检索与分析为一体的满文档案数字化管理平台作技术支撑,为满族文化的保护和发掘提供先进的技术手段,对推进满文档案数字化和信息化等方面具有重要意义。 展开更多
关键词 满文档案图像 手写文字识别 深度学习
下载PDF
电子文件智能归档系统设计实现的演进逻辑与优化策略
19
作者 胡文学 丁海斌 +2 位作者 赵婧尧 罗夏钻 颜晗 《档案管理》 北大核心 2024年第3期34-38,共5页
伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所... 伴随档案信息化进程的发展,电子文件智能归档问题的研究逐渐成为我国档案学者们近年来关注的焦点之一。智能归档不仅需要明确归档范围作为制度保障,还需要文本、图像等相似度算法比对原理和机器学习算法等人工智能技术的支持。本文中所介绍的系统通过对拟归档文件进行智慧排查,经过系统内置清单、系统比对、四性检测合格后智能形成元数据,最终向档案管理部门办理移交。智能归档与一般电子文件归档方式相比,具有智能化、自动化、一体化、网络化等特点。 展开更多
关键词 电子文件 归档 智能归档 文本相似度算法 人工智能 机器学习 四性检测 元数据
下载PDF
CRF机制结合LDA的病历文书后结构化系统的应用
20
作者 温煜 赖舒婷 +1 位作者 曾菲菲 雷佳雨 《微型电脑应用》 2024年第4期59-63,共5页
为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为... 为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为-6.97,与初始困惑度相比,LDA主题建模困惑度下降9.76%;当主题数量为3时,得到了一致性值的最低值为0.361;当主题数量为40时,得到了一致性值的最大值为0.442,与最低值相比,LDA主题建模一致性值上升22.44%。综上可以看出,研究的CRF机制结合LDA的病历文书后结构化系统具有较好的应用效果。 展开更多
关键词 条件随机场 半监督词典 隐式狄利克雷分布 病历文书 文本分类
下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部