期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
文本切分知识获取及其应用 被引量:9
1
作者 钱揖丽 郑家恒 《计算机工程与应用》 CSCD 北大核心 2003年第2期63-64,100,共3页
文章描述了一种从熟语料中自动获取文本切分知识的机器学习的方法。该方法从已切分标注加工的熟语料中自动获取错误的文本切分形式及其相应的上下文信息,以及正确的切分形式,形成知识库,并将获取的知识再应用到新语料的加工过程,从而进... 文章描述了一种从熟语料中自动获取文本切分知识的机器学习的方法。该方法从已切分标注加工的熟语料中自动获取错误的文本切分形式及其相应的上下文信息,以及正确的切分形式,形成知识库,并将获取的知识再应用到新语料的加工过程,从而进一步提高机器切分的正确率;同时,采用滚动式的方法,建造具有较高加工质量的大规模语料库。 展开更多
关键词 文本切分 知识获取 语料库 中文信息处理 机器学习 知识库
下载PDF
一种手写汉字文本切分的协动计算方法设计
2
作者 周昌乐 赵巍 《计算机应用与软件》 CSCD 1999年第1期30-33,F003,共5页
本文针对信封地址的识别,设计了一种手写汉字文本切分的协动计算方法。由于考虑了汉字及其左右部件搭配的语义信息,从而取得了较高的正确切分率。在1000份样本信封文本中,无连字时为100%,有连字时也有95%。
关键词 手写汉字识别 文本切分 协动算法 汉字信息处理
下载PDF
古琴减字谱图像的文本切分与提取 被引量:1
3
作者 潘知枭 周昌乐 《心智与计算》 2007年第2期281-290,共10页
古琴打谱是一项专业性很强又费时费力的工作,如何利用先进的人工智能技术来对古琴谱中的谱字进行自动识别解读,哪怕是辅助性的,对于古琴打谱事业的发展无疑会起到重要的促进作用,从可以间接地为保护与弘扬古琴文化作贡献。本文通过研究... 古琴打谱是一项专业性很强又费时费力的工作,如何利用先进的人工智能技术来对古琴谱中的谱字进行自动识别解读,哪怕是辅助性的,对于古琴打谱事业的发展无疑会起到重要的促进作用,从可以间接地为保护与弘扬古琴文化作贡献。本文通过研究古琴减字谱这种特殊文本的特点,提出了不同于普通OCR光学识别软件的文本切分方法,内容涉及纸质古琴谱原始扫描图的图像预处理,古琴混合谱中简字谱的行切分与提取,单行简字谱中的谱字切分与提取等算法及其实现。这样就为实现古琴谱进一步的释读提供一种前期处理方法。由于古琴谱字的特殊性,以及所提出方法的通用性,该方法对于丰富汉字文本的切分方法也有着一定的学术意义。 展开更多
关键词 古琴打谱 减字谱 图像处理 文本切分
原文传递
文本行字符基线的精确测定算法 被引量:2
4
作者 卢达 浦炜 谢铭培 《小型微型计算机系统》 EI CSCD 北大核心 2000年第7期726-728,共3页
本文给出了精确测定文本行字符基线的算法 ,讨论了基线检测的容差 .该算法也可用于手写字符的分析 .实验结果表明 ,我们的基线检测算法对不同大小的字符有满意的处理结果 .
关键词 字符识别 文本切分 基线检测 文本处理
下载PDF
文本行字符基线的精确测定算法
5
作者 卢达 浦炜 《中山大学学报论丛》 1999年第4期12-16,共5页
给出了精确测定文本行字符基线的算法, 讨论了基线检测的容差。该算法也可用于手写字符的分析。实验结果表明, 该基线检测算法对不同大小的字符都有满意的处理结果。
关键词 字符识别 文本切分 字符切分 基线检测
下载PDF
一种新颖的自然语言主题转换精确定位方法
6
作者 陈浪舟 黄泰翼 《软件学报》 EI CSCD 北大核心 1999年第12期1246-1252,共7页
自然语言的主题转换是自然语言理解的一个重要线索 .语言处理通常是针对不同的主题有不同的数据库和处理方法 .因此 ,如何找到文本中的主题转换点是语言处理中的一个重要内容 .该技术在语言理解、文本自动索引以及语言模型的建立等方面... 自然语言的主题转换是自然语言理解的一个重要线索 .语言处理通常是针对不同的主题有不同的数据库和处理方法 .因此 ,如何找到文本中的主题转换点是语言处理中的一个重要内容 .该技术在语言理解、文本自动索引以及语言模型的建立等方面都有重要意义 .该文以文本主题转换时的词汇突变为表征 ,提出和定义了反映词汇突变的 4个参数 ,将这 4个参数作为输入 ,利用 BP网作为判决工具 ,建立了一个在不同尺度下文本词汇变化的层次结构模型 ,实现了一种精确的文本主题转换点的定位方法 ,其定位精度在一个句子左右 . 展开更多
关键词 自然语言处理 文本切分 BP算法 主题转换
下载PDF
关于书面汉语中词链问题的分析和处理
7
作者 黄祥喜 《情报科学》 1988年第5期28-35,共8页
本文给出了词链的形式定义,分析了词链产生的原因,对词链的可切分性作了系统研究。
关键词 自动分词 汉字串 语言文本 文本切分 分解 分词法 成词 汉语语言理解 词典 书面汉语
下载PDF
特定领域中语义校对系统的开发
8
作者 郑逢斌 夏保胜 +1 位作者 姜保庆 乔保军 《西南交通大学学报》 EI CSCD 北大核心 2003年第2期231-234,共4页
介绍应用于报刊书籍政治性错误校对的一个语义校对软件系统的设计原理和实现过程.本系统先把文本切分成词语,找出敏感词,合并成术语,部分术语通过短语本身或左右片段即可做出正误判断;另一部分术语则用整个句子语义与知识库进行模糊匹... 介绍应用于报刊书籍政治性错误校对的一个语义校对软件系统的设计原理和实现过程.本系统先把文本切分成词语,找出敏感词,合并成术语,部分术语通过短语本身或左右片段即可做出正误判断;另一部分术语则用整个句子语义与知识库进行模糊匹配得到它的错误隶属度. 展开更多
关键词 语义校对软件系统 系统设计 敏感词 术语 文本切分 语法错误 语义错误
下载PDF
关于汉语语言处理的若干理论思考
9
作者 王建琦 《华中师范大学学报(人文社会科学版)》 CSSCI 北大核心 2003年第3期103-107,共5页
汉语语法检查是汉语语言处理发展中的瓶颈,涉及汉语语言处理的各个方面,与汉字拼写检查、文本切分、词性标注、汉字输入、汉字编码等问题紧密相联。语义理解是语法检查及自然语言处理的制高点。新的发展趋势是研究者越来越注重语义在语... 汉语语法检查是汉语语言处理发展中的瓶颈,涉及汉语语言处理的各个方面,与汉字拼写检查、文本切分、词性标注、汉字输入、汉字编码等问题紧密相联。语义理解是语法检查及自然语言处理的制高点。新的发展趋势是研究者越来越注重语义在语言结构和语言表达上的制约作用,试图用统计大规模语料为手段来攻克难关。这种发展趋势对自然语言处理的冲击不在于研究命题的转移,而在于研究方法和论证手段的量化。在汉语的各种制约关系中,可能有一种超越已知句法语义关系的认知心理语法,它与特定历史时期内人们对物质世界和客观社会文化关系的理解相一致,有可能是自然语言处理的最后一个堡垒。 展开更多
关键词 汉语语言处理 语义 句法 语法检查 文本切分 计算机处理汉语
下载PDF
结合文字核心区域和扩展生长的藏文古籍文本行切分 被引量:2
10
作者 李金成 王筱娟 +2 位作者 王维兰 林强 胡鹏飞 《激光与光电子学进展》 CSCD 北大核心 2021年第2期105-115,共11页
藏文古籍文档图像中相邻文本行之间通常存在黏连和重叠的情况,这使得文本行切分成为一项艰巨的任务。因此,提出了一种结合文字核心区域和扩展生长的藏文古籍文档图像的行切分方法。首先,根据二值藏文古籍文档图像中连通域的面积和真圆... 藏文古籍文档图像中相邻文本行之间通常存在黏连和重叠的情况,这使得文本行切分成为一项艰巨的任务。因此,提出了一种结合文字核心区域和扩展生长的藏文古籍文档图像的行切分方法。首先,根据二值藏文古籍文档图像中连通域的面积和真圆度去除非音节点,获得音节点图像。其次,通过水平投影音节点图像和垂直投影二值原图,得到文本行基线所处的范围和文本行数,生成文字核心区域;通过像素值的或运算将文字核心区域和二值原图结合,得到伪文本连通区域。最后,基于广度优先搜索算法将文字核心区域扩展为伪文本连通区域,获得伪文本行连通区域,通过去掉其中的非文字区域来获得伪文本行,利用有效的断裂笔画行归属方法获得最终的文本行。实验结果表明,所提方法取得了较好的文本行切分结果,有效解决了文本行之间的重叠、部分行黏连以及笔画断裂等藏文古籍文本行切分的问题。 展开更多
关键词 图像处理 藏文古籍文档图像 文本切分 文字核心区域 扩展生长
原文传递
基于多重规则和路径评价的在线中英文手写识别方法 被引量:1
11
作者 付鹏斌 刘鹏辉 +1 位作者 杨惠荣 董澳静 《计算机工程》 CAS CSCD 北大核心 2022年第3期253-262,共10页
手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重... 手写文本识别方法主要应用于文本输入技术,对人机交互领域的发展起关键作用。针对多数在线输入法无法识别中英文混合手写识别的问题,提出一种在线中英文混合手写文本识别方法。通过对文本笔画进行基于水平相对位置、垂直重叠率、面积重叠率规则的整合以及连笔切分,得到一系列字符片段,同时利用笔画个数、宽高比、中心偏离、平滑度等几何特征和识别置信度,对字符片段进行中英文分类。在此基础上,根据分类结果并结合自然语言模型的路径评价及动态规划搜索算法,分别对候选的中、英文字符片段进行合并处理,得到待识别的中、英文字符序列,并将其分别送入卷积神经网络的中、英文识别模型中,得到手写文本识别结果。实验结果表明,在线手写中英文混合文本识别正确率达93.67%,不仅能切分在线手写中文文本行,而且对包含字符连笔的在线手写中英文文本行也有较好的切分效果。 展开更多
关键词 在线手写识别 中英文混合手写 中英文分类 文本切分 路径评价
下载PDF
面向临床决策的电子病历文本潜在语义分析 被引量:6
12
作者 李国垒 陈先来 +1 位作者 夏冬 杨荣 《现代图书情报技术》 CSSCI 2016年第3期50-57,共8页
【目的】通过对电子病历中重要文本进行语义分析,提取辅助临床治疗方案选择的决策知识,实现电子病历的临床决策支持功能。【方法】使用词典和统计相结合的分词算法,对训练样本中出院记录文本进行分词处理,从中提取临床术语及治疗方案,... 【目的】通过对电子病历中重要文本进行语义分析,提取辅助临床治疗方案选择的决策知识,实现电子病历的临床决策支持功能。【方法】使用词典和统计相结合的分词算法,对训练样本中出院记录文本进行分词处理,从中提取临床术语及治疗方案,并对其进行潜在语义分析,找出临床术语与治疗方案之间的潜在语义联系,建立胃癌治疗方案辅助选择的潜在语义模型。【结果】利用测试样本对语义模型进行测试,在三维语义空间内,发现1 000份测试样本中有605份可以从临床症状的描述准确地推算出其所对应的治疗方案,正确率为60.5%。【局限】仅以出院记录文本为研究对象,没有对其他病历文本进行分词处理。【结论】潜在语义分析方法能够有效地处理临床文本,辅助医生的临床决策,对于电子病历的开发应用具有重要意义。 展开更多
关键词 电子病历 中文文本切分 潜在语义分析 胃癌 临床决策支持 治疗方案选择
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部