期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
基于BERT和多特征融合嵌入的中文拼写检查 被引量:1
1
作者 刘哲 殷成凤 李天瑞 《计算机科学》 CSCD 北大核心 2023年第3期282-290,共9页
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符... 由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。 展开更多
关键词 中文拼写检查 BERT 文本校对 掩码语言模型 字词错误校对 预训练模型
下载PDF
基于文本挖掘的倒闸操作票智能校核方法及应用
2
作者 关振坚 唐涛涛 +2 位作者 刘志欣 吕叶卿 陈月辉 《电工技术》 2023年第18期138-140,143,共4页
倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运... 倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运用汉语分词与正则表达式技术挖掘历史操作票文本,自动生成校核用的知识库与数据库,进而实现操作票的智能校核。最后,在中山市某变电站的应用实践证明了该方法的有效性和可靠性。 展开更多
关键词 倒闸操作票 智能校核 文本挖掘 汉语分词 正则表达式
下载PDF
同机添加打印文件检验研究
3
作者 王缘圆 龙泽桐 +2 位作者 陆昭君 赖昌龙 马宁舸 《科学技术创新》 2023年第1期58-61,共4页
针对文件打印领域添加打印等操作影响文件真实性的现象,通过实验研究、分析,从墨迹墨点分布、墨粉形态特征,印文特征等角度出发,探索检验同机添加打印的方法,为同机打印文件的检验提供参考。
关键词 同机添加打印 文件检验 打印
下载PDF
中文文本自动校对 被引量:23
4
作者 张磊 周明 +1 位作者 黄昌宁 潘海华 《语言文字应用》 CSSCI 北大核心 2001年第1期19-26,共8页
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对... 本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。 展开更多
关键词 中文文本自动校对 拼写检查 自然语言处理
下载PDF
基于词性预测的中文文本自动查错研究 被引量:4
5
作者 王虹 张仰森 《贵州师范大学学报(自然科学版)》 CAS 2001年第2期72-75,共4页
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,使用词性间关系进行查错 ,主要依据词性二元同现概率、互信息、词性
关键词 中文文本自动查错 互信息 MARKOV模型 词性预测 同现概率 语料库
下载PDF
情感语料库的构建和分析 被引量:110
6
作者 徐琳宏 林鸿飞 赵晶 《中文信息学报》 CSCD 北大核心 2008年第1期116-122,共7页
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,... 本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。 展开更多
关键词 计算机应用 中文信息处理 情感语料库 文本编码规范 一致性检查 情感迁移
下载PDF
中文文本自动校对技术现状及展望 被引量:14
7
作者 张仰森 丁冰青 《中文信息学报》 CSCD 北大核心 1998年第3期50-56,共7页
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
关键词 中文文本 自动校对 自动查错 确认纠错 展望
下载PDF
基于多类别特征信息融合的车牌检测 被引量:2
8
作者 张勇 宁蒙 牛常勇 《计算机工程与设计》 北大核心 2015年第1期250-253,共4页
自然场景下复杂多变的影响因素给车牌检测带来困难,为检测并定位自然场景下移动车辆的车牌区域,通过分析信息融合和多类特征提取的特点,提出基于多类别特征信息融合的车牌检测方法。该算法在两种不同场景数据集上的测试效果验证了信息... 自然场景下复杂多变的影响因素给车牌检测带来困难,为检测并定位自然场景下移动车辆的车牌区域,通过分析信息融合和多类特征提取的特点,提出基于多类别特征信息融合的车牌检测方法。该算法在两种不同场景数据集上的测试效果验证了信息融合和多类特征提取能显著提高车牌检测的检测率和场景鲁棒性。 展开更多
关键词 车牌检测 信息融合 卷积神经网络 颜色检测 文本验证
下载PDF
基于位置的社交网络用户签到及相关行为研究 被引量:20
9
作者 李敏 王晓聪 +1 位作者 张军 刘正捷 《计算机科学》 CSCD 北大核心 2013年第10期72-76,共5页
Web2.0时代,空间定位技术不断成熟,使得基于位置的社交网络(LBSN)快速发展。LBSN用户的典型行为是签到以及针对签到地进行评论等。探索用户签到及相关行为的规律及背后动机,可以更好地了解用户的需求,发现系统设计与用户需求的不匹配之... Web2.0时代,空间定位技术不断成熟,使得基于位置的社交网络(LBSN)快速发展。LBSN用户的典型行为是签到以及针对签到地进行评论等。探索用户签到及相关行为的规律及背后动机,可以更好地了解用户的需求,发现系统设计与用户需求的不匹配之处,这对LBSN类应用的设计和开发具有一定的指导意义。利用在线数据抓取工具GooSeeker抽样国内典型的LBSN嘀咕网的用户数据。通过对获取的数据进行处理、分析,获知用户签到行为特点。同时关注用户发布的签到地评论的内容,并且使用分类工具SVMCLS将用户对麦当劳的评论划分为不同的倾向级别,从而得到用户对麦当劳的主观情感倾向性。结果发现嘀咕网用户签到的时间和地点存在规律性特征。用户趋向于在签到地做出正面的评论,并且评论的内容比较简短。这些发现有助于LBSN类系统设计和开发人员更好地了解用户,获知用户的需求,最终完善自己的设计,为用户提供更好的应用服务。 展开更多
关键词 基于位置的社交网络 签到行为 评论 文本分析
下载PDF
基于matlab的文本处理系统的设计与实现 被引量:1
10
作者 费扬 杜庆治 《软件》 2017年第8期226-229,共4页
为了进行关键词的文本查重和文本检索,设计出基于matlab的文本处理系统。首先,研究文本处理系统的相关原理及技术;其次,设计系统的总体框架,细化功能;最后,采用matlab语言来设计系统,利用多个TXT文本构建语料数据库,设计出基于matlab的... 为了进行关键词的文本查重和文本检索,设计出基于matlab的文本处理系统。首先,研究文本处理系统的相关原理及技术;其次,设计系统的总体框架,细化功能;最后,采用matlab语言来设计系统,利用多个TXT文本构建语料数据库,设计出基于matlab的文本处理系统应用程序。测试表明:该系统能有效地实现文本查重和文本检索。 展开更多
关键词 MATLAB 文本处理 文本查重 文本检索 TF-IDF
下载PDF
基于词二元接续的中文文本自动查错研究 被引量:3
11
作者 王虹 张仰森 《贵州大学学报(自然科学版)》 2001年第1期16-21,共6页
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 .
关键词 中文文本自动查错 二元接续关系 互信息 t-测试差 MARKOV模型 二元同现概率
下载PDF
基于音位的网络盗版文本查重方法
12
作者 金哲凡 俞定国 +1 位作者 林生佑 周忠成 《山东农业大学学报(自然科学版)》 CSCD 2017年第3期467-471,共5页
传统的文本查重算法是对文本作分词以构建关键词向量,而对于某些特殊应用的网络盗版检测,分词的开销则未必合理和必要。因此,本文提出一种基于汉语音位信息的文本查重方法。文本被表达为声、韵、调三个空间向量,以余弦距离作相似性度量... 传统的文本查重算法是对文本作分词以构建关键词向量,而对于某些特殊应用的网络盗版检测,分词的开销则未必合理和必要。因此,本文提出一种基于汉语音位信息的文本查重方法。文本被表达为声、韵、调三个空间向量,以余弦距离作相似性度量。提出两种相似性判断公式,一种假定三向量独立分布;一种取其线性组合,系数可由音位元素的信息熵算出,通过大文本统计得出信息熵的估计值,以传统的关键词向量/Sim Hash方法做参照产生语料,对其作统计得到模型参数。实验结果表明该方法有一定的精确率和很好的召回率,计算开销低于传统的方法,适合需要过滤大量TN类型文本的场合。 展开更多
关键词 音位 盗版文本 查重
下载PDF
双文本查错定步长回溯比较算法的研究
13
作者 张勇 杨明 +1 位作者 王开铸 韩睿 《情报学报》 CSSCI 北大核心 1997年第4期253-258,共6页
本文采用二模冗余技术,对系统产生的双文本进行冗余比较实现查错,提出了定步长回溯比较算法,给出算法描述。
关键词 双文本查错 分组比较 二模冗余 校对
下载PDF
基于规则与统计相结合的藏文文本自动查错方法研究 被引量:2
14
作者 完么扎西 尼玛扎西 《中文信息学报》 CSCD 北大核心 2022年第2期69-75,共7页
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法。首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后... 针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法。首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错。实验测试集由100篇新闻类语料构成,共包含49处错误。实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%。 展开更多
关键词 藏文文本自动查错 非字错误 真字词错误
下载PDF
科技项目查重研究现状与发展对策 被引量:3
15
作者 刘如 秦潇 +1 位作者 董晓晴 吴琼 《天津科技》 2017年第2期21-24,共4页
大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段... 大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段。建议建立融合国内外科技项目的大型数据库,并重点研究基于深度学习技术的项目查重方法。在大数据时代的思维模式下,以监理大型科技项目库为基础,对科技项目进行智能查重服务是未来科技项目查重研究发展的必然趋势。 展开更多
关键词 科技项目查重 文本相似度 深度学习
下载PDF
综合地质空间数据管理及其组件开发
16
作者 刘文玉 任佳 +1 位作者 毛先成 吴德华 《有色金属(矿山部分)》 2009年第6期68-71,共4页
针对地质数据种类繁多、数量庞大、数据格式复杂等特点,将这些数据从表现形式上抽象为图件、文档、表格、报告以及分类五种类型。通过转换将文档和表格类型数据以BLOB格式或文件索引格式导入到Oracle数据库中;通过预处理将矢量数据以及... 针对地质数据种类繁多、数量庞大、数据格式复杂等特点,将这些数据从表现形式上抽象为图件、文档、表格、报告以及分类五种类型。通过转换将文档和表格类型数据以BLOB格式或文件索引格式导入到Oracle数据库中;通过预处理将矢量数据以及遥感影像等栅格数据与综合地质数据库关联。并设计和开发了综合地质空间数据管理组件GeodbSM,实现了对地质空间数据的管理、查看以及信息查询等功能。 展开更多
关键词 地质空间数据 属性数据 管理组件 信息查询 图文互查
下载PDF
基于文本特征的信息隐藏策略 被引量:1
17
作者 杨棉绒 《新乡学院学报》 2011年第4期339-340,共2页
信息隐藏技术在如今信息战争与商业机密传递中占据了越来越重要的地位,而文本信息由于其冗余较少、便于传播、易于校验等特点是目前电子信息传播的主要手段。利用字处理软件书写文本时可对文本信息设置各种文本格式这一特点,提出了一种... 信息隐藏技术在如今信息战争与商业机密传递中占据了越来越重要的地位,而文本信息由于其冗余较少、便于传播、易于校验等特点是目前电子信息传播的主要手段。利用字处理软件书写文本时可对文本信息设置各种文本格式这一特点,提出了一种利用文本特征进行信息隐藏的嵌入和提取策略。 展开更多
关键词 信息隐藏 文本特征 信息校验 文本格式 隐蔽性
下载PDF
Metaphone语音匹配算法及其应用研究 被引量:2
18
作者 马立东 《计算机时代》 2010年第10期39-43,46,共6页
综述了Metaphone语音匹配算法;与Soundex算法的编码结果相比较,指出了Metaphone算法的优缺点。对一段实现Metaphone算法的Delphi源代码进行了分析,并修正了其中的漏洞。用典型实例说明Metaphone适用于检查及校正和语音相关的拼写错误。... 综述了Metaphone语音匹配算法;与Soundex算法的编码结果相比较,指出了Metaphone算法的优缺点。对一段实现Metaphone算法的Delphi源代码进行了分析,并修正了其中的漏洞。用典型实例说明Metaphone适用于检查及校正和语音相关的拼写错误。介绍了Metaphone的两大应用领域,并指出了Metaphone在文本清理等领域的潜在用途。 展开更多
关键词 Metaphone 语音编码 语音匹配 拼写检查 文本清理
下载PDF
全文种字处理问题
19
作者 林毓材 《云南师范大学学报(自然科学版)》 1996年第4期1-9,共9页
全文种字处理是指在同一文本文件中同时对任意有限多个文种进行处理。这种同时需要对任意有限多个文种进行处理的情形,常在涉外事务、民族事务、图书资料检索等场合遇到。本文讨论全文种字处理中的一些基本问题,包括文种与文种编码、... 全文种字处理是指在同一文本文件中同时对任意有限多个文种进行处理。这种同时需要对任意有限多个文种进行处理的情形,常在涉外事务、民族事务、图书资料检索等场合遇到。本文讨论全文种字处理中的一些基本问题,包括文种与文种编码、输入方式、输入法模式、文本比较、文本校对等。讨论中所给出的设计、方法和技术,大部分已在全文种字处理系统GWP中实现。 展开更多
关键词 文种编码 输入方式 文本比较 全文种字处理
下载PDF
学术不端文献检测系统的检测盲区研究 被引量:6
20
作者 李永莲 《青岛职业技术学院学报》 2014年第5期78-80,86,共4页
学术不端文献检测系统是世界反学术不端行为的一把利器。但是系统的智能程度不高,经常会出现检测盲区,因此期刊编辑不能简单、机械地依据文字复制比的高低来判断来稿能否通过初审,而应根据系统的检测结果,发挥主观能动性,并借助多种手... 学术不端文献检测系统是世界反学术不端行为的一把利器。但是系统的智能程度不高,经常会出现检测盲区,因此期刊编辑不能简单、机械地依据文字复制比的高低来判断来稿能否通过初审,而应根据系统的检测结果,发挥主观能动性,并借助多种手段来作判断,保证期刊的学术质量和学术水平。 展开更多
关键词 学术不端文献检测系统 文字复制比 编辑 检测盲区
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部