-
题名基于BERT和多特征融合嵌入的中文拼写检查
被引量:1
- 1
-
-
作者
刘哲
殷成凤
李天瑞
-
机构
西南交通大学计算机与人工智能学院
综合交通大数据应用技术国家工程实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第3期282-290,共9页
-
基金
国家自然科学基金(61773324)
四川省重点研发项目(2020YFG0035)
中央高校基本科研业务费专项资金(2682021ZTPY097)。
-
文摘
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。
-
关键词
中文拼写检查
BERT
文本校对
掩码语言模型
字词错误校对
预训练模型
-
Keywords
Chinese spelling check
BERT
text proofreading
Masked language model
Word error proofreading
Pre-training model
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于文本挖掘的倒闸操作票智能校核方法及应用
- 2
-
-
作者
关振坚
唐涛涛
刘志欣
吕叶卿
陈月辉
-
机构
广东电网有限责任公司中山供电局
-
出处
《电工技术》
2023年第18期138-140,143,共4页
-
文摘
倒闸操作票的准确性直接影响电力设备与人身安全,现有的出票方法和出票软件存在四大问题,导致操作票出错的情况时有发生。为了解决这些问题,利用操作票规律性强、句式固定、词汇单一等特点,提出了基于文本挖掘的操作票智能校核方法,运用汉语分词与正则表达式技术挖掘历史操作票文本,自动生成校核用的知识库与数据库,进而实现操作票的智能校核。最后,在中山市某变电站的应用实践证明了该方法的有效性和可靠性。
-
关键词
倒闸操作票
智能校核
文本挖掘
汉语分词
正则表达式
-
Keywords
switching operation ticket
intelligent checking
text mining
Chinese word segmentation
regular expression
-
分类号
TM732
[电气工程—电力系统及自动化]
-
-
题名同机添加打印文件检验研究
- 3
-
-
作者
王缘圆
龙泽桐
陆昭君
赖昌龙
马宁舸
-
机构
南京森林警察学院
-
出处
《科学技术创新》
2023年第1期58-61,共4页
-
基金
2021年江苏省大学生实践创新训练项目(202112213032Z)
江苏省大学生创新课题《同机添加打印文件检验研究》阶段性成果。
-
文摘
针对文件打印领域添加打印等操作影响文件真实性的现象,通过实验研究、分析,从墨迹墨点分布、墨粉形态特征,印文特征等角度出发,探索检验同机添加打印的方法,为同机打印文件的检验提供参考。
-
关键词
同机添加打印
文件检验
打印
-
Keywords
text printing with a same printer
document check
print
-
分类号
D918.92
[政治法律—法学]
-
-
题名中文文本自动校对
被引量:23
- 4
-
-
作者
张磊
周明
黄昌宁
潘海华
-
机构
清华大学计算机科学与技术系
微软中国研究院
香港城市大学中文
-
出处
《语言文字应用》
CSSCI
北大核心
2001年第1期19-26,共8页
-
基金
国家教委博士点基金
香港"大学拨款委员会"(ROC)的部分资助!项目号是 # 90 4 0 32 9
-
文摘
本文详细介绍了中文文本自动校对的研究现状 ,包括文本中错误的分类 ,中文自动校对中常用的语言模型 ,以及一些有代表性的工作。作为参考 ,本文还介绍了英文拼写检查的方法 ,比较了中英文自动校对的异同并重点介绍了其中对中文自动校对有参考价值的几种基于特征的方法。
-
关键词
中文文本自动校对
拼写检查
自然语言处理
-
Keywords
automatic detection and correction of typed errors in Chinese text,spelling check, natural language processing
-
分类号
H086.6
[语言文字—语言学]
-
-
题名基于词性预测的中文文本自动查错研究
被引量:4
- 5
-
-
作者
王虹
张仰森
-
机构
贵州大学计算中心
山西大学计算机科学系
-
出处
《贵州师范大学学报(自然科学版)》
CAS
2001年第2期72-75,共4页
-
文摘
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,使用词性间关系进行查错 ,主要依据词性二元同现概率、互信息、词性
-
关键词
中文文本自动查错
互信息
MARKOV模型
词性预测
同现概率
语料库
-
Keywords
Chinese text automatic checking, mutual information, Markov model
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名情感语料库的构建和分析
被引量:110
- 6
-
-
作者
徐琳宏
林鸿飞
赵晶
-
机构
大连理工大学计算机科学与工程系
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期116-122,共7页
-
基金
国家自然科学基金资助项目(60373095
60673039)
+1 种基金
国家863高科技计划资助项目(2006AA01Z151)
教育部留学回国人员科研启动基金资助项目
-
文摘
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
-
关键词
计算机应用
中文信息处理
情感语料库
文本编码规范
一致性检查
情感迁移
-
Keywords
computer application
Chinese information processing
emotional corpus~ text coding initiative
consistency checking
emotional transference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文文本自动校对技术现状及展望
被引量:14
- 7
-
-
作者
张仰森
丁冰青
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
1998年第3期50-56,共7页
-
文摘
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
-
关键词
中文文本
自动校对
自动查错
确认纠错
展望
-
Keywords
Chinese text automatic proofread Automatic checking Confirmative correction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多类别特征信息融合的车牌检测
被引量:2
- 8
-
-
作者
张勇
宁蒙
牛常勇
-
机构
郑州大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2015年第1期250-253,共4页
-
基金
国家自然科学基金项目(60901078)
郑州市科技领军人才基金项目(10LJRC189)
-
文摘
自然场景下复杂多变的影响因素给车牌检测带来困难,为检测并定位自然场景下移动车辆的车牌区域,通过分析信息融合和多类特征提取的特点,提出基于多类别特征信息融合的车牌检测方法。该算法在两种不同场景数据集上的测试效果验证了信息融合和多类特征提取能显著提高车牌检测的检测率和场景鲁棒性。
-
关键词
车牌检测
信息融合
卷积神经网络
颜色检测
文本验证
-
Keywords
license plate detectiom information fusion
CNN
color checking
text verification
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于位置的社交网络用户签到及相关行为研究
被引量:20
- 9
-
-
作者
李敏
王晓聪
张军
刘正捷
-
机构
大连海事大学信息科学技术学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期72-76,共5页
-
基金
国家自然科学基金(61173035)
中央高校基本科研业务费专项资金(3132013041)资助
-
文摘
Web2.0时代,空间定位技术不断成熟,使得基于位置的社交网络(LBSN)快速发展。LBSN用户的典型行为是签到以及针对签到地进行评论等。探索用户签到及相关行为的规律及背后动机,可以更好地了解用户的需求,发现系统设计与用户需求的不匹配之处,这对LBSN类应用的设计和开发具有一定的指导意义。利用在线数据抓取工具GooSeeker抽样国内典型的LBSN嘀咕网的用户数据。通过对获取的数据进行处理、分析,获知用户签到行为特点。同时关注用户发布的签到地评论的内容,并且使用分类工具SVMCLS将用户对麦当劳的评论划分为不同的倾向级别,从而得到用户对麦当劳的主观情感倾向性。结果发现嘀咕网用户签到的时间和地点存在规律性特征。用户趋向于在签到地做出正面的评论,并且评论的内容比较简短。这些发现有助于LBSN类系统设计和开发人员更好地了解用户,获知用户的需求,最终完善自己的设计,为用户提供更好的应用服务。
-
关键词
基于位置的社交网络
签到行为
评论
文本分析
-
Keywords
Location-based social network, check-in behavior, Comment, text analysis
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于matlab的文本处理系统的设计与实现
被引量:1
- 10
-
-
作者
费扬
杜庆治
-
机构
昆明理工大学信息工程与自动化学院
-
出处
《软件》
2017年第8期226-229,共4页
-
基金
云南省科技厅资助项目(2014RA051)
-
文摘
为了进行关键词的文本查重和文本检索,设计出基于matlab的文本处理系统。首先,研究文本处理系统的相关原理及技术;其次,设计系统的总体框架,细化功能;最后,采用matlab语言来设计系统,利用多个TXT文本构建语料数据库,设计出基于matlab的文本处理系统应用程序。测试表明:该系统能有效地实现文本查重和文本检索。
-
关键词
MATLAB
文本处理
文本查重
文本检索
TF-IDF
-
Keywords
MATLAB
text processing
text check
text Retrieval
Term frequency-inverse document frequency
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词二元接续的中文文本自动查错研究
被引量:3
- 11
-
-
作者
王虹
张仰森
-
机构
贵州大学计算中心
山西大学计算机科学系
-
出处
《贵州大学学报(自然科学版)》
2001年第1期16-21,共6页
-
文摘
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 .
-
关键词
中文文本自动查错
二元接续关系
互信息
t-测试差
MARKOV模型
二元同现概率
-
Keywords
Chinese text automatic checking, neighborship, mutual information, the difference of t-test, Markov model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于音位的网络盗版文本查重方法
- 12
-
-
作者
金哲凡
俞定国
林生佑
周忠成
-
机构
浙江传媒学院
-
出处
《山东农业大学学报(自然科学版)》
CSCD
2017年第3期467-471,共5页
-
基金
浙江省公益技术应用研究项目(2016C33196)
浙江省公益性技术应用研究项目(2017C33105)
-
文摘
传统的文本查重算法是对文本作分词以构建关键词向量,而对于某些特殊应用的网络盗版检测,分词的开销则未必合理和必要。因此,本文提出一种基于汉语音位信息的文本查重方法。文本被表达为声、韵、调三个空间向量,以余弦距离作相似性度量。提出两种相似性判断公式,一种假定三向量独立分布;一种取其线性组合,系数可由音位元素的信息熵算出,通过大文本统计得出信息熵的估计值,以传统的关键词向量/Sim Hash方法做参照产生语料,对其作统计得到模型参数。实验结果表明该方法有一定的精确率和很好的召回率,计算开销低于传统的方法,适合需要过滤大量TN类型文本的场合。
-
关键词
音位
盗版文本
查重
-
Keywords
Phonology
piratical text
checking repetition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名双文本查错定步长回溯比较算法的研究
- 13
-
-
作者
张勇
杨明
王开铸
韩睿
-
机构
哈尔滨工业大学仿真中心
齐齐哈尔第二机床厂计划处
-
出处
《情报学报》
CSSCI
北大核心
1997年第4期253-258,共6页
-
文摘
本文采用二模冗余技术,对系统产生的双文本进行冗余比较实现查错,提出了定步长回溯比较算法,给出算法描述。
-
关键词
双文本查错
分组比较
二模冗余
校对
-
Keywords
double Chinese character text checking,group comparison,double model redundant,A algorithm.
-
分类号
G232.2
[文化科学]
-
-
题名基于规则与统计相结合的藏文文本自动查错方法研究
被引量:2
- 14
-
-
作者
完么扎西
尼玛扎西
-
机构
青海师范大学民族师范学院
西藏大学信息科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第2期69-75,共7页
-
基金
国家社会科学基金(19XYY021)。
-
文摘
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法。首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错。实验测试集由100篇新闻类语料构成,共包含49处错误。实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%。
-
关键词
藏文文本自动查错
非字错误
真字词错误
-
Keywords
Tibetan text automatic error checking
non word error
real word error
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名科技项目查重研究现状与发展对策
被引量:3
- 15
-
-
作者
刘如
秦潇
董晓晴
吴琼
-
机构
北京市科学技术情报研究所
-
出处
《天津科技》
2017年第2期21-24,共4页
-
文摘
大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段。建议建立融合国内外科技项目的大型数据库,并重点研究基于深度学习技术的项目查重方法。在大数据时代的思维模式下,以监理大型科技项目库为基础,对科技项目进行智能查重服务是未来科技项目查重研究发展的必然趋势。
-
关键词
科技项目查重
文本相似度
深度学习
-
Keywords
duplicate checking for science project
text similarity
deep learning
-
分类号
G350
[文化科学—情报学]
-
-
题名综合地质空间数据管理及其组件开发
- 16
-
-
作者
刘文玉
任佳
毛先成
吴德华
-
机构
中南大学地学与环境工程学院
湖南铁路科技职业技术学院
-
出处
《有色金属(矿山部分)》
2009年第6期68-71,共4页
-
文摘
针对地质数据种类繁多、数量庞大、数据格式复杂等特点,将这些数据从表现形式上抽象为图件、文档、表格、报告以及分类五种类型。通过转换将文档和表格类型数据以BLOB格式或文件索引格式导入到Oracle数据库中;通过预处理将矢量数据以及遥感影像等栅格数据与综合地质数据库关联。并设计和开发了综合地质空间数据管理组件GeodbSM,实现了对地质空间数据的管理、查看以及信息查询等功能。
-
关键词
地质空间数据
属性数据
管理组件
信息查询
图文互查
-
Keywords
geological spatial data
attribute data
management component
information query
graph-text inter-checking
-
分类号
TD679
[矿业工程—矿山机电]
-
-
题名基于文本特征的信息隐藏策略
被引量:1
- 17
-
-
作者
杨棉绒
-
机构
新乡学院计算机与信息工程学院
-
出处
《新乡学院学报》
2011年第4期339-340,共2页
-
文摘
信息隐藏技术在如今信息战争与商业机密传递中占据了越来越重要的地位,而文本信息由于其冗余较少、便于传播、易于校验等特点是目前电子信息传播的主要手段。利用字处理软件书写文本时可对文本信息设置各种文本格式这一特点,提出了一种利用文本特征进行信息隐藏的嵌入和提取策略。
-
关键词
信息隐藏
文本特征
信息校验
文本格式
隐蔽性
-
Keywords
Information hiding
text features
information check
text format
hidden
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Metaphone语音匹配算法及其应用研究
被引量:2
- 18
-
-
作者
马立东
-
机构
广东外语外贸大学词典学研究中心
-
出处
《计算机时代》
2010年第10期39-43,46,共6页
-
基金
国家社科基金项目(09BYY034)
-
文摘
综述了Metaphone语音匹配算法;与Soundex算法的编码结果相比较,指出了Metaphone算法的优缺点。对一段实现Metaphone算法的Delphi源代码进行了分析,并修正了其中的漏洞。用典型实例说明Metaphone适用于检查及校正和语音相关的拼写错误。介绍了Metaphone的两大应用领域,并指出了Metaphone在文本清理等领域的潜在用途。
-
关键词
Metaphone
语音编码
语音匹配
拼写检查
文本清理
-
Keywords
Metaphone
phonetic encoding
phonetic matching
spell checking
text cleaning
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名全文种字处理问题
- 19
-
-
作者
林毓材
-
机构
云南师范大学数学系
-
出处
《云南师范大学学报(自然科学版)》
1996年第4期1-9,共9页
-
基金
云南省应用基础研究基金
-
文摘
全文种字处理是指在同一文本文件中同时对任意有限多个文种进行处理。这种同时需要对任意有限多个文种进行处理的情形,常在涉外事务、民族事务、图书资料检索等场合遇到。本文讨论全文种字处理中的一些基本问题,包括文种与文种编码、输入方式、输入法模式、文本比较、文本校对等。讨论中所给出的设计、方法和技术,大部分已在全文种字处理系统GWP中实现。
-
关键词
文种编码
输入方式
文本比较
全文种字处理
-
Keywords
language alphabet character coding input method input coding text comparison text check
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名学术不端文献检测系统的检测盲区研究
被引量:6
- 20
-
-
作者
李永莲
-
机构
广东轻工职业技术学院学报编辑部
-
出处
《青岛职业技术学院学报》
2014年第5期78-80,86,共4页
-
基金
广东轻工职业技术学院教学改革项目(JG201345)
广东轻工职业技术学院社科项目(SK201303)
-
文摘
学术不端文献检测系统是世界反学术不端行为的一把利器。但是系统的智能程度不高,经常会出现检测盲区,因此期刊编辑不能简单、机械地依据文字复制比的高低来判断来稿能否通过初审,而应根据系统的检测结果,发挥主观能动性,并借助多种手段来作判断,保证期刊的学术质量和学术水平。
-
关键词
学术不端文献检测系统
文字复制比
编辑
检测盲区
-
Keywords
academic misconduct literature check system
copy text ratio
editor
non-detection zone
-
分类号
G237.5
[文化科学]
-