-
题名基于规则与统计相结合的中文文本自动查错模型与算法
被引量:34
- 1
-
-
作者
张仰森
曹元大
俞士汶
-
机构
北京大学计算语言学研究所
北京理工大学计算机科学工程系
北京信息科技大学计算机及自动化系
-
出处
《中文信息学报》
CSCD
北大核心
2006年第4期1-7,55,共8页
-
基金
国家973项目资助(2004CB318102)
国家863计划资助(2001AA114210
+1 种基金
2002AA117010)
中国博士后基金项目资助(2005038026)
-
文摘
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。
-
关键词
计算机应用
中文信息处理
中文文本自动查错
规则与统计相结合
非多字词错误
真多字词错误
-
Keywords
Computer application
Chinese information processing
Chinese text automatic error-detecting
Combing rule-based and statistics-based approaches
non-multi-character word error
real-multi-character word error
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于二元接续关系检查的字词级自动查错方法
被引量:29
- 2
-
-
作者
张仰森
丁冰青
-
机构
山西大学计算机科学系
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2001年第3期36-43,共8页
-
基金
山西省自然科学基金!(9810 31)
-
文摘
本文探讨了基于字字同现、词性二元接续和语义二元接续的中文文本的自动查错原理和查错算法 ;给出了字词接续判断模型 ,并讨论了与接续判断模型相关的查错知识库的构造方法。通过对实验结果的分析和评测 ,证明本文所述方法是可行的。
-
关键词
中文文本自动校对
自动查错
二元接续关系
-
Keywords
Chinese text automatic proofread
automatic error detecting
bi neighborship
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词性预测的中文文本自动查错研究
被引量:4
- 3
-
-
作者
王虹
张仰森
-
机构
贵州大学计算中心
山西大学计算机科学系
-
出处
《贵州师范大学学报(自然科学版)》
CAS
2001年第2期72-75,共4页
-
文摘
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,使用词性间关系进行查错 ,主要依据词性二元同现概率、互信息、词性
-
关键词
中文文本自动查错
互信息
MARKOV模型
词性预测
同现概率
语料库
-
Keywords
Chinese text automatic checking, mutual information, Markov model
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词二元接续的中文文本自动查错研究
被引量:3
- 4
-
-
作者
王虹
张仰森
-
机构
贵州大学计算中心
山西大学计算机科学系
-
出处
《贵州大学学报(自然科学版)》
2001年第1期16-21,共6页
-
文摘
运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 .
-
关键词
中文文本自动查错
二元接续关系
互信息
t-测试差
MARKOV模型
二元同现概率
-
Keywords
Chinese text automatic checking, neighborship, mutual information, the difference of t-test, Markov model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于规则与统计相结合的藏文文本自动查错方法研究
被引量:2
- 5
-
-
作者
完么扎西
尼玛扎西
-
机构
青海师范大学民族师范学院
西藏大学信息科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第2期69-75,共7页
-
基金
国家社会科学基金(19XYY021)。
-
文摘
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法。首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错。实验测试集由100篇新闻类语料构成,共包含49处错误。实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%。
-
关键词
藏文文本自动查错
非字错误
真字词错误
-
Keywords
Tibetan text automatic error checking
non word error
real word error
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名PMS2.0记录自动查错系统的研究
- 6
-
-
作者
邹灿
杨勇
刘青川
邹诗文
-
机构
重庆市电力公司检修分公司
-
出处
《科技经济市场》
2017年第10期12-14,共3页
-
文摘
国家电网公司已经全面进入PMS2.0系统时代,要求变电站所有巡视维护、工作票、操作票等工作记录都要按时、按标准录入PMS2.0系统,录入数据工作量大,种类繁多。由于运维人员专业水平不同,难免出现错录、漏录、录入不规范等种种问题记录的出现,差错率较高。为此,本文研究一种PMS2.0记录自动查错系统,对变电站巡视维护、工作票、操作票等工作记录定时自动查错、筛选问题记录,自动生成问题报表,及时改正,确保PMS记录达到国家电网公司的精益化要求。
-
关键词
PMS2.0系统
差错率较高
自动查错系统
精益化要求
-
分类号
TM63
[电气工程—电力系统及自动化]
-
-
题名中文文本自动校对技术现状及展望
被引量:14
- 7
-
-
作者
张仰森
丁冰青
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
1998年第3期50-56,共7页
-
文摘
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
-
关键词
中文文本
自动校对
自动查错
确认纠错
展望
-
Keywords
Chinese text automatic proofread Automatic checking Confirmative correction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名计算机及软件
- 8
-
-
-
出处
《中国高校科技》
1998年第8期19-21,共3页
-
文摘
《工智校对通》是一个自然语言处理的应用系统,用于计算机辅助汉语文章校对,适用于新闻、出版、机关企事业办公、数据中心等各部门和个人写作者。 它可对已输入计算机的汉语文章自动查错,将怀疑有错的地方标示出来,提供修改建议和修改手段,方便用户修改;能自动识别中西人名地名,在屏幕上标示出来。
-
关键词
计算机及软件
自然语言处理
计算机辅助
汉语文章
修改建议
自动识别
数据中心
剩余电量
不停车收费系统
自动查错
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名基于大数据分析的基站工作参数查错方法
- 9
-
-
作者
余海波
伊婷
-
机构
中国电信股份有限公司广西分公司
-
出处
《广西通信技术》
2020年第1期28-31,共4页
-
文摘
基站的工作参数(以下简称工参)是无线网络优化的基础。但是现网中存在一些基站天馈接反、站址经纬度错误、小区方位角偏差等工参错误现象。为了纠正这些错误,提出了一种应用大数据分析方法,将测量报告(Measure Report,MR)大数据进行多维度分析,利用采样点信号强度、采样点经纬度等数据信息建立权重算法与查错模型,可以精确地发现基站工参的错误,为无线网络的优化提供准确信息,从而提高纠错的工作效率。
-
关键词
无线网络优化
基站工参
测量报告
大数据
自动查错
-
分类号
TN929.5
[电子电信—通信与信息系统]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-