基于词条组合的军事类文本分词方法被引量：2

Word Segmentation Approach in Military Text on the Basis of Word Combination

下载PDF

导出

摘要针对传统的分词方法切分军事类文本存在未登录词多和部分词条特征信息不完整的问题,提出把整个分词过程分解为若干子过程,以词串为分词单位对军事类文本进行分词。首先基于词典对文本进行双向扫描,标识歧义切分字段,对切分结果一致的字段进行停用词消除,计算第一次分词得到的词条间的互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串并标识,最后提取所标识的歧义字段和词串由人工对其进行审核处理。实验结果表明,词条组合后的词串的特征信息更丰富,分词效果更好。 Since the unknown word in military texts is excessive,and the feature of some words is incomplete,the word segmentation method which is based on lexical chunk as the unit was provided, word segmentation was divided into some sections： bidirectional scanning in the text in the base of dictionary,marking the various and segment the words; deleting the stoic〉words which share the same segmentation results, then count words mutual information and adjacency frequency by the first time＇s word segmentation, according to this counting result, the lexical chunk with relevant words can be judged and signed. At last, picked up the signed various segment and lexical chunks to audit and deal with them artificially. The experimentation shows that after the word combination, the lexical chunk bears much more feature in- formation which shares a better effect of the process.

作者黄魏高兵刘异杨克巍

机构地区国防科学技术大学信息系统与管理学院湖南师范大学文学院

出处《计算机科学》 CSCD 北大核心 2010年第2期171-174,共4页 Computer Science

基金 "十一五"武器装备预先研究项目(513300102)资助

关键词军事文本分词词条 Military,Text,Word segmentation,Words

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
2许高建,胡学钢,王庆人.文本挖掘中的中文分词算法研究及实现[J].计算机技术与发展,2007,17(12):122-124. 被引量：14
3张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
4姜文志,范洪达,聂心东,蒋伟俊.作战命令的分词技术研究[J].海军航空工程学院学报,2008,23(1):52-54. 被引量：2
5马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(4):134-135. 被引量：39
6姜文志,蒋伟俊,张金乙,王迪.军用词典库的设计[J].兵工自动化,2007,26(8):50-51. 被引量：2
7曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
8孙铁利,李晓微,张妍.信息过滤中的中文自动分词技术研究[J].计算机工程与科学,2009,31(3):80-82. 被引量：7

二级参考文献52

1孙宏纲,姚景顺,闫国玉.基于自然语言理解的军事自动标图系统[J].火力与指挥控制,2005,30(S1):27-29. 被引量：7
2曾亮 ,许诚 ,刘茨坪 .航路规划决策支持系统[J].海军航空工程学院学报,2004,19(2):273-276. 被引量：1
3张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
4张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
7邓宏涛.中文自动分词系统的设计模型[J].计算机与数字工程,2005,33(4):138-140. 被引量：13
8陈东明,常桂然.基于分段编码自动生成产品结构树的研究[J].计算机集成制造系统,2005,11(7):1014-1018. 被引量：5
9刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
10蔡勇智.未登录词识别算法的改进[J].福建电脑,2006,22(3):116-117. 被引量：4

共引文献100

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
4唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
5翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
6孙铁利,王圆.一个基于人工神经网络的Web文本过滤系统[J].计算机时代,2006(6):9-11.
7翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
8隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
9张利,张立勇,张晓淼,耿铁锁,岳宗阁.基于改进BP网络的中文歧义字段分词方法研究[J].大连理工大学学报,2007,47(1):131-135. 被引量：12
10化柏林,赵亮.知识抽取中的嵌套向量分词技术[J].现代图书情报技术,2007(7):50-53. 被引量：5

同被引文献12

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
3曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
4张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45. 被引量：12
5刘兵.Web数据挖掘[M]北京:清华大学出版社,200912-44.
6吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉.维、哈、柯全文搜索引擎中查询处理研究与实现[A]第四届全国信息检索与内容安全学术会议,2008217-223.
7丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
8张磊,张代远.中文分词算法解析[J].电脑知识与技术,2009,5(1):192-193. 被引量：15
9孟春艳.用于文本分类和文本聚类的特征抽取方法的研究[J].微计算机信息,2009,25(9):149-150. 被引量：12
10黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6

引证文献2

1桑书娟,王庆喜.一种结合正向最大匹配法和互信息的中文分词算法[J].计算机光盘软件与应用,2012,15(7):30-30.
2吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.基于互信息的维吾尔文自适应组词算法[J].计算机应用研究,2013,30(2):429-431. 被引量：6

二级引证文献6

1阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
2伊尔夏提.吐尔贡,吾守尔.斯拉木,热西旦木.吐尔洪太.基于有监督分词方法的维吾尔文情感分析[J].计算机工程与设计,2017,38(11):3143-3146. 被引量：3
3覃俊,林叶川,易云飞.基于互信息改进算法和t-测试差的壮文分词算法研究[J].中南民族大学学报（自然科学版）,2017,36(4):100-105.
4依不拉音.吾斯曼,张绍武,于凯.互联网上的维语多文转换机制的设计与实现[J].计算机工程与应用,2018,54(19):114-121. 被引量：1
5李成华,孙雅婧,张世娟,艾提日也古丽·艾尼瓦尔.基于CRF模型的维吾尔语分词研究[J].中南民族大学学报（自然科学版）,2019,38(4):596-604.
6依不拉音·吾斯曼,郭文强,于凯.面向多形式维文的敏感信息过滤算法研究[J].计算机工程与应用,2020,56(10):127-133. 被引量：3

1黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
2陈顺强.彝文自动分词技术研究[J].中文信息学报,2011,25(3):123-128. 被引量：3
3黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
4周红庆,吴扬扬.中文客户评论对象特征的抽取与聚类方法[J].微型机与应用,2014,33(17):72-75. 被引量：2
5瑞星云安全:祖国60华诞临近黑客攻击军事类网站[J].计算机与网络,2009,35(18):40-40.
6孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
7苏红旗,聂金慧,曾志.基于特征聚类的网络评论信息挖掘研究[J].信息网络安全,2013(12):51-54. 被引量：1
8军事类网站[J].电脑时空,2012(4):108-108.
9江悦,王润生,王程.采用上下文金字塔特征的场景分类[J].计算机辅助设计与图形学学报,2010,22(8):1366-1373. 被引量：14
10张明军,张国亮,解诗军,奚燕.基于LabVIEW与PLC的泵组试验台[J].工业控制计算机,2013,26(3):21-22. 被引量：1

计算机科学

2010年第2期

浏览历史

内容加载中请稍等...

基于词条组合的军事类文本分词方法被引量：2

参考文献8

二级参考文献52

共引文献100

同被引文献12

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词条组合的军事类文本分词方法 被引量：2

参考文献8

二级参考文献52

共引文献100

同被引文献12

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于词条组合的军事类文本分词方法被引量：2