期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
65
篇文章
<
1
2
…
4
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于字符串匹配算法的Word阅卷系统实现
被引量:
2
1
作者
潘夏福
《电脑与信息技术》
2013年第3期29-30,55,共3页
为了解决Word操作题自动阅卷系统通用性和容错性问题,提出了基于字符串匹配算法的Word自动阅卷系统设计方案。系统采用VBA技术构建,并制定了Word操作评分点规则。根据评分点不同,采用字符串匹配算法,解决Word改卷过程当中不能正确确定...
为了解决Word操作题自动阅卷系统通用性和容错性问题,提出了基于字符串匹配算法的Word自动阅卷系统设计方案。系统采用VBA技术构建,并制定了Word操作评分点规则。根据评分点不同,采用字符串匹配算法,解决Word改卷过程当中不能正确确定对象位置的问题。实验证明系统具有很好的改卷容错能力,新的自动阅卷系统方案是有效的。
展开更多
关键词
VBA技术
word
自动阅卷
字符串匹配
下载PDF
职称材料
文本相似度计算方法综述
被引量:
1
2
作者
魏嵬
丁香香
+2 位作者
郭梦星
杨钊
刘辉
《计算机工程》
CAS
CSCD
北大核心
2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进...
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。
展开更多
关键词
文本相似度
字符串
词向量
预训练模型
深度学习
下载PDF
职称材料
基于大规模语料库的新词检测
被引量:
32
3
作者
崔世起
刘群
+2 位作者
孟遥
于浩
西野文人
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期927-932,共6页
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见...
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
展开更多
关键词
新词
垃圾串
垃圾头
垃圾尾
独立词概率
下载PDF
职称材料
中文新词识别技术综述
被引量:
39
4
作者
张海军
史树敏
+1 位作者
朱朝勇
黄河燕
《计算机科学》
CSCD
北大核心
2010年第3期6-10,16,共6页
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词...
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
展开更多
关键词
新词识别
未登录词
候选字串
训练语料
词性猜测
下载PDF
职称材料
改进的Sunday模式匹配算法
被引量:
13
5
作者
万晓榆
杨波
樊自甫
《计算机工程》
CAS
CSCD
北大核心
2009年第7期125-126,129,共3页
在基于模式匹配的检测方法中,匹配效率是检测技术的瓶颈,间接影响入侵检测系统的实时性能。该文对4种模式匹配算法进行分析后,选择最优的Sunday算法进行改进。该算法进行匹配前先找到模式串中的特征字符(出现概率最小的字符),进行特征...
在基于模式匹配的检测方法中,匹配效率是检测技术的瓶颈,间接影响入侵检测系统的实时性能。该文对4种模式匹配算法进行分析后,选择最优的Sunday算法进行改进。该算法进行匹配前先找到模式串中的特征字符(出现概率最小的字符),进行特征字符与尾字符双重匹配,失败则移动尽可能远的距离。实验结果证明匹配效率比Sunday算法有一定的提高。
展开更多
关键词
字符串
模式匹配
特征字符
计算复杂度
下载PDF
职称材料
基于重复字串的微博新词非监督自动抽取
被引量:
4
6
作者
孙晓
李承程
+1 位作者
叶嘉麒
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验...
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。
展开更多
关键词
自然语言处理
中文分词
重复字串
分词碎片
下载PDF
职称材料
博客语料的新词发现方法
被引量:
17
7
作者
黄轩
李熔烽
《现代电子技术》
2013年第2期144-146,149,共4页
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间...
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。
展开更多
关键词
新词
词串统计
上下文分析
分词
候选词
下载PDF
职称材料
一种对英文字符串进行分词的方法
被引量:
2
8
作者
邹智敏
郭荷清
高英
《计算机应用研究》
CSCD
北大核心
2007年第7期52-54,共3页
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配。对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法。实验证明该算法具有高效性。
关键词
字典匹配
英文分词
后缀词
下载PDF
职称材料
一种基于词共现的文本相似度计算
被引量:
14
9
作者
曹恬
周丽
张国煊
《计算机工程与科学》
CSCD
2007年第3期52-53,73,共3页
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词
文本相似度
中文信息处理
特征串
词共现
下载PDF
职称材料
基于字符串相似度的维吾尔语中汉语借词识别
被引量:
6
10
作者
米成刚
杨雅婷
+2 位作者
周喜
李晓
杨明忠
《中文信息学报》
CSCD
北大核心
2013年第5期173-178,190,共7页
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借...
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
展开更多
关键词
借词
未登录词
发音相似度
字符串相似度
下载PDF
职称材料
自动提取含字母词语的领域新术语的研究
被引量:
3
11
作者
姜韶华
党延忠
《计算机工程》
CAS
CSCD
北大核心
2007年第2期47-49,共3页
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭...
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。
展开更多
关键词
专指语义串
长串优先
字母词语
中文信息处理
下载PDF
职称材料
汉语主题检索标识因素构成和词串序列的扩展
被引量:
2
12
作者
顾潇华
黄连娜
《图书馆学研究》
CSSCI
2008年第9期81-83,共3页
做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复...
做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复合主题、概念联结型复合主题的构成因素和词串序列,这对于信息标引实际工作和信息管理类专业信息组织课程的教学工作有着重要的指导意义。
展开更多
关键词
主题检索标识
主题因素
词串序列
下载PDF
职称材料
汉英交替口译语块输出的差异性研究
被引量:
2
13
作者
杨红旗
朱明慧
《语言教育》
2018年第3期64-70,共7页
本文以16名学生译员的汉英交替口译转写文本为对象,研究了语块运用与口译成绩的关系,以及高、低分得分者在语块输出上的差异。研究采用语料库方法。先进行模拟口译,现场打分并录音,并将录音进行转写;然后利用语料库检索软件AntConc提取...
本文以16名学生译员的汉英交替口译转写文本为对象,研究了语块运用与口译成绩的关系,以及高、低分得分者在语块输出上的差异。研究采用语料库方法。先进行模拟口译,现场打分并录音,并将录音进行转写;然后利用语料库检索软件AntConc提取目标语块,用SPSS做统计分析。结果发现:1)语块输出的质量和数量与口译成绩高度相关;2)高分者与低分者在语块输出的质量和数量上均存在显著差异;3)高分者与低分者语块运用的丰富性也存在显著差异。上述结果表明,语块知识及其运用对口译输出具有重要促进作用。所以本文建议在口译教学中加强语块的习得和语块运用训练,提升语码转换能力。
展开更多
关键词
学生译员
汉英口译
语块运用
口译成绩
语块丰富性
下载PDF
职称材料
汉语“不XX”三字组考察与词典收词
被引量:
6
14
作者
侯瑞芬
《语言科学》
CSSCI
北大核心
2017年第1期40-50,共11页
"不XX"三字组数量众多,有词和短语两种不同性质。通过对《现代汉语词典》等四种不同材料中收录的"不XX"三字组进行考察,我们发现人们对"不XX"的性质、地位的认识存在较大的分歧。本文试图从韵律、结构、...
"不XX"三字组数量众多,有词和短语两种不同性质。通过对《现代汉语词典》等四种不同材料中收录的"不XX"三字组进行考察,我们发现人们对"不XX"的性质、地位的认识存在较大的分歧。本文试图从韵律、结构、语义和频率等角度确定甄别"不XX"三字词和三字短语的主要标准。这不仅在理论上对人们辨识两种性质完全不同的语言单位很有好处,在词典编纂实践上,也将帮助人们解决词目收录的犹豫与困惑,使词典收词更为准确与精当。
展开更多
关键词
“不XX”
三字组
韵律
语义
频率
词典收词
下载PDF
职称材料
中文领域本体学习中术语的自动抽取
被引量:
14
15
作者
温春
王晓斌
石昭祥
《计算机应用研究》
CSCD
北大核心
2009年第7期2652-2655,共4页
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时...
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。
展开更多
关键词
领域术语抽取
领域主题一致度
领域本体学习
多字词候选术语
字符串分解
下载PDF
职称材料
多语种网络文本快速新词抽取
被引量:
2
16
作者
刘冰洋
刘倩
+2 位作者
张瑾
刘欣然
程学旗
《中文信息学报》
CSCD
北大核心
2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改...
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
展开更多
关键词
新词
邻接类别
字符串整体度
后缀树
多语言
下载PDF
职称材料
基于后缀树词序列核挖掘Web文档
被引量:
2
17
作者
傅鹏
张德运
+1 位作者
陈海诠
董皓
《微电子学与计算机》
CSCD
北大核心
2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的...
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。
展开更多
关键词
核学习方法
词序列核
字符串核
后缀树
WEB挖掘
下载PDF
职称材料
一种基于逐层扫描的频繁字串快速提取算法
被引量:
1
18
作者
张宇萌
刘传汉
《计算机科学》
CSCD
北大核心
2008年第5期127-130,共4页
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词
频繁字串
中文抽词
逐层扫描
互信息
下载PDF
职称材料
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
19
作者
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵...
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
展开更多
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
下载PDF
职称材料
一种新词检测方法研究
被引量:
6
20
作者
钟将
耿升华
董高峰
《数字通信》
2013年第2期1-5,23,共6页
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了...
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。
展开更多
关键词
新词
互信息
信息熵
词频
垃圾串
下载PDF
职称材料
题名
基于字符串匹配算法的Word阅卷系统实现
被引量:
2
1
作者
潘夏福
机构
海南政法职业学院信息技术系
出处
《电脑与信息技术》
2013年第3期29-30,55,共3页
基金
海南省高等学校科学研究项目(项目编号:Hjkj2011-51)
文摘
为了解决Word操作题自动阅卷系统通用性和容错性问题,提出了基于字符串匹配算法的Word自动阅卷系统设计方案。系统采用VBA技术构建,并制定了Word操作评分点规则。根据评分点不同,采用字符串匹配算法,解决Word改卷过程当中不能正确确定对象位置的问题。实验证明系统具有很好的改卷容错能力,新的自动阅卷系统方案是有效的。
关键词
VBA技术
word
自动阅卷
字符串匹配
Keywords
VBA technology
word
automatic paper marking
string
matching
分类号
TP317 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
文本相似度计算方法综述
被引量:
1
2
作者
魏嵬
丁香香
郭梦星
杨钊
刘辉
机构
西安理工大学计算机科学与工程学院
山东开放大学直属学院
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第9期18-32,共15页
基金
国家重点研发计划项目(2022YFE0138600)
教育部人文社会科学研究规划基金(23YJA870011)
重庆市计算智能重点实验室项目(2020FF02)。
文摘
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。
关键词
文本相似度
字符串
词向量
预训练模型
深度学习
Keywords
text similarity
character
string
word
vector
pre-trained model
deep learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于大规模语料库的新词检测
被引量:
32
3
作者
崔世起
刘群
孟遥
于浩
西野文人
机构
中国科学院计算技术研究所数字化技术研究室
中国科学院研究生院
中国科学院研究生院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期927-932,共6页
基金
国家"八六三"高技术研究发展计划基金项目(2004AA114010
2003AA111010)
中国科学院计算技术研究所和富士通研究开发中心有限公司合作项目~~
文摘
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
关键词
新词
垃圾串
垃圾头
垃圾尾
独立词概率
Keywords
new
word
garbage
string
garbage head
garbage tail
IWP
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文新词识别技术综述
被引量:
39
4
作者
张海军
史树敏
朱朝勇
黄河燕
机构
中国科学技术大学计算机科学与技术学院
新疆师范大学计算机系
中国科学院计算机语言信息工程研究中心
出处
《计算机科学》
CSCD
北大核心
2010年第3期6-10,16,共6页
基金
国家自然科学基金项目(60672149)
国家863计划重点项目(2006AA010109)资助
文摘
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
关键词
新词识别
未登录词
候选字串
训练语料
词性猜测
Keywords
New
word
s Identification, Unknown
word
s, Candidate
string
, Training corpus, POS guessing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进的Sunday模式匹配算法
被引量:
13
5
作者
万晓榆
杨波
樊自甫
机构
重庆邮电大学下一代网络应用技术研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第7期125-126,129,共3页
基金
信息产业部软科学基金资助项目(2008-R-85
2008-R-14)
+3 种基金
重庆市教委科学技术研究基金资助项目(KJ060514
KJ070512
KJ070515
KJ080523)
文摘
在基于模式匹配的检测方法中,匹配效率是检测技术的瓶颈,间接影响入侵检测系统的实时性能。该文对4种模式匹配算法进行分析后,选择最优的Sunday算法进行改进。该算法进行匹配前先找到模式串中的特征字符(出现概率最小的字符),进行特征字符与尾字符双重匹配,失败则移动尽可能远的距离。实验结果证明匹配效率比Sunday算法有一定的提高。
关键词
字符串
模式匹配
特征字符
计算复杂度
Keywords
character
string
pattern matching
character-
word
computational complexity
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于重复字串的微博新词非监督自动抽取
被引量:
4
6
作者
孙晓
李承程
叶嘉麒
任福继
机构
合肥工业大学计算机与信息学院
情感计算与先进智能机器安徽省重点实验室
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期674-678,724,共6页
基金
国家自然科学基金资助项目(61203315)
国家高技术研究发展计划(863计划)资助项目(2012AA011103)
安徽省科技攻关计划资助项目(1206c0805039)
文摘
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。
关键词
自然语言处理
中文分词
重复字串
分词碎片
Keywords
natural language processing
Chinese
word
segmentation
repeated
string
sub-
word
fragment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
博客语料的新词发现方法
被引量:
17
7
作者
黄轩
李熔烽
机构
厦门大学智能科学与技术系
漳州职业技术学院经济管理系
出处
《现代电子技术》
2013年第2期144-146,149,共4页
基金
漳州职业技术学院科研计划资助项目(ZZY1107)
文摘
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。
关键词
新词
词串统计
上下文分析
分词
候选词
Keywords
new
word
word
string
statistics
contextual analysis
segmentation of
word
candidate
word
分类号
TN911.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
一种对英文字符串进行分词的方法
被引量:
2
8
作者
邹智敏
郭荷清
高英
机构
华南理工大学计算机科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2007年第7期52-54,共3页
基金
国家"973"计划资助项目(G20000263)
广州市重点科技攻关资助项目(B2-109-550)
文摘
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配。对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法。实验证明该算法具有高效性。
关键词
字典匹配
英文分词
后缀词
Keywords
dictionary pattern matching
English
string
segmentation
suffix
word
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于词共现的文本相似度计算
被引量:
14
9
作者
曹恬
周丽
张国煊
机构
杭州电子科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2007年第3期52-53,73,共3页
文摘
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词
文本相似度
中文信息处理
特征串
词共现
Keywords
text similarity
Chinese information processing
string
of feature code
word
co-occurrence
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于字符串相似度的维吾尔语中汉语借词识别
被引量:
6
10
作者
米成刚
杨雅婷
周喜
李晓
杨明忠
机构
中国科学院新疆理化技术研究所
中国科学院大学
哈密地区电子政务办公室
出处
《中文信息学报》
CSCD
北大核心
2013年第5期173-178,190,共7页
基金
中国科学院战略性先导科技专项(XDA06030400)
中国科学院"西部之光"人才培养计划"西部博士资助项目"(XBBS201216)
中国科学院西部行动计划资助项目(KGZD-EW-501)
文摘
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
关键词
借词
未登录词
发音相似度
字符串相似度
Keywords
loan
word
s
Out-Of-Vocabulary
word
s
pronunciation similarity
string
similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自动提取含字母词语的领域新术语的研究
被引量:
3
11
作者
姜韶华
党延忠
机构
大连理工大学系统工程研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第2期47-49,共3页
基金
国家自然科学基金资助项目(70271046)
文摘
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。
关键词
专指语义串
长串优先
字母词语
中文信息处理
Keywords
Special semantic
string
s
Matching longer
string
first
Lettered-
word
s
Chinese natural language processing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
汉语主题检索标识因素构成和词串序列的扩展
被引量:
2
12
作者
顾潇华
黄连娜
机构
河北大学管理学院教授
河北大学研究生
出处
《图书馆学研究》
CSSCI
2008年第9期81-83,共3页
文摘
做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复合主题、概念联结型复合主题的构成因素和词串序列,这对于信息标引实际工作和信息管理类专业信息组织课程的教学工作有着重要的指导意义。
关键词
主题检索标识
主题因素
词串序列
Keywords
subject indexing identifier subject factors sequence of
word
string
分类号
G254.2 [文化科学—图书馆学]
下载PDF
职称材料
题名
汉英交替口译语块输出的差异性研究
被引量:
2
13
作者
杨红旗
朱明慧
机构
南京工业大学
南京晓庄学院
出处
《语言教育》
2018年第3期64-70,共7页
文摘
本文以16名学生译员的汉英交替口译转写文本为对象,研究了语块运用与口译成绩的关系,以及高、低分得分者在语块输出上的差异。研究采用语料库方法。先进行模拟口译,现场打分并录音,并将录音进行转写;然后利用语料库检索软件AntConc提取目标语块,用SPSS做统计分析。结果发现:1)语块输出的质量和数量与口译成绩高度相关;2)高分者与低分者在语块输出的质量和数量上均存在显著差异;3)高分者与低分者语块运用的丰富性也存在显著差异。上述结果表明,语块知识及其运用对口译输出具有重要促进作用。所以本文建议在口译教学中加强语块的习得和语块运用训练,提升语码转换能力。
关键词
学生译员
汉英口译
语块运用
口译成绩
语块丰富性
Keywords
student interpreters
Chinese-English interpreting
word
string
use
performance
diversity of
word
string
s
分类号
H059 [语言文字—语言学]
下载PDF
职称材料
题名
汉语“不XX”三字组考察与词典收词
被引量:
6
14
作者
侯瑞芬
机构
中国社会科学院语言研究所
出处
《语言科学》
CSSCI
北大核心
2017年第1期40-50,共11页
基金
国家社科基金青年项目(13CYY61)的阶段性成果
文摘
"不XX"三字组数量众多,有词和短语两种不同性质。通过对《现代汉语词典》等四种不同材料中收录的"不XX"三字组进行考察,我们发现人们对"不XX"的性质、地位的认识存在较大的分歧。本文试图从韵律、结构、语义和频率等角度确定甄别"不XX"三字词和三字短语的主要标准。这不仅在理论上对人们辨识两种性质完全不同的语言单位很有好处,在词典编纂实践上,也将帮助人们解决词目收录的犹豫与困惑,使词典收词更为准确与精当。
关键词
“不XX”
三字组
韵律
语义
频率
词典收词
Keywords
"bu XX"
trisyllabic
string
syllable
semantic
frequency
word
-collection
分类号
H164 [语言文字—汉语]
下载PDF
职称材料
题名
中文领域本体学习中术语的自动抽取
被引量:
14
15
作者
温春
王晓斌
石昭祥
机构
电子工程学院网络工程系
出处
《计算机应用研究》
CSCD
北大核心
2009年第7期2652-2655,共4页
基金
电子工程学院博士研究生创新基金资助项目(2008006)
文摘
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。
关键词
领域术语抽取
领域主题一致度
领域本体学习
多字词候选术语
字符串分解
Keywords
domain-specific term extraction
domain topic consensus
domain ontology learning
multi-
word
candidate terms
string
decomposing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
多语种网络文本快速新词抽取
被引量:
2
16
作者
刘冰洋
刘倩
张瑾
刘欣然
程学旗
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院大学
国家计算机网络应急技术处理协调中心
出处
《中文信息学报》
CSCD
北大核心
2014年第2期78-84,共7页
基金
国家自然科学基金(609933005
60903139)
+2 种基金
国家242专项(2011A001
2012G129)
973项目(2013CB329601)
文摘
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
关键词
新词
邻接类别
字符串整体度
后缀树
多语言
Keywords
new
word
s
adjacency variety
string
integrity measurement
suffix tree
multi-lingual
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于后缀树词序列核挖掘Web文档
被引量:
2
17
作者
傅鹏
张德运
陈海诠
董皓
机构
西安交通大学电子与信息工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2005年第12期4-7,共4页
基金
国家863计划项目(8633010503)
文摘
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。
关键词
核学习方法
词序列核
字符串核
后缀树
WEB挖掘
Keywords
Kernel methods,
word
sequence kernel,
string
kernel, Suffix tree, Web mining
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于逐层扫描的频繁字串快速提取算法
被引量:
1
18
作者
张宇萌
刘传汉
机构
上海交通大学计算机科学与工程系
出处
《计算机科学》
CSCD
北大核心
2008年第5期127-130,共4页
文摘
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词
频繁字串
中文抽词
逐层扫描
互信息
Keywords
Frequent
string
,Chinese automatic
word
extraction, Level-wise scan, Mutual information
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
19
作者
修驰
宋柔
机构
北京工业大学计算机学院
北京语言大学信息科学学院
出处
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
基金
国家自然科学基金资助项目(60872121)
文摘
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
Keywords
domain
word
segmentation
segmentation ambiguity
string
frequency
mutual information
boundaryentropy
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种新词检测方法研究
被引量:
6
20
作者
钟将
耿升华
董高峰
机构
重庆大学计算机学院
出处
《数字通信》
2013年第2期1-5,23,共6页
基金
国家自然科学基金青年基金资助项目(61103114)
文摘
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。
关键词
新词
互信息
信息熵
词频
垃圾串
Keywords
new
word
mutual information
entropy of information
word
frequency
garbage
string
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于字符串匹配算法的Word阅卷系统实现
潘夏福
《电脑与信息技术》
2013
2
下载PDF
职称材料
2
文本相似度计算方法综述
魏嵬
丁香香
郭梦星
杨钊
刘辉
《计算机工程》
CAS
CSCD
北大核心
2024
1
下载PDF
职称材料
3
基于大规模语料库的新词检测
崔世起
刘群
孟遥
于浩
西野文人
《计算机研究与发展》
EI
CSCD
北大核心
2006
32
下载PDF
职称材料
4
中文新词识别技术综述
张海军
史树敏
朱朝勇
黄河燕
《计算机科学》
CSCD
北大核心
2010
39
下载PDF
职称材料
5
改进的Sunday模式匹配算法
万晓榆
杨波
樊自甫
《计算机工程》
CAS
CSCD
北大核心
2009
13
下载PDF
职称材料
6
基于重复字串的微博新词非监督自动抽取
孙晓
李承程
叶嘉麒
任福继
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
4
下载PDF
职称材料
7
博客语料的新词发现方法
黄轩
李熔烽
《现代电子技术》
2013
17
下载PDF
职称材料
8
一种对英文字符串进行分词的方法
邹智敏
郭荷清
高英
《计算机应用研究》
CSCD
北大核心
2007
2
下载PDF
职称材料
9
一种基于词共现的文本相似度计算
曹恬
周丽
张国煊
《计算机工程与科学》
CSCD
2007
14
下载PDF
职称材料
10
基于字符串相似度的维吾尔语中汉语借词识别
米成刚
杨雅婷
周喜
李晓
杨明忠
《中文信息学报》
CSCD
北大核心
2013
6
下载PDF
职称材料
11
自动提取含字母词语的领域新术语的研究
姜韶华
党延忠
《计算机工程》
CAS
CSCD
北大核心
2007
3
下载PDF
职称材料
12
汉语主题检索标识因素构成和词串序列的扩展
顾潇华
黄连娜
《图书馆学研究》
CSSCI
2008
2
下载PDF
职称材料
13
汉英交替口译语块输出的差异性研究
杨红旗
朱明慧
《语言教育》
2018
2
下载PDF
职称材料
14
汉语“不XX”三字组考察与词典收词
侯瑞芬
《语言科学》
CSSCI
北大核心
2017
6
下载PDF
职称材料
15
中文领域本体学习中术语的自动抽取
温春
王晓斌
石昭祥
《计算机应用研究》
CSCD
北大核心
2009
14
下载PDF
职称材料
16
多语种网络文本快速新词抽取
刘冰洋
刘倩
张瑾
刘欣然
程学旗
《中文信息学报》
CSCD
北大核心
2014
2
下载PDF
职称材料
17
基于后缀树词序列核挖掘Web文档
傅鹏
张德运
陈海诠
董皓
《微电子学与计算机》
CSCD
北大核心
2005
2
下载PDF
职称材料
18
一种基于逐层扫描的频繁字串快速提取算法
张宇萌
刘传汉
《计算机科学》
CSCD
北大核心
2008
1
下载PDF
职称材料
19
基于无监督学习的专业领域分词歧义消解方法
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013
7
下载PDF
职称材料
20
一种新词检测方法研究
钟将
耿升华
董高峰
《数字通信》
2013
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
4
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部