期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
基于字符串匹配算法的Word阅卷系统实现 被引量:2
1
作者 潘夏福 《电脑与信息技术》 2013年第3期29-30,55,共3页
为了解决Word操作题自动阅卷系统通用性和容错性问题,提出了基于字符串匹配算法的Word自动阅卷系统设计方案。系统采用VBA技术构建,并制定了Word操作评分点规则。根据评分点不同,采用字符串匹配算法,解决Word改卷过程当中不能正确确定... 为了解决Word操作题自动阅卷系统通用性和容错性问题,提出了基于字符串匹配算法的Word自动阅卷系统设计方案。系统采用VBA技术构建,并制定了Word操作评分点规则。根据评分点不同,采用字符串匹配算法,解决Word改卷过程当中不能正确确定对象位置的问题。实验证明系统具有很好的改卷容错能力,新的自动阅卷系统方案是有效的。 展开更多
关键词 VBA技术 word自动阅卷 字符串匹配
下载PDF
文本相似度计算方法综述 被引量:1
2
作者 魏嵬 丁香香 +2 位作者 郭梦星 杨钊 刘辉 《计算机工程》 CAS CSCD 北大核心 2024年第9期18-32,共15页
文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进... 文本相似度计算是自然语言处理的一部分,用来计算两个词、句子及文本之间的相似程度,具有多种应用场景,文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面,随着词向量的提出,文本相似度计算可进行基于统计以及深度学习的建模与计算,也可与预训练模型相结合。首先,将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类,并对这些方法进行简要介绍。然后,根据不同文本相似度计算方法的原理,具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后,对文本相似度计算常用的数据集以及评价标准进行整理和分析,并对文本相似度计算的未来发展进行展望。 展开更多
关键词 文本相似度 字符串 词向量 预训练模型 深度学习
下载PDF
基于大规模语料库的新词检测 被引量:32
3
作者 崔世起 刘群 +2 位作者 孟遥 于浩 西野文人 《计算机研究与发展》 EI CSCD 北大核心 2006年第5期927-932,共6页
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见... 自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域. 展开更多
关键词 新词 垃圾串 垃圾头 垃圾尾 独立词概率
下载PDF
中文新词识别技术综述 被引量:39
4
作者 张海军 史树敏 +1 位作者 朱朝勇 黄河燕 《计算机科学》 CSCD 北大核心 2010年第3期6-10,16,共6页
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词... 新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。 展开更多
关键词 新词识别 未登录词 候选字串 训练语料 词性猜测
下载PDF
改进的Sunday模式匹配算法 被引量:13
5
作者 万晓榆 杨波 樊自甫 《计算机工程》 CAS CSCD 北大核心 2009年第7期125-126,129,共3页
在基于模式匹配的检测方法中,匹配效率是检测技术的瓶颈,间接影响入侵检测系统的实时性能。该文对4种模式匹配算法进行分析后,选择最优的Sunday算法进行改进。该算法进行匹配前先找到模式串中的特征字符(出现概率最小的字符),进行特征... 在基于模式匹配的检测方法中,匹配效率是检测技术的瓶颈,间接影响入侵检测系统的实时性能。该文对4种模式匹配算法进行分析后,选择最优的Sunday算法进行改进。该算法进行匹配前先找到模式串中的特征字符(出现概率最小的字符),进行特征字符与尾字符双重匹配,失败则移动尽可能远的距离。实验结果证明匹配效率比Sunday算法有一定的提高。 展开更多
关键词 字符串 模式匹配 特征字符 计算复杂度
下载PDF
基于重复字串的微博新词非监督自动抽取 被引量:4
6
作者 孙晓 李承程 +1 位作者 叶嘉麒 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验... 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。 展开更多
关键词 自然语言处理 中文分词 重复字串 分词碎片
下载PDF
博客语料的新词发现方法 被引量:17
7
作者 黄轩 李熔烽 《现代电子技术》 2013年第2期144-146,149,共4页
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间... 新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。 展开更多
关键词 新词 词串统计 上下文分析 分词 候选词
下载PDF
一种对英文字符串进行分词的方法 被引量:2
8
作者 邹智敏 郭荷清 高英 《计算机应用研究》 CSCD 北大核心 2007年第7期52-54,共3页
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配。对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法。实验证明该算法具有高效性。
关键词 字典匹配 英文分词 后缀词
下载PDF
一种基于词共现的文本相似度计算 被引量:14
9
作者 曹恬 周丽 张国煊 《计算机工程与科学》 CSCD 2007年第3期52-53,73,共3页
在文本检索中,由于用户需求的表达方式不充分,常会得到大量无关信息,给用户检索带来诸多不便。本文提出的基于词共现的文本相似度计算,可以让用户选择去掉或保留和某一文本相似的文本集,提高用户检索效率。
关键词 文本相似度 中文信息处理 特征串 词共现
下载PDF
基于字符串相似度的维吾尔语中汉语借词识别 被引量:6
10
作者 米成刚 杨雅婷 +2 位作者 周喜 李晓 杨明忠 《中文信息学报》 CSCD 北大核心 2013年第5期173-178,190,共7页
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借... 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 展开更多
关键词 借词 未登录词 发音相似度 字符串相似度
下载PDF
自动提取含字母词语的领域新术语的研究 被引量:3
11
作者 姜韶华 党延忠 《计算机工程》 CAS CSCD 北大核心 2007年第2期47-49,共3页
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭... 新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。 展开更多
关键词 专指语义串 长串优先 字母词语 中文信息处理
下载PDF
汉语主题检索标识因素构成和词串序列的扩展 被引量:2
12
作者 顾潇华 黄连娜 《图书馆学研究》 CSSCI 2008年第9期81-83,共3页
做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复... 做主题标引工作时为了正确给出主题检索标识,要将分解和转换后的主题概念因素按照规定的因素和词串序列组配形成主题检索标识。为此,依目前已有的概念限定型复合主题的主题构成因素和词串序列,可扩展出多主题、单元主题、概念交叉型复合主题、概念联结型复合主题的构成因素和词串序列,这对于信息标引实际工作和信息管理类专业信息组织课程的教学工作有着重要的指导意义。 展开更多
关键词 主题检索标识 主题因素 词串序列
下载PDF
汉英交替口译语块输出的差异性研究 被引量:2
13
作者 杨红旗 朱明慧 《语言教育》 2018年第3期64-70,共7页
本文以16名学生译员的汉英交替口译转写文本为对象,研究了语块运用与口译成绩的关系,以及高、低分得分者在语块输出上的差异。研究采用语料库方法。先进行模拟口译,现场打分并录音,并将录音进行转写;然后利用语料库检索软件AntConc提取... 本文以16名学生译员的汉英交替口译转写文本为对象,研究了语块运用与口译成绩的关系,以及高、低分得分者在语块输出上的差异。研究采用语料库方法。先进行模拟口译,现场打分并录音,并将录音进行转写;然后利用语料库检索软件AntConc提取目标语块,用SPSS做统计分析。结果发现:1)语块输出的质量和数量与口译成绩高度相关;2)高分者与低分者在语块输出的质量和数量上均存在显著差异;3)高分者与低分者语块运用的丰富性也存在显著差异。上述结果表明,语块知识及其运用对口译输出具有重要促进作用。所以本文建议在口译教学中加强语块的习得和语块运用训练,提升语码转换能力。 展开更多
关键词 学生译员 汉英口译 语块运用 口译成绩 语块丰富性
下载PDF
汉语“不XX”三字组考察与词典收词 被引量:6
14
作者 侯瑞芬 《语言科学》 CSSCI 北大核心 2017年第1期40-50,共11页
"不XX"三字组数量众多,有词和短语两种不同性质。通过对《现代汉语词典》等四种不同材料中收录的"不XX"三字组进行考察,我们发现人们对"不XX"的性质、地位的认识存在较大的分歧。本文试图从韵律、结构、... "不XX"三字组数量众多,有词和短语两种不同性质。通过对《现代汉语词典》等四种不同材料中收录的"不XX"三字组进行考察,我们发现人们对"不XX"的性质、地位的认识存在较大的分歧。本文试图从韵律、结构、语义和频率等角度确定甄别"不XX"三字词和三字短语的主要标准。这不仅在理论上对人们辨识两种性质完全不同的语言单位很有好处,在词典编纂实践上,也将帮助人们解决词目收录的犹豫与困惑,使词典收词更为准确与精当。 展开更多
关键词 “不XX” 三字组 韵律 语义 频率 词典收词
下载PDF
中文领域本体学习中术语的自动抽取 被引量:14
15
作者 温春 王晓斌 石昭祥 《计算机应用研究》 CSCD 北大核心 2009年第7期2652-2655,共4页
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时... 提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。 展开更多
关键词 领域术语抽取 领域主题一致度 领域本体学习 多字词候选术语 字符串分解
下载PDF
多语种网络文本快速新词抽取 被引量:2
16
作者 刘冰洋 刘倩 +2 位作者 张瑾 刘欣然 程学旗 《中文信息学报》 CSCD 北大核心 2014年第2期78-84,共7页
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改... 从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。 展开更多
关键词 新词 邻接类别 字符串整体度 后缀树 多语言
下载PDF
基于后缀树词序列核挖掘Web文档 被引量:2
17
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 核学习方法 词序列核 字符串核 后缀树 WEB挖掘
下载PDF
一种基于逐层扫描的频繁字串快速提取算法 被引量:1
18
作者 张宇萌 刘传汉 《计算机科学》 CSCD 北大核心 2008年第5期127-130,共4页
串频统计是一种简便有效的抽取未登录词方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后抽取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
关键词 频繁字串 中文抽词 逐层扫描 互信息
下载PDF
基于无监督学习的专业领域分词歧义消解方法 被引量:7
19
作者 修驰 宋柔 《计算机应用》 CSCD 北大核心 2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵... 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。 展开更多
关键词 专业领域分词 分词歧义 字符串频次 互信息 边界熵
下载PDF
一种新词检测方法研究 被引量:6
20
作者 钟将 耿升华 董高峰 《数字通信》 2013年第2期1-5,23,共6页
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了... 汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。 展开更多
关键词 新词 互信息 信息熵 词频 垃圾串
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部