期刊文献+
共找到99篇文章
< 1 2 5 >
每页显示 20 50 100
On How to Guess Meanings of Unknown Words in Reading Materials the Importance of Context
1
作者 胡燕 《海外英语》 2013年第10X期54-55,共2页
While reading plays a very important role in English study, many English language learners find it very difficult to fully comprehend some reading materials on account of many unknown words in them. This essay mainly ... While reading plays a very important role in English study, many English language learners find it very difficult to fully comprehend some reading materials on account of many unknown words in them. This essay mainly discusses one technique of guessing meanings of new words according to context clues, thus emphasizing the importance of context. 展开更多
关键词 MEANINGS of unknown wordS CONTEXT CLUES reading ma
下载PDF
How to Deal with Unknown Words in EFL Reading
2
作者 李夏雯 《教育界(高等教育)》 2015年第6期88-88,共1页
关键词 英语学习 学习方法 阅读知识 阅读材料
下载PDF
DUWe:动态未知词嵌入方法在Web异常检测中的应用
3
作者 王丽 陈刚 +1 位作者 夏明山 胡皓 《计算机科学》 CSCD 北大核心 2024年第S01期914-918,共5页
现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系... 现有的基于深度学习模型的词嵌入方法用于Web异常检测时,通常将语料库中没有出现的未知词汇(Out of Vocabulary,OOV)设置为unknown,并赋予零或随机向量输入到模型中进行训练,未考虑未知词汇在Web请求语句中的上下文关系。同时,在Web系统代码开发过程中,基于个人习惯并为了增加代码的可读性,程序员设计的请求路径代码往往存在一定的模式。因此,考虑到Web请求的模式和单词语义间的相关性,研究基于Word2vec的动态未知词表示方法DUWe(Dynamic Unknown Word Embedding),该方法通过分析Web请求路径中单词上下文的关系来赋予未知词向量的表示内容。在CSIC-2010和WAF Dataset数据集上的实验评估表明,增加未知词表示方法比仅用Word2vec静态特征提取方法具有更好的性能,同时在准确性、精准率、召回率和F1-Score方面均有提高,在训练时间上最大降低1.14倍。 展开更多
关键词 未知词汇 Web异常检测 动态词嵌入 词嵌入优化 深度学习
下载PDF
Word VBA应用程序在处理文档未知重复内容中的应用 被引量:7
4
作者 王殿佑 《电脑编程技巧与维护》 2010年第2期19-20,共2页
应用VBA程序实现了Word文档中未知重复内容的自动查找和标定,扩展了和实现Word中查找和替换功能,并在实践中为处理大量粘贴复制工作提供了有益尝试和实践。
关键词 word VBA 未知重复内容 查找和替换
下载PDF
Review on Chern's article Chinese students' word-solving strategies in reading in English
5
作者 WU Kun 《Sino-US English Teaching》 2009年第8期40-45,共6页
In this essay, the author has endeavored to present a detailed review on Chern's article Chinese students' word-solving strategies in reading in English from the aspects of research methods, findings and arguments. ... In this essay, the author has endeavored to present a detailed review on Chern's article Chinese students' word-solving strategies in reading in English from the aspects of research methods, findings and arguments. We generally agree on the results she drew, which were as follows: (1) Chinese EFL learners were similar to learners from other L I language backgrounds in strategies use in reading; (2) Both high proficient learners and low proficient learners made more use of sentence-bound strategies and backward cues; (3) The use of forward cues differentiated the good learners from the poor learners; (4) The use of global cues correlated with subjects' proficiency level. However, there are some deficiencies as well. Chern over-emphasized the importance of guessing in reading, forbidding the use of dictionary or skipping. Therefore, she could not show the readers a full picture of how Chinese EFL learners discover meanings of unknown words in reading. Thus the author proposes that a further research should be conducted to see if other strategies will be employed in a real-life reading. 展开更多
关键词 word-solving strategies guessing unknown words
下载PDF
基于层叠隐马模型的汉语词法分析 被引量:198
6
作者 刘群 张华平 +1 位作者 俞鸿魁 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2004年第8期1421-1429,共9页
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 ... 提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。 展开更多
关键词 汉语词法分析 分词 词性标注 未登录词识别 层叠隐马模型 ICTCLAS
下载PDF
基于分解与动态规划策略的汉语未登录词识别 被引量:43
7
作者 吕雅娟 赵铁军 +2 位作者 杨沐昀 于浩 李生 《中文信息学报》 CSCD 北大核心 2001年第1期28-33,共6页
:未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过... :未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试 。 展开更多
关键词 未登录词识别 分解处理 动态规划 汉语自动分词 路径搜索 整体识别
下载PDF
基于互信息改进算法的新词发现对中文分词系统改进 被引量:46
8
作者 杜丽萍 李晓戈 +2 位作者 于根 刘春丽 刘睿 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期35-40,共6页
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的... 提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。 展开更多
关键词 新词识别 未登录词 互信息 PMI改进算法 中文分词
下载PDF
中文新词识别技术综述 被引量:39
9
作者 张海军 史树敏 +1 位作者 朱朝勇 黄河燕 《计算机科学》 CSCD 北大核心 2010年第3期6-10,16,共6页
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词... 新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。 展开更多
关键词 新词识别 未登录词 候选字串 训练语料 词性猜测
下载PDF
中文姓名的自动辨识 被引量:87
10
作者 孙茂松 黄昌宁 +1 位作者 高海燕 方捷 《中文信息学报》 CSCD 1995年第2期16-27,共12页
中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明,召回率达到了99.77%。
关键词 中文姓名 自动辨识 汉语 自动分词 中文信息处理
下载PDF
基于微博内容的新词发现方法 被引量:25
11
作者 霍帅 张敏 +1 位作者 刘奕群 马少平 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期141-145,共5页
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与... 新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%. 展开更多
关键词 新词发现 上下文熵 未登录词提取
下载PDF
汉语自动分词的研究现状与困难 被引量:60
12
作者 张春霞 郝天永 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第1期138-143,147,共7页
汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的... 汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的现状分析,构建了自动分词的形式化模型,论述了影响分词的诸多因素,分析了分词中存在的两个最大困难及其解决方法。最后指出了目前分词研究中尤其是在分词评测方面存在的问题以及未来的研究工作。 展开更多
关键词 汉语自动分词 形式化模型 未登录词 分词评测
下载PDF
语境和构词法线索对外国学生汉语词义猜测的作用 被引量:33
13
作者 江新 房艳霞 《心理学报》 CSSCI CSCD 北大核心 2012年第1期76-86,共11页
要求学习汉语的欧美和日本留学生对三种条件下(只有词没有语境、只有语境没有词、既有词也有语境)的语义半透明的双音复合词进行猜测,考察语境和构词法线索在欧美和日本留学生汉语生词猜测中的作用。结果显示:在猜测词义中语境和构词法... 要求学习汉语的欧美和日本留学生对三种条件下(只有词没有语境、只有语境没有词、既有词也有语境)的语义半透明的双音复合词进行猜测,考察语境和构词法线索在欧美和日本留学生汉语生词猜测中的作用。结果显示:在猜测词义中语境和构词法线索分别都能提供一定的信息,但同时提供两种信息能得到更好的猜测;语境和构词法线索在生词猜测过程中所起的作用不同,语境能提供更多句法上的信息,构词法能提供更多语义上的信息;目标词的结构方式对生词猜测产生影响,与动宾式生词相比,偏正式生词的猜测较为容易且构词法线索在其中的作用较大;母语文字背景可能影响词义猜测的效果,日本留学生对于构词法、语境线索以及两者的整合都比欧美留学生好。 展开更多
关键词 语境 构词法 结构方式 生词猜测 第二语言学习 欧美留学生 日本留学生
下载PDF
基于子字单元的神经机器翻译未登录词翻译分析 被引量:10
14
作者 韩冬 李军辉 +1 位作者 熊德意 周国栋 《中文信息学报》 CSCD 北大核心 2018年第4期74-79,119,共7页
神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Enc... 神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Encoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度的高频子字单元。该文主要探究BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上可以解决中英未登录词翻译缺失的问题。实验表明,与Baseline系统相比,BPE方法获得了1.02BLEU值的提升,对未登录词的翻译精准度达到了45%,与统计机器翻译系统翻译精准度相似。 展开更多
关键词 神经机器翻译 BPE编码 未登录词
下载PDF
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
15
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 TF-IDF
下载PDF
基于SVMTool的中文词性标注 被引量:17
16
作者 王丽杰 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2009年第4期16-21,共6页
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,... SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。 展开更多
关键词 计算机应用 中文信息处理 词性标注 SVMTool 未登录词 偏旁部首
下载PDF
一种应用组合特征的中文未登录词词性猜测研究 被引量:4
17
作者 张海军 冯冲 +1 位作者 史树敏 黄河燕 《小型微型计算机系统》 CSCD 北大核心 2010年第7期1402-1406,共5页
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜... 未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值. 展开更多
关键词 中文分词 未登录词 条件随机域模型 词性猜测
下载PDF
网络热点信息发现研究 被引量:29
18
作者 曾依灵 许洪波 《通信学报》 EI CSCD 北大核心 2007年第12期141-146,共6页
为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TD... 为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TDT国际标准评测语料上算法表现出令人满意的性能。 展开更多
关键词 热点信息发现 未登录词识别 切分词拼接
下载PDF
基于《知网》的汉语未登录词语义相似度计算 被引量:8
19
作者 张瑞霞 杨国增 吴慧欣 《中文信息学报》 CSCD 北大核心 2012年第1期16-21,共6页
提出了一种基于《知网》的汉语未登录词语义相似度计算方法。该方法首先参照意合网络理论构造了语义关系匹配函数;接着在用概念图表示未登录词语义信息的基础上,根据节点在语义表示中的作用不同对其分类;然后应用匹配函数对弧、节点对... 提出了一种基于《知网》的汉语未登录词语义相似度计算方法。该方法首先参照意合网络理论构造了语义关系匹配函数;接着在用概念图表示未登录词语义信息的基础上,根据节点在语义表示中的作用不同对其分类;然后应用匹配函数对弧、节点对及节点对集进行分类;最后设计了未登录词的整体相似度、不同类型节点对及节点对集相似度的计算方法。该方法能够合理分类未登录词的语义信息并能将其充分利用到计算过程中,实验结果证明此方法是有效的。 展开更多
关键词 《知网》 语义相似度 未登录词 概念图
下载PDF
汉语自动分词中中文地名识别 被引量:10
20
作者 高红 黄德根 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第4期576-581,共6页
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句... 以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. 展开更多
关键词 中文地名识别 汉语自动分词 未登录词识别
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部