期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:1
1
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language Processing Vector space models Semantic spaces word Embeddings Representation Learning Text Vectorization Machine Learning Deep Learning
下载PDF
基于词向量空间模型的中文文本分类方法 被引量:14
2
作者 胡学钢 董学春 谢飞 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第10期1261-1264,共4页
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵... 大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。 展开更多
关键词 文本分类 向量空间模型 K-最近邻居 词向量空间模型
下载PDF
基于单词相似度的文本聚类 被引量:9
3
作者 李星毅 曾路平 施化吉 《计算机工程与设计》 CSCD 北大核心 2009年第8期1966-1968,共3页
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点。针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然... 研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点。针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类。实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果。 展开更多
关键词 文本聚类 单词相似度 向量空间模型 单词类向量空间 文本表示
下载PDF
基于语义信息的中文短信文本相似度研究 被引量:9
4
作者 刘金岭 宋连友 范玉虹 《计算机工程》 CAS CSCD 2012年第13期58-60,70,共4页
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加... 在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。 展开更多
关键词 短信文本 相似度 TF-IDF模型 特征词 向量空间模型
下载PDF
基于语义相似度的论坛话题追踪方法 被引量:22
5
作者 席耀一 林琛 +2 位作者 李弼程 周杰 许旭阳 《计算机应用》 CSCD 北大核心 2011年第1期93-96,共4页
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相... 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。 展开更多
关键词 话题追踪 论坛 关键词 语义相似度 向量空间模型
下载PDF
中文交互式网络搜索引擎及其自学习能力 被引量:14
6
作者 杜阿宁 方滨兴 +1 位作者 胡铭曾 云晓春 《计算机工程与应用》 CSCD 北大核心 2003年第10期148-150,212,共4页
论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于... 论文介绍了一种具有自学习能力的中文交互式网络搜索引擎INSE(aninteractivenetsearchengineforChi-nesetext),向量空间模型、基于自动机思想的中文分词技术和神经网络BP算法的应用是INSE的主要特点,重点讨论了INSE的自学习能力。基于自动机思想分词是INSE提出的新概念,应用于中文分词可以满足最大匹配且速度较快。INSE自学习能力的实现依靠神经网络的BP算法。该算法应用于交互式网络搜索引擎可以提供更加精确的查询结果。 展开更多
关键词 中文交互式网络搜索引擎 自学习能力 Internet WWW 计算机网络 向量空间模型 自动机 分词 神经网络 BP算法 信息库 信息检索 信息资源
下载PDF
基于词序方法的文本相似度计算模型 被引量:7
7
作者 郭武斌 周宽久 苏振魁 《情报学报》 CSSCI 北大核心 2008年第6期857-862,共6页
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共... 针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试。试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%。 展开更多
关键词 文本相似度 词序 向量空间模型 TF-IDF方法
下载PDF
面向领域的个性化智能检索系统MySpy的研究与开发 被引量:5
8
作者 陈世平 周福华 俞海 《小型微型计算机系统》 CSCD 北大核心 2002年第11期1336-1339,共4页
针对互联网上的“Rich Data Poor Information”问题 ,进行了面向领域的个性化智能检索系统的开发与研究 .系统采用多 Agent技术实现对 web文档索引数据库管理 ;实现基于智能代理的信息过滤和个性化服务 ;利用辅助词典、同义词词典和蕴... 针对互联网上的“Rich Data Poor Information”问题 ,进行了面向领域的个性化智能检索系统的开发与研究 .系统采用多 Agent技术实现对 web文档索引数据库管理 ;实现基于智能代理的信息过滤和个性化服务 ;利用辅助词典、同义词词典和蕴含词词典 ,对查询词进行概念扩检 ,使检索结果能返回与查询需求相似的文档 . 展开更多
关键词 个性化 智能检索系统 MySpy 智能代理 信息检索 分词 向量空间模型 全文检索 因特网
下载PDF
基于词语关联的文本特征词提取方法 被引量:10
9
作者 廖浩 李志蜀 +1 位作者 王秋野 张意 《计算机应用》 CSCD 北大核心 2007年第12期3009-3012,共4页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。 展开更多
关键词 词语关联 词共现率 向量空间模型 特征提取 权重计算
下载PDF
一种基于词序信息的自动文摘方法 被引量:3
10
作者 任纪生 张弛 王作英 《计算机工程与设计》 CSCD 北大核心 2007年第1期178-181,共4页
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现... 自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。 展开更多
关键词 自动文摘 词序 向量空间模型 相似度 权重
下载PDF
基于语义理解的智能搜索引擎研究 被引量:13
11
作者 陈林 杨丹 赵俊芹 《计算机科学》 CSCD 北大核心 2008年第6期152-154,共3页
本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文... 本文提出了一种基于自然语言理解的搜索引擎模型。它的核心技术是基于自然语言理解的相关技术,包括从关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询测试,查准率为86.7%。实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果。 展开更多
关键词 自然语言处理 分词 语义分析 向量空间模型
下载PDF
基于Internet的农业信息垂直搜索引擎的设计 被引量:6
12
作者 赵洋 滕桂法 +1 位作者 张玉新 何冬梅 《河北农业大学学报》 CAS CSCD 北大核心 2009年第6期125-128,共4页
农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索... 农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索引擎设计方案,该方案通过建立农业信息特征词词典,采用向量空间模型来对网页主题进行识别,从而提高信息检索的准确率。并采用基于超级链接分析的方法,使主题相关的URL优先得到访问,提高了搜索引擎的效率。 展开更多
关键词 垂直搜索引擎 主题识别 向量空间模型 特征词
下载PDF
基于内容的个性化信息过滤系统的研究与设计 被引量:6
13
作者 于满泉 许洪波 +1 位作者 赵章界 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第12期78-80,共3页
以典型的向量空间模型为例,剖析了个性化信息服务中内容过滤面临的主要问题及基本对策,并结合用户的实际需求,设计实现了“天罗”个性化信息过滤系统,实验结果表明,系统达到了很高的准确率、召回率和处理速度。
关键词 个性化 信息过滤 向量空间模型 关键词匹配 模糊过滤 反馈
下载PDF
基于向量空间模型的有导词义消歧 被引量:37
14
作者 鲁松 白硕 +1 位作者 黄雄 张健 《计算机研究与发展》 EI CSCD 北大核心 2001年第6期662-667,共6页
词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消... 词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。 展开更多
关键词 词义消歧 向量空间模型 义项矩阵 自然语言理解 有导机器学习
下载PDF
基于自然语言提问的自动答疑系统设计 被引量:10
15
作者 田俊华 《现代远程教育研究》 2005年第1期48-51,共4页
本文针对传统的基于布尔检索模型的自动答疑系统存在的不足,提出了开发智能型自动答疑系统的设计原则,阐述了该系统涉及的关键技术。在此基础上,作者提出了自己的系统设计架构,并进而提出了系统的优化策略。
关键词 自然语言 中文分词 向量空间模型 自动答疑
下载PDF
基于向量空间模型中义项词语的无导词义消歧 被引量:37
16
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
下载PDF
基于词同现频率的文本特征描述 被引量:8
17
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配
下载PDF
基于人工智能的主观题自动评分算法实现 被引量:18
18
作者 李学俊 《江南大学学报(自然科学版)》 CAS 2009年第3期292-295,共4页
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢... 针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢量空间模型的文本矢量特征匹配算法应用于计算机对考生答卷进行自动评判的过程中。实验测试数据表明,所提出的算法具有一定应用前景。 展开更多
关键词 自动评分 中文分词算法 矢量空间模型 文本匹配
下载PDF
基于改进视觉词袋模型的图像标注方法 被引量:5
19
作者 霍华 赵刚 《计算机工程》 CAS CSCD 2012年第22期276-278,282,共4页
针对传统视觉词袋模型对图像尺度变化较为敏感的缺点,提出一种基于改进视觉词袋模型的图像标注方法。该方法引入图像的多尺度空间信息,对图像进行多尺度变换并构建多尺度视觉词汇表,将图像表示为不同尺度特征,结合多核学习的方法优... 针对传统视觉词袋模型对图像尺度变化较为敏感的缺点,提出一种基于改进视觉词袋模型的图像标注方法。该方法引入图像的多尺度空间信息,对图像进行多尺度变换并构建多尺度视觉词汇表,将图像表示为不同尺度特征,结合多核学习的方法优化各尺度特征的相应权重,获取特征表示。实验结果验证了该方法的有效性,其标注准确率比传统BoVW模型提高17.8%-25.7%。 展开更多
关键词 图像标注 视觉词袋模型 多尺度空间 多尺度视觉词 多核学习 权重优化
下载PDF
SEMBeF:一种基于分片循环神经网络的敏感高效的恶意代码行为检测框架 被引量:4
20
作者 詹静 范雪 +1 位作者 刘一帆 张茜 《信息安全学报》 CSCD 2019年第6期67-79,共13页
词向量和循环神经网络(Recurrent Neural Network,RNN)能够识别语义和时序信息,在自然语言识别方面中取得了巨大成功。同时,代码运行时产生的API调用序列也反映了代码的真实意图,因此我们将之应用于恶意代码识别中,期望在取得较高正确... 词向量和循环神经网络(Recurrent Neural Network,RNN)能够识别语义和时序信息,在自然语言识别方面中取得了巨大成功。同时,代码运行时产生的API调用序列也反映了代码的真实意图,因此我们将之应用于恶意代码识别中,期望在取得较高正确率的同时减少人工提取和分析代码特征工作。然而仍然存在三个问题:1)不少恶意代码故意通过随机混合调用敏感API和非敏感API破坏正常的上下文,对这两种API同等对待可能产生漏报;2)为尽可能全面收集代码行为,代码运行期间产生的API序列长度较长,这将导致RNN学习时间过长;3)经典RNN常用的softmax分类函数泛化能力不强,准确率有待提高。为了解决上述问题,本文提出了一种基于分片RNN(Sliced Recurrent Neural Network,SRNN)的敏感高效的恶意代码行为检测架构SEMBeF。在SEMBeF中,我们提出了一种安全敏感API权重增强的敏感词向量算法,使得代码表示结果既包含上下文信息又包含安全敏感权重信息;我们还提出了一种SGRU-SVM网络结构,通过并行计算大幅降低了因代码API调用序列过长引起的训练时间过长的问题,提高了检测正确率;最后针对样本平衡和网络模型超参数选择问题进行了优化,进一步提高了检测正确率。本文还实现了SEMBeF验证系统,实验表明,与其他基于经典词向量和RNN的深度学习方法以及常用的机器学习方法相比,SEMBeF不仅检测正确率最高,训练效率也得到了显著提升。其中,检测正确率和训练时间分别为99.40%和210分钟,与传统RNN相比,正确率提高了0.48%,训练时间下降了96.6%。 展开更多
关键词 恶意代码行为检测 API序列 敏感词向量模型 分片循环神经网络(Sliced Recurrent Neural Network SRNN)
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部