期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
Text Rank for Domain Specific Using Field Association Words 被引量:1
1
作者 Omnia G. El Barbary El Sayed Atlam 《Journal of Computer and Communications》 2020年第11期69-79,共11页
Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Associ... Text Rank is a popular tool for obtaining words or phrases that are important for many Natural Language Processing (NLP) tasks. This paper presents a practical approach for Text Rank domain specific using Field Association (FA) words. We present the keyphrase separation technique not for a single document, although for a particular domain. The former builds a specific domain field. The second collects a list of ideal FA terms and compounds FA terms from the specific domain that are considered to be contender keyword phrases. Therefore, we combine two-word node weights and field tree relationships into a new approach to generate keyphrases from a particular domain. Studies using the changed approach to extract key phrases demonstrate that the latest techniques including FA terms are stronger than the others that use normal words and its precise words reach 90%. 展开更多
关键词 Text rank Keyphrase Extraction Field Association words Information Retrieval
下载PDF
An Abstractive Summarization Technique with Variable Length Keywords as per Document Diversity 被引量:1
2
作者 Muhammad Yahya Saeed Muhammad Awais +4 位作者 Muhammad Younas Muhammad Arif Shah Atif Khan M.Irfan Uddin Marwan Mahmoud 《Computers, Materials & Continua》 SCIE EI 2021年第3期2409-2423,共15页
Text Summarization is an essential area in text mining,which has procedures for text extraction.In natural language processing,text summarization maps the documents to a representative set of descriptive words.Therefo... Text Summarization is an essential area in text mining,which has procedures for text extraction.In natural language processing,text summarization maps the documents to a representative set of descriptive words.Therefore,the objective of text extraction is to attain reduced expressive contents from the text documents.Text summarization has two main areas such as abstractive,and extractive summarization.Extractive text summarization has further two approaches,in which the first approach applies the sentence score algorithm,and the second approach follows the word embedding principles.All such text extractions have limitations in providing the basic theme of the underlying documents.In this paper,we have employed text summarization by TF-IDF with PageRank keywords,sentence score algorithm,and Word2Vec word embedding.The study compared these forms of the text summarizations with the actual text,by calculating cosine similarities.Furthermore,TF-IDF based PageRank keywords are extracted from the other two extractive summarizations.An intersection over these three types of TD-IDF keywords to generate the more representative set of keywords for each text document is performed.This technique generates variable-length keywords as per document diversity instead of selecting fixedlength keywords for each document.This form of abstractive summarization improves metadata similarity to the original text compared to all other forms of summarized text.It also solves the issue of deciding the number of representative keywords for a specific text document.To evaluate the technique,the study used a sample of more than eighteen hundred text documents.The abstractive summarization follows the principles of deep learning to create uniform similarity of extracted words with actual text and all other forms of text summarization.The proposed technique provides a stable measure of similarity as compared to existing forms of text summarization. 展开更多
关键词 METADATA page rank sentence score word2vec cosine similarity This
下载PDF
An Efficient Character-Level Adversarial Attack Inspired by Textual Variations in Online Social Media Platforms
3
作者 Jebran Khan Kashif Ahmad Kyung-Ah Sohn 《Computer Systems Science & Engineering》 SCIE EI 2023年第12期2869-2894,共26页
In recent years,the growing popularity of social media platforms has led to several interesting natural language processing(NLP)applications.However,these social media-based NLP applications are subject to different t... In recent years,the growing popularity of social media platforms has led to several interesting natural language processing(NLP)applications.However,these social media-based NLP applications are subject to different types of adversarial attacks due to the vulnerabilities of machine learning(ML)and NLP techniques.This work presents a new low-level adversarial attack recipe inspired by textual variations in online social media communication.These variations are generated to convey the message using out-of-vocabulary words based on visual and phonetic similarities of characters and words in the shortest possible form.The intuition of the proposed scheme is to generate adversarial examples influenced by human cognition in text generation on social media platforms while preserving human robustness in text understanding with the fewest possible perturbations.The intentional textual variations introduced by users in online communication motivate us to replicate such trends in attacking text to see the effects of such widely used textual variations on the deep learning classifiers.In this work,the four most commonly used textual variations are chosen to generate adversarial examples.Moreover,this article introduced a word importance ranking-based beam search algorithm as a searching method for the best possible perturbation selection.The effectiveness of the proposed adversarial attacks has been demonstrated on four benchmark datasets in an extensive experimental setup. 展开更多
关键词 Adversarial attack text classification social media character-level attack phonetic similarity visual similarity word importance rank beam search
下载PDF
国内高阶思维研究热点与发展趋势——基于多维尺度分析和社会网络分析
4
作者 张伟均 陈捷 《广州广播电视大学学报》 2023年第4期87-92,111,共7页
高阶思维作为21世纪创新型人才的必备技能之一,受到全球教育界的广泛关注。文章基于中国知网数据库收集国内关于高阶思维研究的相关文献,利用词频分析法、共词聚类法、多维尺度分析法,总结出国内高阶思维领域的四个研究热点:高阶思维内... 高阶思维作为21世纪创新型人才的必备技能之一,受到全球教育界的广泛关注。文章基于中国知网数据库收集国内关于高阶思维研究的相关文献,利用词频分析法、共词聚类法、多维尺度分析法,总结出国内高阶思维领域的四个研究热点:高阶思维内涵和要素等理论研究、对高阶思维能力的测评研究、智能技术支持下的高阶思维实践研究、基于学科融合的高阶思维教学培养研究等。借助社会网络分析预测其发展趋势,以期对未来高阶思维的创新研究提供借鉴。 展开更多
关键词 高阶思维 词频分析法 共词聚类法 多维尺度分析 社会网络分析
下载PDF
基于框架的词语搭配自动抽取方法 被引量:18
5
作者 曲维光 陈小荷 吉根林 《计算机工程》 CAS CSCD 北大核心 2004年第23期22-24,195,共4页
提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息。引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进... 提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息。引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进行词语搭配的自动抽取,抽取的搭配平均准确率为84.73%,较Xtract系统高4.7%,较国内同类工作结果高50.79%。并且在获得搭配的同时得到了词语搭配的结构信息。 展开更多
关键词 自动抽取 结构信息 大规模 统计学模型 互信息 抽取方法 框架 词语搭配 同类 获取
下载PDF
基于Lucene的地名数据库快速检索系统 被引量:20
6
作者 张文元 周世宇 谈国新 《计算机应用研究》 CSCD 北大核心 2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器... 针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。 展开更多
关键词 LUCENE 地名 全文检索 数据库 中文分词 相关度排序
下载PDF
中文搜索引擎现状与展望 被引量:25
7
作者 都云程 卢献华 《中文信息学报》 CSCD 北大核心 1999年第3期61-64,F003,共5页
本文介绍了中文搜索引擎的发展现状,分析了中文搜索引擎中存在的问题,以及与国外先进的搜索引擎的差距,提出了中文搜索引擎的发展方向。
关键词 中文搜索引擎 全文检索 中文自动分词 搜索引擎
下载PDF
基于图排序的词汇情感消歧研究 被引量:3
8
作者 杨亮 张绍武 +1 位作者 林鸿飞 宋艳雪 《中文信息学报》 CSCD 北大核心 2014年第6期129-136,共8页
词汇情感消歧是文本情感倾向性分析的关键技术之一。该文在分析比较了词汇情感消歧和词义消歧异同后,从情感分析角度出发,提出了基于图排序的词汇情感消歧方法。该方法通过自动获取和人工校正相结合的方式获得多情感词汇,然后根据语义... 词汇情感消歧是文本情感倾向性分析的关键技术之一。该文在分析比较了词汇情感消歧和词义消歧异同后,从情感分析角度出发,提出了基于图排序的词汇情感消歧方法。该方法通过自动获取和人工校正相结合的方式获得多情感词汇,然后根据语义关系构建词义关系图,进而在词义关系图上迭代计算直至收敛,最后选择多情感词汇的词义中权值最大的词义作为结果输出,从而实现情感消歧。该文分别在新浪微博语料库和情感语料库上验证了该方法的有效性。 展开更多
关键词 多情感词汇 图排序 情感消歧
下载PDF
基于词句协同排序的单文档自动摘要算法 被引量:8
9
作者 张璐 曹杰 +1 位作者 蒲朝仪 伍之昂 《计算机应用》 CSCD 北大核心 2017年第7期2100-2105,共6页
对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然... 对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然后转化为简洁的矩阵表示形式,并从理论上证明了收敛性;最后进一步通过去冗余方法提高自动摘要的质量。真实数据集上的实验表明,基于词句协同排序的自动摘要算法较经典的TextRank算法在Rouge指标上提升13%~30%,能够有效提高摘要的生成质量。 展开更多
关键词 自动摘要 节录式摘要 单文档 图排序 词句协同
下载PDF
研究级学科文献收藏指标体系研究 被引量:4
10
作者 李冕斌 赵德霖 卞福荃 《情报科学》 CSSCI 北大核心 2002年第2期163-164,168,共3页
就高等院校研究级学科文献收藏质量和水平的评价标准进行了探讨 ,并建立了可行的定量评价体系。该体系同时也适合于科研院所、公共图书馆。
关键词 研究级学科 评价标准 评价方法 评价体系 文献收藏 研究级学科文献
下载PDF
一种波达方向估计的快速算法 被引量:6
11
作者 黄磊 吴顺君 张林让 《电波科学学报》 EI CSCD 北大核心 2005年第6期707-711,共5页
提出一种波达方向估计的快速算法。为了估计到信号子空间,该方法只需要多级维纳滤波器的前向递推,不需要估计样本协方差矩阵和对其作特征值分解,也不需要多级维纳滤波器的后向递推。从而使得该方法具有小运算量和低复杂度的特点,易于实... 提出一种波达方向估计的快速算法。为了估计到信号子空间,该方法只需要多级维纳滤波器的前向递推,不需要估计样本协方差矩阵和对其作特征值分解,也不需要多级维纳滤波器的后向递推。从而使得该方法具有小运算量和低复杂度的特点,易于实时处理。由于不需要估计样本协方差矩阵,所以该方法可以应用在小样本和快时变的信号环境中。仿真结果证明了该方法的有效性。 展开更多
关键词 波达方向 空间谱 降维 多级维纳滤波器
下载PDF
基于主题词对的文档重排方法 被引量:2
12
作者 何婷婷 许婷 +1 位作者 瞿国忠 涂新辉 《计算机工程与应用》 CSCD 北大核心 2007年第11期161-163,共3页
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索... 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。 展开更多
关键词 主题词对 概率潜在语义索引 文档重排
下载PDF
基于低秩稀疏分解与协作表示的图像分类算法 被引量:2
13
作者 张旭 蒋建国 +1 位作者 洪日昌 杜跃 《计算机科学》 CSCD 北大核心 2016年第7期83-88,共6页
目前,大部分图像分类算法为了获取较高的性能均需要充分的训练学习过程,然而在实际应用中,往往存在训练样本不足及过拟合等问题。为了避免上述问题出现,在朴素贝叶斯最近邻分类算法的原理框架下,基于非负稀疏编码、低秩稀疏分解以及协... 目前,大部分图像分类算法为了获取较高的性能均需要充分的训练学习过程,然而在实际应用中,往往存在训练样本不足及过拟合等问题。为了避免上述问题出现,在朴素贝叶斯最近邻分类算法的原理框架下,基于非负稀疏编码、低秩稀疏分解以及协作表示提出一种非参数学习的图像分类算法。首先,基于非负稀疏编码和最大值汇聚操作表示图像信息,并构建具有低秩性质的同类训练图像集的局部特征矩阵;其次,采用低秩稀疏分解结合别类标签信息构建两类视觉词典以充分利用同类图像的相关性和差异性;最后基于协作表示表征测试图像并进行分类决策,实验结果验证了所提算法的有效性。 展开更多
关键词 图像分类 视觉词袋 稀疏编码 低秩稀疏分解 协作表示
下载PDF
“‘大/小’+职衔性称谓”组合情况分析 被引量:5
14
作者 杨同用 刘惠瑶 《语言文字应用》 CSSCI 北大核心 2005年第3期83-87,共5页
现代汉语的职衔性称谓前可冠以“大”或“小”,这种格式中,“大小”与职衔性称谓在组合上有一定的规律,这种组合有特定的语用意义,同时能体现出作者或说话人特定的认识、视角和情感。
关键词 “大/小”+职衔性称谓 组合规律 语用环境 主观性
下载PDF
类别约束下的低秩优化特征字典构造方法 被引量:1
15
作者 吕煊 刘玉淑 +1 位作者 丁洪富 李爱迪 《计算机应用》 CSCD 北大核心 2014年第9期2668-2672,2677,共6页
字典模型(BOW)是一种经典的图像描述方法,模型中特征字典的构造方法至关重要。针对特征字典构造问题,提出了一种类别约束下的低秩优化特征字典构造方法 LRC-DT,通过低秩优化的方法使训练出来的特征字典在描述同类图像时表示系数矩阵的... 字典模型(BOW)是一种经典的图像描述方法,模型中特征字典的构造方法至关重要。针对特征字典构造问题,提出了一种类别约束下的低秩优化特征字典构造方法 LRC-DT,通过低秩优化的方法使训练出来的特征字典在描述同类图像时表示系数矩阵的秩相对较低,从而将类别信息引入到字典学习中,提高字典对图像描述的可分辨性。在标准公测库Caltech-101和Caltech-256上的实验结果表明:将SPM、稀疏编码下的SPM(ScSPM)、局部线性编码(LLC)和线性核函数的SPM(LSPM)编码方法中的特征字典替换为加入低秩约束(LRC)的特征字典后,随着训练样本数目增多,字典模型的分类准确率与未引入低秩约束的方法相比有所提高。 展开更多
关键词 字典模型 低秩优化 低秩描述 图像描述 图像分类
下载PDF
面向地学信息领域垂直搜索引擎设计与实现 被引量:4
16
作者 张思发 马永格 《计算机工程与应用》 CSCD 2012年第33期85-88,95,共5页
垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于... 垂直搜索引擎是搜索引擎领域的行业化分工,根据地学信息领域的行业特征、整体需求及其工作流程,在Nutch开源搜索引擎平台上添加了"庖丁解牛"中文分词算法、主题相关度评分算法、"主题词管理"选项等技术,建立了基于网络蜘蛛模型的面向地学信息领域的垂直搜索引擎。经过测试及结果比较,该系统相对于通用搜索引擎有明显的优势,使地学信息的定位和查找更加准确。该系统具有良好的扩展性和通用性,对垂直搜索引擎的研究和开发具有一定的借鉴作用。 展开更多
关键词 地学信息领域 垂直搜索引擎 NUTCH 中文分词 页面排序 主题词管理
下载PDF
网络大数据的文本内容分析 被引量:7
17
作者 程学旗 兰艳艳 《大数据》 2015年第3期62-71,共10页
文本内容分析是实现大数据的理解与价值发现的有效手段。尝试从短文本主题建模、单词表达学习和网页排序学习3个子方向,探讨网络大数据文本内容分析的挑战和研究成果,最后指出未来大数据文本内容分析的一些研究方向和问题。
关键词 文本内容分析 短文本主题建模 单词表达 排序学习
下载PDF
核心词自动分阶的一种计算模型——以纳西族玛丽玛萨话为例 被引量:2
18
作者 陈保亚 李子鹤 《云南民族大学学报(哲学社会科学版)》 CSSCI 北大核心 2012年第5期121-126,共6页
核心词分阶是判定同源关系的必要步骤。基于大规模语音对应数据库,我们提出并讨论一种算法模型,该模型计算核心词的核心程度,自动调整高阶核心词集和低阶核心词集,使得两阶词集在已知为同源关系的语言中,其分布与已知为接触关系的语言... 核心词分阶是判定同源关系的必要步骤。基于大规模语音对应数据库,我们提出并讨论一种算法模型,该模型计算核心词的核心程度,自动调整高阶核心词集和低阶核心词集,使得两阶词集在已知为同源关系的语言中,其分布与已知为接触关系的语言显著不同,即通过算法调整核心词集,使得有阶分布的显著性增加。这个算法模型的基本思路分为两个密切相关的部分:核心程度算法和两阶核心词调整算法。 展开更多
关键词 语源关系 核心词 自动分阶 算法模型 玛丽玛萨话
下载PDF
基于语义处理技术的信息检索模型 被引量:9
19
作者 王瑞琴 《情报学报》 CSSCI 北大核心 2012年第1期9-17,共9页
信息爆炸是当今信息社会的一大特点,如何在海量的信息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问题非常有潜力的方法。本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的信息检索模型... 信息爆炸是当今信息社会的一大特点,如何在海量的信息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问题非常有潜力的方法。本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的信息检索模型——SPTIR,该模型主要包括以下关键技术:基于词义消歧的语义查询扩展、基于词汇语义相关性度量的查询优化和基于文档语义相关性的检索结果重排序。最后使用大型测试数据集和多项性能指标对SPTIR模型的检索性能进行了试验评估,实验结果充分验证了SPTIR模型的竞争优势以及该模型采用的各项语义处理技术对提高检索性能所起的积极作用。 展开更多
关键词 词义消歧 语义相关性 查询扩展 查询优化 检索结果重排序
下载PDF
PHP+MYSQL环境下的中文分词技术研究 被引量:1
20
作者 徐殿军 崔宝华 《辽宁师范大学学报(自然科学版)》 CAS 北大核心 2008年第1期57-59,共3页
要想在上百亿的网页中找到有意义结果,最重要的是把最相关的结果显示出来,而且要排在最前面,这也称为相关度排序.中文分词的准确与否,常常直接影响到对搜索结果的相关度排序.对PHP编写模拟分词函数进行了研究和分析.给出了PHP+MYSQL环... 要想在上百亿的网页中找到有意义结果,最重要的是把最相关的结果显示出来,而且要排在最前面,这也称为相关度排序.中文分词的准确与否,常常直接影响到对搜索结果的相关度排序.对PHP编写模拟分词函数进行了研究和分析.给出了PHP+MYSQL环境下实现传统分词的实现过程.并在此基础上引入了字典的概念,因其在分词之前已提前调入内存,从而大大提高了分词的效率和准确性.在PHP+MYSQL环境下为中文的分词过程实现提供了良好的平台基础,丰富的PHP函数为实现精确的分词提供了语言和语法的支持,MYSQL轻型数据库为字典提供快速的存取. 展开更多
关键词 全文检索 中文分词 相关度排序 PHP MYSQL
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部