期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
Study on controllability of semantic accessibility scale from the internet-based system of automatic text summarization and evaluation 被引量:2
1
作者 DU Jia-li YU Ping-fang +1 位作者 ZHAO Hong-yan XU Jing 《通讯和计算机(中英文版)》 2008年第9期54-60,共7页
关键词 通信技术 计算机技术 控制方法 自动化系统
下载PDF
Intrinsic and Extrinsic Automatic Evaluation Strategies for Paraphrase Generation Systems
2
作者 Tulu Tilahun Hailu Junqing Yu Tessfu Geteye Fantaye 《Journal of Computer and Communications》 2020年第2期1-16,共16页
Paraphrase is an expression of a text with alternative words and orders to achieve a better clarity. Paraphrases have been found vital for augmenting training dataset, which aid to enhance performance of machine learn... Paraphrase is an expression of a text with alternative words and orders to achieve a better clarity. Paraphrases have been found vital for augmenting training dataset, which aid to enhance performance of machine learning models that intended for various natural language processing (NLP) tasks. Thus, recently, automatic paraphrase generation has received increasing attention. However, evaluating quality of generated paraphrases is technically challenging. In the literature, the importance of generated paraphrases is tended to be determined by their impact on the performance of other NLP tasks. This kind of evaluation is referred as extrinsic evaluation, which requires high computational resources to train and test the models. So far, very little attention has been paid to the role of intrinsic evaluation in which quality of generated paraphrase is judged against predefined ground truth (reference paraphrases). In fact, it is also very challenging to find ideal and complete reference paraphrases. Therefore, in this study, we propose semantic or meaning oriented automatic evaluation metric that helps to evaluate quality of generated paraphrases against the original text, which is an intrinsic evaluation approach. Further, we evaluate quality of the paraphrases by assessing their impact on other NLP tasks, which is an extrinsic evaluation method. The goal is to explore the relationship between intrinsic and extrinsic evaluation methods. To ensure the effectiveness of proposed evaluation methods, extensive experiments are done on different publicly available datasets. The experimental results demonstrate that our proposed intrinsic and extrinsic evaluation strategies are promising. The results further reveal that there is a significant correlation between intrinsic and extrinsic evaluation approaches. 展开更多
关键词 PARAPHRASE PARAPHRASE Generation natural language processing INTRINSIC EXTRINSIC automatic evaluation Word Embedding SENTIMENT Analysis
下载PDF
基于深度学习的生成式文本摘要综述 被引量:1
3
作者 陈明轩 肖诗斌 王洪俊 《软件导刊》 2024年第5期212-220,共9页
随着互联网飞速发展,文本数据呈现指数级增长,为文档管理、文本分类、信息检索等文本处理任务带来了前所未有的挑战。研究人员虽然开发了各种基于深度学习(DL)的生成式摘要(ATS)模型,但大部分最先进的ATS模型均基于DL架构,基于DL的生成... 随着互联网飞速发展,文本数据呈现指数级增长,为文档管理、文本分类、信息检索等文本处理任务带来了前所未有的挑战。研究人员虽然开发了各种基于深度学习(DL)的生成式摘要(ATS)模型,但大部分最先进的ATS模型均基于DL架构,基于DL的生成式文本摘要领域仍缺乏全面的文献调查。为此,提供了一份基于DL的ATS的全面调查。首先概述了ATS的概念,然后总结了基于DL的ATS的典型模型及其面临的主要问题、处理方法,最后强调ATS任务中的一些开放性挑战,以及当下的热点、难点问题和未来研究趋势,以期帮助研究人员更好地了解该领域的最新进展。 展开更多
关键词 自动文本摘要 深度学习 生成式摘要 自然语言处理 自然语言生成
下载PDF
基于深度学习的海洋热点新闻挖掘方法
4
作者 覃娴萍 丁昭旭 +1 位作者 仲国强 王栋 《计算机科学》 CSCD 北大核心 2024年第S02期98-107,共10页
移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相... 移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相关媒体报道、公众舆论在网上大量涌现,热点事件频频发生。针对多来源、多属性的网络海洋信息,基于多源文本聚类和自动摘要技术,提出一种基于深度学习的海洋热点新闻自动挖掘系统,包括多源涉海数据自动采集、数据预处理、特征提取、文本聚类、自动摘要五大功能模块。具体而言,网络爬虫程序从多个数据源采集多样且分散的海洋数据,自动将数据结构化后存入数据库;根据文本特征的近似程度和文本间的关联关系实现聚类分析,聚类结果为后继摘要生成、主题发现提供数据支撑;基于预训练语言模型强大的上下文理解能力和丰富的语言表达能力,提出基于预训练语言模型的海洋新闻自动摘要生成方法。通过多组实验证明了所提方法在各个评估指标上的有效性,突显出其在多源异构网络海洋新闻挖掘方面的优势。该方法为处理分散的海洋资讯信息、生成可读性更强的内容摘要提供可行的解决方案,对提高海洋信息获取效率、监测公众舆论走向、推动海洋信息的应用与传播具有重要意义。 展开更多
关键词 海洋新闻 文本聚类 自动摘要 深度学习 自然语言处理 预训练模型
下载PDF
自动文摘系统评价方法的研究与实践 被引量:8
5
作者 沈洲 王永成 +1 位作者 许一震 方澈 《情报学报》 CSSCI 北大核心 2001年第1期66-72,共7页
自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了... 自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了当前国内外自动文摘的评价方法 。 展开更多
关键词 自然语言处理 自动文摘系统 评价方法 内部评价方法 外部评价方法
下载PDF
一种基于词共现图的文档自动摘要研究 被引量:15
6
作者 耿焕同 蔡庆生 +1 位作者 赵鹏 于琨 《情报学报》 CSSCI 北大核心 2005年第6期651-656,共6页
本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定... 本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度.在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果. 展开更多
关键词 自动摘要 词共现图 主题 自然语言处理
下载PDF
TP-AS:一种面向长文本的两阶段自动摘要方法 被引量:12
7
作者 王帅 赵翔 +2 位作者 李博 葛斌 汤大权 《中文信息学报》 CSCD 北大核心 2018年第6期71-79,共9页
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令... 随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。 展开更多
关键词 自动文本摘要 自然语言处理 抽取和生成 循环神经网络
下载PDF
自动文摘评价方法综述 被引量:12
8
作者 张瑾 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘... 评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 自动文摘 自然语言处理 多文档文摘 文摘评价方法
下载PDF
一种基于文章主题和内容的自动摘要方法 被引量:12
9
作者 陈燕敏 王晓龙 +1 位作者 刘远超 楼喜中 《计算机工程与应用》 CSCD 北大核心 2004年第33期11-14,共4页
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇... 文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。 展开更多
关键词 自动文摘 自然语言处理 主题分析 内容分析 融合
下载PDF
一种主题句发现的中文自动文摘研究 被引量:8
10
作者 王萌 李春贵 +1 位作者 唐培和 王晓荣 《计算机工程》 CAS CSCD 北大核心 2007年第8期180-181,189,共3页
提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验... 提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验表明,该算法所得到的文摘,在各项指标上优于传统的文摘。 展开更多
关键词 主题句发现 自动文摘 句子聚类 自然语言处理
下载PDF
一种面向新闻文献的自动摘要系统的研究与实践 被引量:3
11
作者 沈洲 王永成 +1 位作者 许一震 吴芳芳 《计算机工程》 CAS CSCD 北大核心 2000年第9期70-72,共3页
主要介绍了一种面向新闻文献的自动摘要系统的研究与实践.阐述了面向新闻文献的自动摘要原理,在建立新闻文献主题提取规则库过程中的几点体会,又简要地介绍了系统的流程,最后给出了对该系统进行大规模黑箱测试的结果.评测结果显示... 主要介绍了一种面向新闻文献的自动摘要系统的研究与实践.阐述了面向新闻文献的自动摘要原理,在建立新闻文献主题提取规则库过程中的几点体会,又简要地介绍了系统的流程,最后给出了对该系统进行大规模黑箱测试的结果.评测结果显示该系统已经基本成熟,可以用于实际应用中. 展开更多
关键词 自然语言处理 自动摘要系统 新闻文献
下载PDF
基于统计语义和结构特征的自动文摘 被引量:8
12
作者 黄丽琼 何中市 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期187-190,共4页
在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同... 在分析自动文摘现有方法优缺点的基础上,提出了一种基于统计、语义和结构特征的自动文摘方法。用这些特征构成句子向量表示,并用机器学习的方法对其进行训练得到器,从而把自动文摘转换为分类问题。实验表明,该方法具有较好的重合率。同时,为了解决文摘的冗余和不连贯缺点,进行了一系列的后期处理,提高了文摘的质量。 展开更多
关键词 机器学习 自动文摘 句子相似度 自然语言处理
下载PDF
一种基于LDA的CRF自动文摘方法 被引量:13
13
作者 吴晓锋 宗成庆 《中文信息学报》 CSCD 北大核心 2009年第6期39-45,共7页
浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础... 浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础上提出了基于LDA的条件随机场(Conditional Random Field,CRF)自动文摘(LCAS)方法,研究了LDA在有监督的单文档自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入CRF模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的CRF文摘系统的质量。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 狄利赫雷分布 条件随机场
下载PDF
基于深度学习的文本自动摘要方案 被引量:11
14
作者 张克君 李伟男 +2 位作者 钱榕 史泰猛 焦萌 《计算机应用》 CSCD 北大核心 2019年第2期311-315,共5页
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gra... 针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。 展开更多
关键词 自然语言处理 生成式文本自动摘要 序列映射 自编码器 词向量 循环神经网络
下载PDF
一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践 被引量:2
15
作者 沈洲 王永成 韩客松 《高技术通讯》 EI CAS CSCD 2001年第9期28-32,共5页
介绍了一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践。首先阐述了主题敏感辞分析的心理语言学基础 ,然后详细介绍了系统中的主题敏感辞的获取、敏感辞修饰关系分析、敏感辞同现关系分析等步骤 ,最后给出了该系统与原有摘... 介绍了一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践。首先阐述了主题敏感辞分析的心理语言学基础 ,然后详细介绍了系统中的主题敏感辞的获取、敏感辞修饰关系分析、敏感辞同现关系分析等步骤 ,最后给出了该系统与原有摘要系统评价测试对比结果。评测结果显示 。 展开更多
关键词 自然语言处理 主题敏感辞分析 自动摘要系统 心理语言学 网络新闻 电子信息
下载PDF
基于Siamese LSTM的中文多文档自动文摘模型 被引量:3
16
作者 龚永罡 王嘉欣 +1 位作者 廉小亲 裴晨晨 《计算机应用与软件》 北大核心 2021年第3期287-290,326,共5页
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型。在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法... 在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型。在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率。实验结果表明,使用Siamese LSTM与传统余弦相似度等方法相比,生成的文摘在语义方面更贴近主题,质量更高,整个文摘系统的工作效率也显著提升。 展开更多
关键词 中文自动文摘 Siamese LSTM 自然语言处理 深度学习
下载PDF
基于认知心理学模型的自动文本摘要生成技术 被引量:1
17
作者 马汉华 邵志清 过弋 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第6期886-891,共6页
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关。提出了一个自动文本摘要生成系统(EI-ATS)。该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成。评价结果表明:该系统在多文件... 自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关。提出了一个自动文本摘要生成系统(EI-ATS)。该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成。评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例。 展开更多
关键词 自然语言处理 自动文本生成
下载PDF
基于选择倾向性的词汇获取方法 被引量:1
18
作者 王大亮 蒋宏潮 +2 位作者 涂序彦 郑雪峰 佟子健 《计算机工程》 CAS CSCD 北大核心 2008年第12期169-171,共3页
通过分析几种统计评价方法发现,互信息法可用于衡量二元独立性,淘汰机会二元组;χ2检验能更合理地评价词汇组合的选择倾向性,获取频繁二元组发现;对数似然比检验可以有效获取稀疏二元组,弥补其他方法无法克服的稀疏数据问题。将互信息、... 通过分析几种统计评价方法发现,互信息法可用于衡量二元独立性,淘汰机会二元组;χ2检验能更合理地评价词汇组合的选择倾向性,获取频繁二元组发现;对数似然比检验可以有效获取稀疏二元组,弥补其他方法无法克服的稀疏数据问题。将互信息、χ2检验、对数似然比检验组合,并加入词汇子范畴框架的启发式规则,提出一个层次分明的综合多种统计评价方法的词汇获取方法。 展开更多
关键词 自然语言处理 词汇获取 新词发现 选择倾向性 统计评价方法
下载PDF
自然语言文本语义接受度的在线系统评价研究 被引量:1
19
作者 杜家利 于屏方 《计算机工程与应用》 CSCD 北大核心 2008年第26期141-143,157,共4页
语义接受度(SAS)是衡量自然语言文本可理解程度的标尺。通过结合自动文摘系统评价方法和文体学分析方法,提出了可用于在线分析英语文学文本SAS的系统评价公式,并通过诺贝尔文学获奖作品《老人与海》的语料分析验证了公式的可适用性:不... 语义接受度(SAS)是衡量自然语言文本可理解程度的标尺。通过结合自动文摘系统评价方法和文体学分析方法,提出了可用于在线分析英语文学文本SAS的系统评价公式,并通过诺贝尔文学获奖作品《老人与海》的语料分析验证了公式的可适用性:不同的抽取率不会引起评价值的显著差异。尽管存在域的有限性、域的单一性和在线评价相对性等不足,此公式为文学评论者借助网络进行英语文本SAS在线评价提供了便利。 展开更多
关键词 自然语言文本 语义接受度 系统评价 自动文摘系统 文体
下载PDF
论文本的自动摘要 被引量:1
20
作者 王永成 刘功申 +2 位作者 刘传汉 胡佩华 孙展 《中国索引》 2003年第2期34-39,共6页
自动摘要的研究是自然语言处理领域的一项重要且具有实践意义的工作,同时也是Internet信息处理的主要研究任务之一。本文叙述了自动摘要系统的历史和现状,并对它们做了归纳和总结。根据作者的观点,摘要大致可以分为五类;主题摘要、信息... 自动摘要的研究是自然语言处理领域的一项重要且具有实践意义的工作,同时也是Internet信息处理的主要研究任务之一。本文叙述了自动摘要系统的历史和现状,并对它们做了归纳和总结。根据作者的观点,摘要大致可以分为五类;主题摘要、信息摘要、纲目摘要、摘录型摘要和评论型摘要。所采用的方法可分为下列七种:位置法、提示字串法、频率统计法、信息抽取法、框架法、理解分析法和仿人方法。 展开更多
关键词 自动摘要 自然语言处理 信息处理
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部