期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
A Method of Integrating Length Constraints into Encoder-Decoder Transformer for Abstractive Text Summarization
1
作者 Ngoc-Khuong Nguyen Dac-Nhuong Le +1 位作者 Viet-Ha Nguyen Anh-Cuong Le 《Intelligent Automation & Soft Computing》 2023年第10期1-18,共18页
Text summarization aims to generate a concise version of the original text.The longer the summary text is,themore detailed it will be fromthe original text,and this depends on the intended use.Therefore,the problem of... Text summarization aims to generate a concise version of the original text.The longer the summary text is,themore detailed it will be fromthe original text,and this depends on the intended use.Therefore,the problem of generating summary texts with desired lengths is a vital task to put the research into practice.To solve this problem,in this paper,we propose a new method to integrate the desired length of the summarized text into the encoder-decoder model for the abstractive text summarization problem.This length parameter is integrated into the encoding phase at each self-attention step and the decoding process by preserving the remaining length for calculating headattention in the generation process and using it as length embeddings added to theword embeddings.We conducted experiments for the proposed model on the two data sets,Cable News Network(CNN)Daily and NEWSROOM,with different desired output lengths.The obtained results show the proposed model’s effectiveness compared with related studies. 展开更多
关键词 Length controllable abstractive text summarization length embedding
下载PDF
Lacmia:抗混淆的多民族语言生成式摘要模型
2
作者 翁彧 罗皓予 +3 位作者 刘征 超木日力格 刘轩 董俊 《中文信息学报》 CSCD 北大核心 2024年第10期80-94,共15页
该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不... 该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。 展开更多
关键词 生成式摘要 多语言预训练模型 低资源语言信息处理 多目标学习
下载PDF
融合卷积收缩门控的生成式文本摘要方法
3
作者 甘陈敏 唐宏 +2 位作者 杨浩澜 刘小洁 刘杰 《计算机工程》 CAS CSCD 北大核心 2024年第2期98-104,共7页
在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的... 在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的局限性,无法充分概括有用信息,忽视单词与句子间的联系,易产生冗余重复或语义不相关的摘要。为此,提出一种基于Transformer和卷积收缩门控的文本摘要方法。利用BERT作为编码器,提取不同层次的文本表征得到上下文编码,采用卷积收缩门控单元调整编码权重,强化全局相关性,去除无用信息的干扰,过滤后得到最终的编码输出,并通过设计基础Transformer解码模块、共享编码器的解码模块和采用生成式预训练Transformer(GPT)的解码模块3种不同的解码器,加强编码器与解码器的关联,以此探索能生成高质量摘要的模型结构。在LCSTS和CNNDM数据集上的实验结果表明,相比主流基准模型,设计的TCSG、ES-TCSG和GPT-TCSG模型的评价分数增量均不低于1.0,验证了该方法的有效性和可行性。 展开更多
关键词 生成式文本摘要 序列到序列模型 Transformer模型 BERT编码器 卷积收缩门控单元 解码器
下载PDF
融合关键信息与专家网络的生成式文本摘要
4
作者 魏盼丽 王红斌 《吉林大学学报(理学版)》 CAS 北大核心 2024年第4期951-959,共9页
针对现有生成式摘要模型生成过程中存在原文本关键信息缺失和内容难控制的问题,提出一种结合抽取方法引导的生成式文本摘要方法.该方法首先通过抽取模型从原文本中获取关键句,然后采用双编码策略,分别编码关键句和新闻文本,使关键信息... 针对现有生成式摘要模型生成过程中存在原文本关键信息缺失和内容难控制的问题,提出一种结合抽取方法引导的生成式文本摘要方法.该方法首先通过抽取模型从原文本中获取关键句,然后采用双编码策略,分别编码关键句和新闻文本,使关键信息在解码过程中引导生成摘要,最后引入专家网络在解码时筛选信息,以进一步引导摘要生成.在数据集CNN/Daily Mail和XSum上的实验结果表明,该模型可有效改进生成式文本摘要的性能.该方法 在一定程度上提高了生成摘要对原文本关键信息的包含量,同时缓解了生成内容难控制的问题. 展开更多
关键词 生成式文本摘要 双编码器 关键信息 专家网络 引导感知
下载PDF
摘要AI文本检测中“猫鼠游戏”的行为界定和能力分析
5
作者 李启正 胡崴琳 祝成炎 《情报杂志》 CSSCI 北大核心 2024年第11期139-143,138,共6页
[研究目的]辨别学术论文中的AI内容已成为学术出版界面临的新问题。研究人类对AI文本的界定依据和分辨能力,以及机器猫(AI文本检测工具)对AI鼠(AI文本)的检测能力,为学术出版中AI文本检测提供理论参考。[研究方法]使用GPT-3.5-Turbo、GP... [研究目的]辨别学术论文中的AI内容已成为学术出版界面临的新问题。研究人类对AI文本的界定依据和分辨能力,以及机器猫(AI文本检测工具)对AI鼠(AI文本)的检测能力,为学术出版中AI文本检测提供理论参考。[研究方法]使用GPT-3.5-Turbo、GPT-4和GPT-4-Turbo三个不同版本的ChatGPT对中文权威学术期刊《计算机学报》的150篇中文论文进行了摘要AI生成和AI改写;对英文权威学术期刊Artificial intelligence的150篇英文论文进行了摘要AI翻译,分析人类和4款主流AI文本检测工具对于AI生成摘要、通过AI改写和AI翻译的伪装摘要的识别能力。[研究结论]根据调查问卷结果统计,人类一般会从直觉、表达习惯、逻辑性、语句过渡和数据合理性5个方面来界定AI文本。该实验研究范围内,人类对AI生成摘要、AI改写摘要和AI翻译摘要的分辨能力有限,识别率在50%~65%之间;而该文选用的4款AI文本检测工具识别率均在80%左右,但对于由高版本的GPT-4-Turbo模型生成的摘要,以及经过ChatGPT改写或翻译的摘要,目前主流AI文本检测工具也都表现不佳。因此在当前的学术出版过程中,出版者还应采用多种方式识别AI文本。 展开更多
关键词 摘要 AI文本检测 ChatGPT AIGC 大语言模型 学术不端
下载PDF
基于Graph Attention的双通道中文文本摘要生成
6
作者 曹渝昆 徐越 《计算机应用与软件》 北大核心 2024年第4期159-164,241,共7页
传统的中文生成式摘要方法未充分考虑中文文本字特征和词特征之间的不同含义,容易对原文内容的信息做出错误理解。提出一种基于Graph Attention的双通道中文文本摘要生成方法,采用双通道的编码器结构分别提取文本的字级和词级特征,并通... 传统的中文生成式摘要方法未充分考虑中文文本字特征和词特征之间的不同含义,容易对原文内容的信息做出错误理解。提出一种基于Graph Attention的双通道中文文本摘要生成方法,采用双通道的编码器结构分别提取文本的字级和词级特征,并通过Graph Attention提取文本对应的三元组集合特征,进行融合之后输入到带copy机制的解码端进行解码,从而提升原始文本的信息提取能力。对比实验结果表明,该方法在两个数据集上都有较好的表现。 展开更多
关键词 文本摘要 注意力机制 生成式摘要
下载PDF
学者撰写与AI生成内容的差异性与识别研究--以图书馆健康服务研究领域为例
7
作者 潘雪峰 王超 《图书情报导刊》 2024年第3期54-60,共7页
为了从实证角度分析图书馆健康服务研究领域中学者撰写摘要与GPT-4生成摘要的特征与差异,选取185篇公开发表的图书馆健康服务相关学术论文作为研究对象,基于获取的论文题目采用Prompt方式并应用GPT-4生成对应的摘要文本并构建数据集,应... 为了从实证角度分析图书馆健康服务研究领域中学者撰写摘要与GPT-4生成摘要的特征与差异,选取185篇公开发表的图书馆健康服务相关学术论文作为研究对象,基于获取的论文题目采用Prompt方式并应用GPT-4生成对应的摘要文本并构建数据集,应用HanLP 2.1对论文摘要进行分词,并采用TF-IDF进行向量化处理;通过6种特征筛选和6种数据降维对数据进行清洗;遍历13种机器学习方法并对结果进行分析,并从文本内容层面加以分析。研究发现:LightGBM分类法在数据降维的前提下可以完全区分论文摘要是由学者撰写还是由GPT-4生成;在文本的字数、词数和句数方面,学者撰写与GPT-4生成基本一致;在主题模型分析方面,二者相似度达到50%,学者撰写与GPT-4生成具有一定的相似性。机器学习算法在区分AI生成内容和学者撰写内容方面具有应用潜力,但二者存在明显的“形似”而非“神似”的现象。学者应关注AI生成内容的准确性、真实性以及语言逻辑的合理性,谨慎使用AI工具。 展开更多
关键词 GPT-4 论文摘要 文本分类 文本特征 图书馆
下载PDF
长文本摘要生成:基于Pegasus模型的STM32论文摘要生成分割策略研究
8
作者 龙川 张芹 +3 位作者 谢亮生 潘琛 文瑜 杨俊锋 《电脑与信息技术》 2024年第4期64-66,90,共4页
研究探讨了使用预训练的Pegasus模型进行长文本摘要时,不同文本分割方法对摘要质量的影响。收集来自知网的200篇关于STM32单片机的学术论文作为实验文本,比较了滑动窗口、句子分割、段落分割及滑动窗口加句子分割四种分割法的长文本摘... 研究探讨了使用预训练的Pegasus模型进行长文本摘要时,不同文本分割方法对摘要质量的影响。收集来自知网的200篇关于STM32单片机的学术论文作为实验文本,比较了滑动窗口、句子分割、段落分割及滑动窗口加句子分割四种分割法的长文本摘要生成效果。实验使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)指标对生成的摘要进行评估,并对实验结果进行了详细分析。在生成摘要的质量方面,段落分割法表现出色,其ROUGE-1、ROUGE-2和ROUGE-L评分分别达到了30.85、7.60和20.15,轻微超过了句子分割法的评分,且显著优于句子分割加滑动窗口法。该研究旨在为研究者和开发者提供关于长文本摘要的实践经验和见解。 展开更多
关键词 长文本摘要 分割策略 Pegasus模型 STM32学术论文摘要
下载PDF
基于BBCM-TextRank的文本摘要提取算法研究
9
作者 井钰 王名扬 周文远 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第3期67-75,共9页
针对TextRank算法计算句子权重仅依赖文本间相似度和生成摘要存在较大冗余的问题,提出一种改进的文本摘要提取算法BBCM-TextRank(BERT-BiLSTM-CRF-TextRank-MMR).利用Word2Vec模型对文本句子进行向量表示,采用TextRank算法计算句子的权... 针对TextRank算法计算句子权重仅依赖文本间相似度和生成摘要存在较大冗余的问题,提出一种改进的文本摘要提取算法BBCM-TextRank(BERT-BiLSTM-CRF-TextRank-MMR).利用Word2Vec模型对文本句子进行向量表示,采用TextRank算法计算句子的权重.基于BERT-BiLSTM-CRF模型,识别出文本中的重要实体并据此进一步优化句子权重.引入MMR算法降低摘要的冗余,提升摘要语句的多样性,最终获得更为准确和全面的文本摘要.在LCSTS数据集上的实验结果表明,本文提出的BBCM-TextRank算法能有效提取文本语句中的实体特征,获得较为合适的句子权重,同时可以有效消除候选摘要中的冗余句子,从而获得重要性和多样性兼备的文本摘要. 展开更多
关键词 文本摘要 命名实体识别 BERT-BiLSTM-CRF textRank
下载PDF
An IMRD-based Contrastive Study of Move in Aquatic Biology Article Abstracts by Native English Speakers and Chinese Authors
10
作者 王儒钰 《海外英语》 2019年第24期111-112,共2页
Although contrastive move analysis of article abstracts has been a highlight,few studies focus on abstracts of natural sci⁃ence articles.To compensate for this gap,this study,based on IMRD model,focuses on aquatic bio... Although contrastive move analysis of article abstracts has been a highlight,few studies focus on abstracts of natural sci⁃ence articles.To compensate for this gap,this study,based on IMRD model,focuses on aquatic biology abstracts and contrasts those by native English speakers and those by Chinese authors.Combining quantitative and qualitative studies,it reveals their dif⁃ferences and similarities in terms of the frequency of different moves,sentence length and move length significance.Such similari⁃ties and differences can be explained by the face culture of China,the different language proficiency and the common convention of academic abstract. 展开更多
关键词 MOVE IMRD model abstract GENRE academic text
下载PDF
AI生成与学者撰写中文论文摘要的检测与差异性比较研究 被引量:11
11
作者 王一博 郭鑫 +1 位作者 刘智锋 王继民 《情报杂志》 CSSCI 北大核心 2023年第9期127-134,共8页
[研究目的]该研究从实证角度对AI生成与学者撰写的中文论文摘要的检测方法进行研究,并分析其文本内容特征差异,可为AI生成文本的自动检测及相关研究提供参考。[研究方法]首先,以图书馆学领域100篇高被引论文为例,基于论文题目应用GPT-4... [研究目的]该研究从实证角度对AI生成与学者撰写的中文论文摘要的检测方法进行研究,并分析其文本内容特征差异,可为AI生成文本的自动检测及相关研究提供参考。[研究方法]首先,以图书馆学领域100篇高被引论文为例,基于论文题目应用GPT-4大模型生成相应的摘要,构建分析数据集;其次,采用有监督的机器学习和深度预训练模型对GPT-4生成和学者撰写的摘要进行分类检测,同时采用查重软件对内容的重复率进行检测;最后,分别从摘要长度、句子数量、词汇特征、常用搭配等维度,揭示AI生成与学者撰写中文论文摘要之间的异同点。[研究结论]基于训练语料所搭建的分类器可有效识别中文论文摘要是否由AI生成,其中,逻辑回归(Logistic)、集成学习模型(RF、LightGBM)和BERT模型的F_(1)-Score均超过90%。AI生成的摘要呈现出较高的同质性,具有较强的写作逻辑性,并惯用归纳总结等学术话语体系;而学者撰写的摘要则具有显著的个性化差异,使用凸显实际含义的搭配较多,并常用与国家政策密切相关的词语。 展开更多
关键词 图书馆学 AIGC GPT-4 论文摘要 摘要检测 文本分类
下载PDF
一种面向新闻文本的生成式中文摘要生成模型 被引量:1
12
作者 韩珊珊 王升辉 万丽莉 《中国传媒大学学报(自然科学版)》 2023年第3期24-30,共7页
生成技术旨在解决海量中文文本所带来的信息过载和冗余问题,以提高信息传播效率和方便读者获取信息。在序列到序列深度模型基础上,提出了一种引入对比学习的中文摘要生成模型SimCLCTS (Simple Model for Contrastive Learning of Chines... 生成技术旨在解决海量中文文本所带来的信息过载和冗余问题,以提高信息传播效率和方便读者获取信息。在序列到序列深度模型基础上,提出了一种引入对比学习的中文摘要生成模型SimCLCTS (Simple Model for Contrastive Learning of Chinese Text Summarization)。SimCLCTS通过在模型中增加以对比损失函数为特征的无监督评估模块,弥补了序列到序列模型中学习目标和评价指标不一致导致的暴露偏差问题。对比实验表明,该模型减少了暴露偏差量,在面向新闻类的中文文本摘要生成中取得了良好效果。 展开更多
关键词 生成式摘要 中文文本 序列到序列模型 对比学习
下载PDF
抽取-生成式自动文本摘要技术研究综述 被引量:2
13
作者 刘迪 奚雪峰 +1 位作者 崔志明 盛胜利 《计算机技术与发展》 2023年第5期1-8,共8页
自动文本摘要技术是一项利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的信息压缩技术。在当前互联网的快速发展背景下,涌现出大量复杂的信息,导致人工无法精准捕捉有效的信息。为此,在本着更准确、更便捷、更高效地收... 自动文本摘要技术是一项利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的信息压缩技术。在当前互联网的快速发展背景下,涌现出大量复杂的信息,导致人工无法精准捕捉有效的信息。为此,在本着更准确、更便捷、更高效地收集信息为目的的前提下,利用自然语言处理中自动文本摘要技术处理复杂文本的优势将显得格外突出。随着抽取式摘要技术和生成式摘要技术的发展成熟,抽取-生成式摘要技术逐渐兴起。以技术分析为干线,对抽取-生成式摘要技术进行综述。首先,介绍了抽取-生成式摘要技术中的评价方法以及常用中英文数据集;其次,通过实例分析六类主流技术方法并对比其优缺点:基于强化学习的方法、基于信息论的方法、基于指针网络的方法、基于序列标注的方法、基于预训练的方法、基于联合注意力的方法;最后,总结了抽取-生成式摘要技术面临的挑战并展望了抽取-生成式摘要技术未来的发展方向。 展开更多
关键词 自然语言处理 自动文本摘要 抽取-生成式 评价方法 数据集
下载PDF
基于关键信息指导的文本摘要模型 被引量:1
14
作者 林舟 周绮凤 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第9期1251-1258,共8页
现有生成式文本摘要模型缺乏对关键词信息的关注,存在输入文本中关键信息丢失问题.因此,提出了一种基于关键词语义信息增强的指针生成网络(keyword semantic information enhancement pointer-generator networks,KSIE-PGN)模型.首先,... 现有生成式文本摘要模型缺乏对关键词信息的关注,存在输入文本中关键信息丢失问题.因此,提出了一种基于关键词语义信息增强的指针生成网络(keyword semantic information enhancement pointer-generator networks,KSIE-PGN)模型.首先,构建了基于DistilBERT的关键词抽取模型(keywords selection method based on BERT,KSBERT).其次,提出了基于关键词掩码的覆盖机制,在使用覆盖机制时,保留解码过程中模型对关键词的持续关注.接着,KSIE-PGN模型在解码过程融合了多种关键词信息,包括关键词语义向量和关键词上下文向量,从而解决解码器丢失输入文本关键信息这一问题.在CNN/Daily Mail数据集上的实验结果表明KSIE-PGN模型能够较好地捕捉输入文本中的关键信息. 展开更多
关键词 生成式文本摘要 指针生成网络 关键词信息 关键词掩码 覆盖机制
下载PDF
摘要语言视角下医学突破性论文识别研究
15
作者 林紫洛 杨雪梅 +2 位作者 于诗睿 陈逸菲 唐小利 《医学信息学杂志》 CAS 2023年第5期39-44,共6页
遴选具有代表性的突破性论文集,分析论文摘要语言学特征,提取特征句式并划分摘要语步,利用深度学习算法构建医学突破性论文摘要识别模型。实证结果表明模型在具体医学领域中适用,为突破性论文早期发现提供参考。
关键词 突破性论文 摘要文本 语言学特征 自动识别
下载PDF
论文摘要写作避用“本文”类词作主语说商榷——基于诸多学术名刊论文摘要写作实例的理性思考
16
作者 高云海 路崴崴 《通化师范学院学报》 2023年第1期22-28,共7页
这里所谓“本文”类词,是“本文”“文章”“笔者”“作者”“我们”等词语的统称。此类词,学术论文摘要写作中是否允许其作主语?目前比较倾向性的意见是“避用”说,即在学术论文摘要写作中不允许用它作主语。但从写作实践看,不但一般... 这里所谓“本文”类词,是“本文”“文章”“笔者”“作者”“我们”等词语的统称。此类词,学术论文摘要写作中是否允许其作主语?目前比较倾向性的意见是“避用”说,即在学术论文摘要写作中不允许用它作主语。但从写作实践看,不但一般学术期刊所刊论文摘要时见“本文”类词作主语,而且一些名家所撰、名刊所刊论文也不乏其例。之所以如此,一是“避用”说所赖以为据的“编写文摘的注意事项”给写作留下了空间;二是更有表达的需要;三是也有宜写宜读的优势。因此,无论是从写作实践上看,还是从理论上看,“避用”说都是值得商榷的。实际上,论文摘要应以完成其使命为终极目的,至于写作中是否使用人称、使用什么人称作主语,似乎不必过于拘泥和纠结。 展开更多
关键词 “本文”类词 论文摘要写作 避用 商榷
下载PDF
融合法条的司法裁判文书摘要生成方法
17
作者 魏鑫炀 秦永彬 +2 位作者 唐向红 黄瑞章 陈艳平 《计算机工程与设计》 北大核心 2023年第9期2844-2850,共7页
针对司法裁判文书摘要生成过程中忽略案件审理逻辑脉络,导致许多重要信息丢失的问题,基于法官的案件审理逻辑脉络,提出融合法条的裁判文书生成方法。通过构建法条的外部知识编码器,将该编码器融合到Encoder-Decoder摘要框架中,利用知识... 针对司法裁判文书摘要生成过程中忽略案件审理逻辑脉络,导致许多重要信息丢失的问题,基于法官的案件审理逻辑脉络,提出融合法条的裁判文书生成方法。通过构建法条的外部知识编码器,将该编码器融合到Encoder-Decoder摘要框架中,利用知识编码表示后的法条在摘要过程中辅助保留裁判文书中的重要信息,提升司法摘要生成模型的性能。实验结果表明,该模型在F1指标上相比主流的指针生成网络摘要模型分别提升了1.37 ROUGE-1、4.91 ROUGE-02、3.91 ROUGE-L。 展开更多
关键词 司法摘要 司法领域 文本摘要 法律条文 外部知识 成式摘要 案件审理逻辑脉络
下载PDF
文本挖掘技术研究进展 被引量:58
18
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
下载PDF
中文新闻关键事件的主题句识别 被引量:18
19
作者 王伟 赵东岩 赵伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第5期789-796,共8页
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新... 提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件信息打好了基础。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 事件抽取 新闻标题
下载PDF
Web文本信息的特征获取算法 被引量:27
20
作者 刘明吉 王秀峰 +1 位作者 饶一梅 黄亚楼 《小型微型计算机系统》 CSCD 北大核心 2002年第6期683-686,共4页
Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文... Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文本的处理效率 ,为文本的分类、聚类以及其它处理提供了简练的特征表示方法 .实验证明 ,该种处理方法有效地降低了文本特征矢量的维数 . 展开更多
关键词 WEB 文本信息 特征获取算法 遗传算法 INTERNET WWW
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部