期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
Exogenous approach to improve topic segmentation 被引量:1
1
作者 Marwa Naili Anja Habacha Chaibi Henda Hajjami Ben Ghezala 《International Journal of Intelligent Computing and Cybernetics》 EI 2016年第2期165-178,共14页
Purpose-Topic segmentation is one of the active research fields in natural language processing.Also,many topic segmenters have been proposed.However,the current challenge of researchers is the improvement of these seg... Purpose-Topic segmentation is one of the active research fields in natural language processing.Also,many topic segmenters have been proposed.However,the current challenge of researchers is the improvement of these segmenters by using external resources.Therefore,the purpose of this paper is to integrate study and evaluate a new external semantic resource in topic segmentation.Design/methodology/approach-New topic segmenters(TSS-Onto and TSB-Onto)are proposed based on the two well-known segmenters C99 and TextTiling.The proposed segmenters integrate semantic knowledge to the segmentation process by using a domain ontology as an external resource.Subsequently,an evaluation is made to study the effect of this resource on the quality of topic segmentation along with a comparative study with related works.Findings-Based on this study,the authors showed that adding semantic knowledge,which is extracted from a domain ontology,improves the quality of topic segmentation.Moreover,TSS-Ont outperforms TSB-Ont in terms of quality of topic segmentation.Research limitations/implications-The main limitation of this study is the used test corpus for the evaluation which is not a benchmark.However,we used a collection of scientific papers from well-known digital libraries(ArXiv and ACM).Practical implications-The proposed topic segmenters can be useful in different NLP applications such as information retrieval and text summarizing.Originality/value-The primary original contribution of this paper is the improvement of topic segmentation based on semantic knowledge.This knowledge is extracted from an ontological external resource. 展开更多
关键词 SEMANTICS Domain ontology External resources topic segmentation
原文传递
多层级信息增强异构图的篇章级话题分割模型
2
作者 张洋宁 朱静 +2 位作者 董瑞 尤泽顺 王震 《计算机工程与应用》 CSCD 北大核心 2024年第9期203-211,共9页
话题分割是自然语言处理领域的基础任务之一,按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足,并且忽略了篇章中的层次信息和上下文交互等问题,提出了一种多层级信息增强... 话题分割是自然语言处理领域的基础任务之一,按照话题相关性原则将文本分割为多个话题相关的文本块。针对现有话题分割模型提取句子深层语义信息方面明显不足,并且忽略了篇章中的层次信息和上下文交互等问题,提出了一种多层级信息增强异构图的篇章级话题分割模型MHG-TS。该方法利用篇章中的句子和关键词构建异构图网络,引入BERT预训练语言模型捕获图中节点的深层语义特征,在句子节点一阶邻域层级,利用图注意力机制为语义关联的节点分配更大的边权重,增强了一阶邻域中语义关联节点的信息交互;在关键词节点层级,引入关键词信息加强句子语义特征表示;在句子高阶邻域层级,利用关键词节点作为中介,构建了句子节点高阶邻域中的跨句信息交互,丰富了句子节点之间的非序列关系,最终通过融合多层级信息实现包含全局语义信息的句子表示。相较于当下流行的模型,在多个数据集上,三个评价指标性能平均值分别提高了3.08%、2.56%、5.92%,取得了最佳的实验结果。 展开更多
关键词 图注意力机制 预训练语言模型 话题分割 句子表示
下载PDF
结合领域知识的标签生成方法研究
3
作者 景道月 《计算机与数字工程》 2024年第5期1459-1462,1501,共5页
传统文本资源的标签生成算法忽略了与领域有关的语义属性,不适用于针对特定领域的标签生成任务。论文提出了一种适应于军事领域特征的标签生成算法,首先使用适合该领域的分词方法,进而基于文本资源的主题信息和词语的统计特征进行标签... 传统文本资源的标签生成算法忽略了与领域有关的语义属性,不适用于针对特定领域的标签生成任务。论文提出了一种适应于军事领域特征的标签生成算法,首先使用适合该领域的分词方法,进而基于文本资源的主题信息和词语的统计特征进行标签的自动生成。实验结果显示,所提方法在准确率、召回率及F值上较传统的TF-IDF算法有一定的提升。 展开更多
关键词 抽取 标签生成 分词 LDA主题模型 统计特征
下载PDF
基于多粒度对比学习的聊天对话摘要模型
4
作者 康梦瑶 刘扬 +2 位作者 黄俊恒 王佰玲 刘树龙 《计算机科学》 CSCD 北大核心 2023年第11期192-200,共9页
社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于... 社交网络的发展在给人们带来便捷的同时也产生了海量的聊天数据,如何从聊天对话中筛选出关键信息成为一大难题。聊天摘要是解决此类问题的有效工具,既不必重复浏览冗长的聊天记录,又可以快速获取重要内容。目前,预训练模型被广泛应用于各种类型的文本,包括非结构化、半结构化和结构化文本。然而,针对聊天对话文本的应用,常见的预训练模型难以捕捉到其独特的结构特征,仍需进一步探索与改进。对此,提出了一种基于对比学习的聊天摘要算法MGCSum。该算法无需人工标注数据集,便于学习和迁移。首先使用文档频数、词项频数和信息熵构造了针对聊天文本的停用词列表,去除聊天中的干扰信息;其次,从词语和主题两个粒度进行自监督对比学习,识别对话中的结构信息,挖掘聊天中的关键词和不同主题信息。在聊天摘要公开数据集SAMSum和金融欺诈对话数据集FINSum上进行实验,结果表明,与当前主流的聊天摘要方法相比,该算法在摘要的连贯性、信息量和ROUGE评价指标上均有显著提升。 展开更多
关键词 聊天摘要 对比学习 预训练模型 关键词检测 主题分割
下载PDF
基于组合范畴语法的周遍句歧义消解
5
作者 李冬晴 李嘉静 《贵州工程应用技术学院学报》 2023年第1期72-80,共9页
指人的周遍性成分后跟副词“也”“都”时,即:“NP1+NP2+都(也)+VP”结构。在某些条件下,该结构的语句会有话题句和焦点句两种歧义解读。如“张三谁都认识”。“也”“都”必须向左搜寻成分,使得疑问代词“谁”表达全称,再加上焦点句主... 指人的周遍性成分后跟副词“也”“都”时,即:“NP1+NP2+都(也)+VP”结构。在某些条件下,该结构的语句会有话题句和焦点句两种歧义解读。如“张三谁都认识”。“也”“都”必须向左搜寻成分,使得疑问代词“谁”表达全称,再加上焦点句主宾动的语言结构,函项不得不二次向左寻找论元,加大了组合难度。通过中文分词和组合范畴语法词性标注,放大词汇颗粒度,给“谁都”指派范畴并匹配语义,利用组合规则,生成话题句和焦点句的两种解读,从而实现周遍句歧义消解。 展开更多
关键词 中文分词 词性标注 话题句 焦点句 组合范畴语法
下载PDF
基于关键词的学术文本聚类集成研究 被引量:14
6
作者 张颖怡 章成志 陈果 《情报学报》 CSSCI CSCD 北大核心 2019年第8期860-871,共12页
文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是... 文本聚类是一种无监督且高效的文本类别划分方法。从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一。在学术文本聚类研究中,主要使用单一的聚类方法。目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一。因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究。为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能。同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果。实验结果表明,聚类集成算法能够提升学术文本聚类的性能。其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升。 展开更多
关键词 抽取 文本聚类 主题划分 聚类集成
下载PDF
基于主题划分的网页自动摘要 被引量:8
7
作者 陈志敏 沈洁 +1 位作者 林颖 周峰 《计算机应用》 CSCD 北大核心 2006年第3期641-644,共4页
提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整... 提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。 展开更多
关键词 WEB信息检索 文档对象模型 主题划分 句子重要度
下载PDF
基于局部主题关键句抽取的自动文摘方法 被引量:5
8
作者 徐超 王萌 +1 位作者 何婷婷 张勇 《计算机工程》 CAS CSCD 北大核心 2008年第22期49-51,共3页
自动文摘是语言信息处理中的重要环节。该文提出一种基于局部主题关键句抽取的中文自动文摘方法。通过层次分割的方法对文档进行主题分割,从各个局部主题单元中抽取一定数量的句子作为文章的文摘句。通过事先对文档进行语义分析,有效地... 自动文摘是语言信息处理中的重要环节。该文提出一种基于局部主题关键句抽取的中文自动文摘方法。通过层次分割的方法对文档进行主题分割,从各个局部主题单元中抽取一定数量的句子作为文章的文摘句。通过事先对文档进行语义分析,有效地避免了数据冗余和容易忽略分布较小的主题等问题。实验结果表明了该方法的有效性。 展开更多
关键词 自动文摘 主题分割 局部主题单元
下载PDF
基于规则和统计的中文自动文摘系统 被引量:21
9
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2006年第5期10-16,共7页
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成... 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 主题划分 可读性 评价
下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
10
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
下载PDF
基于GA的文本子主题切分中的参数优化研究 被引量:2
11
作者 钟彬彬 刘远超 徐志明 《计算机工程与应用》 CSCD 北大核心 2005年第21期97-99,共3页
如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划... 如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。 展开更多
关键词 隐式章节划分 TextTiling算法 遗传算法 参数优化
下载PDF
基于指代消解和篇章结构分析的自动摘录算法 被引量:2
12
作者 郑诚 刘福君 李清 《计算机工程》 CAS CSCD 2012年第16期170-173,共4页
传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文... 传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。 展开更多
关键词 自然语言处理 自动摘录 向量空间模型 主题划分 篇章结构 指代消解
下载PDF
基于维基百科和网页分块的主题爬行策略 被引量:5
13
作者 熊忠阳 史艳 张玉芳 《计算机应用》 CSCD 北大核心 2011年第12期3264-3267,共4页
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先... 针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。 展开更多
关键词 主题爬行 维基百科 主题描述 网页分块 相关度计算
下载PDF
基于CRF的百科全书文本段落划分 被引量:3
14
作者 许勇 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第10期16-18,共3页
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法... CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。 展开更多
关键词 文本段落划分 条件随机域模型 隐马尔科夫模型
下载PDF
改进多分类器集成AdaBoost算法的Web主题分类 被引量:2
15
作者 伍杰华 倪振声 《计算机应用与软件》 CSCD 北大核心 2013年第11期64-67,共4页
现有的Web主题分类算法一般基于单一模型构建或者仅仅把多个单一模型简单叠加进行决策。针对该问题,提出一种基于多分类器集成的改进AdaBoost算法的Web主题分类方法。算法先采用VIPS算法获取页面分块并获取其视觉特征和文本特征,根据每... 现有的Web主题分类算法一般基于单一模型构建或者仅仅把多个单一模型简单叠加进行决策。针对该问题,提出一种基于多分类器集成的改进AdaBoost算法的Web主题分类方法。算法先采用VIPS算法获取页面分块并获取其视觉特征和文本特征,根据每一类特征的维度分别训练弱分类器,然后计算其对应的错误率,修改错误判别的拒绝策略,从而针对不同特征产生相应的最优分类器,最后对两类最优分类器级联决策。实验结果表明,该方法能提高AdaBoost算法对复杂Web主题信息的分类准确率,同时也为Web主题分类领域的研究提供一种新的方案。 展开更多
关键词 WEB主题 ADABOOST 分类器 分类集成 特征分类 主题切分
下载PDF
基于半CRF模型的百科全书文本段落划分 被引量:2
16
作者 许勇 宋柔 《北京工业大学学报》 CAS CSCD 北大核心 2008年第2期204-210,共7页
介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语... 介绍了基于半条件随机域(semi-Markov conditional random fields,简称semi-CRFs)模型的百科全书文本段落划分方法.为了克服单纯的HMM模型和CRF模型的段落类型重复问题,以经过整理的HMM模型状态的后验分布为基本依据,使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应目标文本的特点.实验结果表明,该划分方法可以综合利用各种不同类型的信息,比较适合百科全书文本的段落结构,可以取得比单纯的HMM模型和CRF模型更好的性能. 展开更多
关键词 自然语言处理 机器学习 隐马尔科夫模型 文本段落划分 半条件随机域模型
下载PDF
数字图书馆馆藏资源多粒度层级主题分割研究 被引量:3
17
作者 王忠义 黄京 《情报学报》 CSSCI 北大核心 2015年第9期991-998,共8页
数字图书馆馆藏资源服务粒度过大、集成度不高的主要原因在于馆藏资源知识组织的粒度过粗。为解决这一问题,本文提出一种数字图书馆馆藏资源多粒度层级主题分割方法。该方法基于最优分割,采取自上而下逐步二分的策略,首先将待分割文... 数字图书馆馆藏资源服务粒度过大、集成度不高的主要原因在于馆藏资源知识组织的粒度过粗。为解决这一问题,本文提出一种数字图书馆馆藏资源多粒度层级主题分割方法。该方法基于最优分割,采取自上而下逐步二分的策略,首先将待分割文本包含的所有语句视为一个类,而后对该类进行逐级二分,直到识别出所有的主题为止,最终生成一棵文档分割树。该树结构的突出优势是可以实现馆藏资源的多粒度层级组织,进而提供多粒度集成知识服务。 展开更多
关键词 数字图书馆 多粒度 层级分割 最优分割
下载PDF
基于碎片化UGC的知识元抽取研究 被引量:5
18
作者 王忠义 郑鑫 《情报理论与实践》 CSSCI 北大核心 2021年第1期188-194,共7页
[目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量... [目的/意义]在大数据环境下,从海量的碎片化用户生成内容中抽取具有完整语义的知识单元。[方法/过程]文章提出一种基于碎片化UGC的知识元抽取方法,该方法首先借助BTM主题分割方法从UGC中抽取知识要素,而后基于融合TextRank和Glove词向量的K-means方法实现知识要素聚类,最后根据知识要素相关属性和知识要素聚类结果生成对应UGC知识元。[结果/结论]实验结果显示基于碎片化UGC的知识元抽取方法具有一定科学性和有效性。 展开更多
关键词 用户生成内容 知识元 知识元抽取 主题分割 碎片化
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
19
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
在线用户评论的主题发现研究 被引量:3
20
作者 王和勇 崔蓉 《现代情报》 CSSCI 北大核心 2015年第9期63-69,共7页
在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information G... 在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验。实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关。 展开更多
关键词 中文分词 主题发现 拉普拉斯评分 信息增益 支持向量机
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部