期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
一种新闻类WORD格式文件数据抽取算法研究
1
作者 张志强 王伟钧 +1 位作者 张修军 施达 《成都大学学报(自然科学版)》 2022年第2期151-156,共6页
为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理... 为了对新闻类信息进行搜索和数据分析,需要从大量保存新闻类信息的WORD文件中进行信息检索.使用人工直接检索WORD文件的方式效率较低,因此,考虑从WORD文件中抽取有用信息来构建新闻信息数据库,然后在数据库中进行数据搜索和新闻数据处理.提出一种新闻类WORD格式文件数据抽取算法,使用该算法从批量新闻类WORD文件中高效自动读取文件内容,清洗无用数据,并抽取有用信息数据构建数据库. 展开更多
关键词 新闻类 word格式 数据抽取 清洗数据 批量文件自动读取 数据库
下载PDF
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 被引量:13
2
作者 刘奇飞 沈炜域 《情报探索》 2018年第6期22-27,共6页
[目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构... [目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构建概率转移矩阵,提出改进的Word2Vec和TextRank算法。[结果/结论 ]运用改进的Word2Vec和TextRank算法对时政类新闻关键词进行抽取,其准确率、召回率和F值均优于传统TextRank算法及普通的融合Word2Vec和TextRank算法,抽取效果更好。 展开更多
关键词 时政新闻 关键词抽取 TextRank算法 word2Vec模型 词图
下载PDF
融合新词发现和改进TextRank算法的农业领域关键词提取算法 被引量:1
3
作者 邸小康 张辉 +3 位作者 秦晓婧 齐世杰 王彩虹 程旭 《农业工程》 2023年第6期21-25,共5页
针对农业领域文本中专业术语类关键词提取困难的问题,提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法。该算法利用信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;在分... 针对农业领域文本中专业术语类关键词提取困难的问题,提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法。该算法利用信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;在分词字典基础上,改进TextRank算法在词图构建中节点值的计算方法,添加词语位置和词性权重,利用词语综合权重提取文本关键词。对比结果表明,该算法的F值比传统的TF-IDF算法平均提高7.5%,比TextRank算法平均提高9.8%,具有一定的实用性。 展开更多
关键词 提取 新词发现 信息熵 TextRank算法
下载PDF
基于分类的微博新情感词抽取方法和特征分析 被引量:19
4
作者 刘德喜 聂建云 +5 位作者 万常选 刘喜平 廖述梅 廖国琼 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2018年第7期1574-1597,共24页
情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发... 情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源.考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEm.cNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性.通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现、六类特征的作用和用法以及抽取的新情感词对微博情感分类任务的帮助作用.实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时.对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种. 展开更多
关键词 微博 新情感词抽取 cNSEm方法 特征分析
下载PDF
面向社会媒体的开放领域新词发现 被引量:15
5
作者 张华平 商建云 《中文信息学报》 CSCD 北大核心 2017年第3期55-61,共7页
随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低... 随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6GB社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。 展开更多
关键词 社会媒体 新词发现 条件随机场
下载PDF
基于概率统计技术和规则方法的新词发现 被引量:28
6
作者 贾自艳 史忠植 《计算机工程》 CAS CSCD 北大核心 2004年第20期19-21,83,共4页
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、... 新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。 展开更多
关键词 新词发现 短语抽取 二元语法 语料库
下载PDF
基于微博内容的新词发现方法 被引量:25
7
作者 霍帅 张敏 +1 位作者 刘奕群 马少平 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期141-145,共5页
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与... 新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%. 展开更多
关键词 新词发现 上下文熵 未登录词提取
下载PDF
Web问答系统中问句理解的研究 被引量:3
8
作者 苏斐 高德利 叶晨 《测试技术学报》 2012年第3期207-212,共6页
对问答系统中的问句理解技术进行了深入研究,提出了对问句信息进行深层挖掘形成问句表征.对问句进行分词、去停用词等预处理;结合FAQ库和网络对问句进行关键词扩展,以网络为语料库,利用N元语法模型对问句中的新词进行识别,利用规则的方... 对问答系统中的问句理解技术进行了深入研究,提出了对问句信息进行深层挖掘形成问句表征.对问句进行分词、去停用词等预处理;结合FAQ库和网络对问句进行关键词扩展,以网络为语料库,利用N元语法模型对问句中的新词进行识别,利用规则的方法对问句进行分类;利用原始关键词+扩展词+新词+类别的形式对问句的信息进行表征.基于上述理论实现一个问答系统并进行了验证,实验表明:文中的问句理解方法能有效改善系统的性能. 展开更多
关键词 问句理解 关键词提取 新词识别 预处理 关键词扩展 N元语法模型
下载PDF
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 被引量:18
9
作者 查贵庭 侯汉清 《情报学报》 CSSCI 北大核心 2002年第3期273-277,共5页
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自... 避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 展开更多
关键词 新闻标引 自动标引 自动分类 词表技术 自然语言标引 词表构建 自动抽词 中文信息处理
下载PDF
利用新词探测提高中文微博的情感表达抽取 被引量:5
10
作者 万琪 于中华 +2 位作者 陈黎 宋磊磊 丁革建 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第1期63-69,共7页
情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务时不能很好地处理上述情况.通过研究发现,微博中新词大量分布在文本的情感表达部分,于是提出了基于CRF的... 情感表达抽取工作是细粒度情感挖掘的重要任务之一.中文微博中包含大量网络新词和不规范词,现有的方法在进行微博情感表达抽取任务时不能很好地处理上述情况.通过研究发现,微博中新词大量分布在文本的情感表达部分,于是提出了基于CRF的联合抽取模型,即将新词发现融入到情感表达抽取任务中,从而改进原有工作的不足.实验结果表明,新词探测对微博文本情感表达抽取有很好的指示作用,在电影领域和开放领域的微博数据集上分别进行实验,F1值均提高了2%以上. 展开更多
关键词 情感分析 新词发现 条件随机场 信息抽取
下载PDF
基于改进的Prefixspan算法的中文文本新词提取方法研究 被引量:2
11
作者 李博涵 蔡永香 +1 位作者 邓舒颖 王督 《电脑知识与技术》 2018年第3Z期160-163,共4页
该文尝试将序列模式挖掘算法Prefixspan应用于中文文本新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模式项相互间存在包含关系等问题,对算法进行改进,采用语义特征与统计相结合的方法,实现了从中文语料中有效提... 该文尝试将序列模式挖掘算法Prefixspan应用于中文文本新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模式项相互间存在包含关系等问题,对算法进行改进,采用语义特征与统计相结合的方法,实现了从中文语料中有效提取新词。实验结果表明,该方法对于专业领域新词的识别具有较高的准确性。 展开更多
关键词 PREFIXSPAN 序列模式挖掘 新词提取 投影数据库 新词发现
下载PDF
新闻节目导语中关键词自动提取方法研究 被引量:1
12
作者 何晓华 朱津津 凌坚 《电视技术》 北大核心 2014年第20期88-90,共3页
利用词语在文本中的特征信息衡量词语与文本主题相关程度,提出了一种在新闻节目导语中提取关键词的方法,该方法综合了词频、位置分布等特征,组合词方案,并在词频、位置分布特征时考虑了同义词的影响,在实际使用中取得较好效果。
关键词 关键词提取 节目导语 同义词 词语特征 组合词
下载PDF
基于词或词组长度和频数的短中文文本关键词提取算法 被引量:14
13
作者 陈伟鹤 刘云 《计算机科学》 CSCD 北大核心 2016年第12期50-57,共8页
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的,但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出... 中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的,但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。 展开更多
关键词 关键词提取 中文文本处理 音译词 网络新词
下载PDF
基于组合特征的中文新闻网页关键词提取方法 被引量:8
14
作者 袁津生 毛新武 《计算机工程与应用》 CSCD 2014年第19期222-226,共5页
针对中文新闻网页的特点,使用了包括统计特征、位置特征和词性特征等在内的多种特征综合评定候选关键词的权重大小。对于部分分词结果不能良好地反映主题的问题,提出了一种基于有向图的组合词生成方法,旨在找出高频次的相邻词作为组合... 针对中文新闻网页的特点,使用了包括统计特征、位置特征和词性特征等在内的多种特征综合评定候选关键词的权重大小。对于部分分词结果不能良好地反映主题的问题,提出了一种基于有向图的组合词生成方法,旨在找出高频次的相邻词作为组合词。实验结果表明,该方法较传统的TF-IDF方法效率有较大提升,能够有效提取出新闻网页关键词。 展开更多
关键词 提取 组合特征 组合词 有向图 新闻网页
下载PDF
基于词对特征的事件新侧面探测 被引量:1
15
作者 冯礼 李芳 盛焕烨 《计算机工程》 CAS CSCD 北大核心 2009年第3期45-47,59,共4页
在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本... 在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。 展开更多
关键词 新侧面探测 事件框架 词对特征 信息抽取
下载PDF
基于网络蜘蛛的新词自动发现算法研究
16
作者 潘欣 吕静波 张素莉 《长春工程学院学报(自然科学版)》 2011年第3期83-85,共3页
提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网上快速搜集新词,获得的词典在分词能力上较传统方法有很大提高。
关键词 中文分词 词典 新词发现 网络蜘蛛
下载PDF
医学新闻关键词自动提取策略 被引量:2
17
作者 何晓阳 张精理 丁婷 《中华医学图书情报杂志》 CAS 2014年第4期13-17,共5页
提出了将医学叙词表MeSH词汇加入到通用分词表中进行分词,并利用MeSH词汇结合词长、词语所在位置加权实现医学新闻网页的关键词自动提取策略。作者随机选取了10家网站100篇医学新闻进行人工关键词标引,并采用机器标引与人工标引比照的... 提出了将医学叙词表MeSH词汇加入到通用分词表中进行分词,并利用MeSH词汇结合词长、词语所在位置加权实现医学新闻网页的关键词自动提取策略。作者随机选取了10家网站100篇医学新闻进行人工关键词标引,并采用机器标引与人工标引比照的方式进行验证的结果表明,关键词抽取精度达0.34,召回率达0.30,实验证明该策略可行。 展开更多
关键词 自动提取 医学新闻 叙词表 MESH 生物医学 医学术语 关键词标引 主题标引 自动标引
下载PDF
专利新词发现的双向聚合度特征提取新方法 被引量:6
18
作者 陈梅婕 谢振平 +1 位作者 陈晓琪 许鹏 《计算机应用》 CSCD 北大核心 2020年第3期631-637,共7页
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,... 针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,构造提出了一个二元词上的双向聚合度统计特征;其次,利用此特征扩展提出了词边界筛选规则;最后,基于新特征和词边界规则实现专利新词的提取。实验结果表明,新方法在整体F-测度值方面,与通用领域新词发现方法相比,提高了6.7个百分点,与两种最新的专利词性搭配模板方法相比,分别提高了19.2个百分点和17.2个百分点,并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地,所提出的方法提升了专利新词发现性能,并且能够更有效地提取专利文本中具有复合形式的长词,同时可以减少对预先训练过程和额外复杂规则库的依赖,具备更好的实用性。 展开更多
关键词 新词发现 双向聚合度 专利新词 特征提取 专利分析
下载PDF
一种中文微博新闻话题检测的方法 被引量:84
19
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
基于新词发现技术的关键词提算法的研究 被引量:7
20
作者 秦鹏 张华平 刘金刚 《微计算机信息》 2010年第33期257-258,共2页
关键词提取广泛应用于文本处理中,是自动文档摘要,文本分类,文本聚类的重要基础。本文针对性地提出了关键词提取算法,基本思想为:使用词频,词性和互信息等多特征进行融合,结合新词发现算法,综合计算实现关键词的提取。
关键词 关键词提取 新词发现 多特征融合
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部