期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于上下文统计反馈的中文特征词抽取方法
1
作者
苏志响
邵志清
《情报探索》
2006年第12期60-61,64,共3页
在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特...
在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特征词抽取。
展开更多
关键词
中文
特征词
自动
抽取
文本分类
互信息
测试
t-测试
下载PDF
职称材料
一个面向文本分类的中文特征词自动抽取方法
被引量:
4
2
作者
付德宇
代成琴
《计算机工程与应用》
CSCD
北大核心
2006年第15期165-167,共3页
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典...
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。
展开更多
关键词
中文
特征词
自动
抽取
文本分类
汉字结合模式
下载PDF
职称材料
基于TextRank的网评产品特征提取方法
被引量:
3
3
作者
何金金
郭振波
王开西
《青岛大学学报(自然科学版)》
CAS
2018年第1期109-114,共6页
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用...
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。
展开更多
关键词
评论
特征词抽取
TF-IDF
Word2vec
TextRank
下载PDF
职称材料
基于词聚类的热点话题检测算法
被引量:
27
4
作者
龙志祎
程葳
《计算机工程与设计》
CSCD
北大核心
2011年第6期2214-2216,F0003,共4页
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和...
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。
展开更多
关键词
互信息
词聚类
热点话题发现
特征词抽取
词汇语义相似度
下载PDF
职称材料
基于不同内容层面的特定领域研究主题差异分析研究
被引量:
7
5
作者
赵磊
章成志
《农业图书情报学报》
2021年第5期14-27,共14页
[目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以揭示全文的研究内容,以及引文内容对其施引文献内容的作用,为基于文献的标题和摘要来分析全文的研究内容...
[目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以揭示全文的研究内容,以及引文内容对其施引文献内容的作用,为基于文献的标题和摘要来分析全文的研究内容提供理论支持。[方法/过程]使用新冠领域的中文期刊论文进行实证研究,从文献的标题和摘要、引文内容、全文内容中抽取特征词,使用聚类算法对特征词进行聚类,然后采用人工判读的方式识别研究主题,并进行对比研究,分析三者之间的主题差异。[结果/结论]研究结果表明:研究主题在文献的标题和摘要、引文内容、全文内容中存在差异;与标题和摘要相比,全文中富含更多的主题内容,但二者的主题内容差异较小,可以使用标题和摘要中的主题内容来表征全文的研究内容;引文内容与其施引文献内容的主题相关,二者可以进行内容互补。
展开更多
关键词
新冠肺炎
特征词抽取
词聚类
主题分析
主题模型
下载PDF
职称材料
基于NodeRank算法的产品特征提取研究
被引量:
5
6
作者
周立欣
林杰
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第4期90-98,共9页
【目的】基于自然语言处理技术和复杂网络相关理论,提出新的产品特征识别方法,提高产品特征的抽取效果。【方法】构建产品特征–情感词对的二分加权网络,从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRan...
【目的】基于自然语言处理技术和复杂网络相关理论,提出新的产品特征识别方法,提高产品特征的抽取效果。【方法】构建产品特征–情感词对的二分加权网络,从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRank算法对产品特征词进行重要性排序,提高特征词提取的准确率。【结果】通过对京东商城中真实评论数据的仿真实验,结果表明NodeRank算法产品特征提取的准确率、召回率和F-score都高于HAC、TF-IDF和TextRank等基准算法。【局限】NodeRank算法的计算复杂度偏高,需要进一步优化。【结论】NodeRank算法是一种准确有效的特征提取方法,能够为产品特征提取、产品营销等商业活动提供支持。
展开更多
关键词
特征词抽取
二分网络
NodeRank算法
重要性排序
原文传递
题名
基于上下文统计反馈的中文特征词抽取方法
1
作者
苏志响
邵志清
机构
华东理工大学信息科学与工程学院
出处
《情报探索》
2006年第12期60-61,64,共3页
文摘
在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特征词抽取。
关键词
中文
特征词
自动
抽取
文本分类
互信息
测试
t-测试
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一个面向文本分类的中文特征词自动抽取方法
被引量:
4
2
作者
付德宇
代成琴
机构
哈尔滨工业大学信息与网络中心
出处
《计算机工程与应用》
CSCD
北大核心
2006年第15期165-167,共3页
文摘
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。
关键词
中文
特征词
自动
抽取
文本分类
汉字结合模式
Keywords
Chinese lexical items' extraction,text categorization,combination patterns of Chinese characters
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于TextRank的网评产品特征提取方法
被引量:
3
3
作者
何金金
郭振波
王开西
机构
青岛大学数据科学与软件工程学院
青岛大学青岛大学计算机科学技术学院
出处
《青岛大学学报(自然科学版)》
CAS
2018年第1期109-114,共6页
文摘
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。
关键词
评论
特征词抽取
TF-IDF
Word2vec
TextRank
Keywords
comments
fe a ture e x t ra c t ion
TF -IDF
Word 2 v e c
T e x tR an k
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于词聚类的热点话题检测算法
被引量:
27
4
作者
龙志祎
程葳
机构
北京城市学院人工智能研究所
出处
《计算机工程与设计》
CSCD
北大核心
2011年第6期2214-2216,F0003,共4页
基金
国家863高技术研究发展计划基金项目(2005AA147030)
国家242信息安全计划基金项目(2005A37)
文摘
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。
关键词
互信息
词聚类
热点话题发现
特征词抽取
词汇语义相似度
Keywords
mutual information
word clustering
hot topic detection
key phrase extraction
semantic similarity of words
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于不同内容层面的特定领域研究主题差异分析研究
被引量:
7
5
作者
赵磊
章成志
机构
南京理工大学经济管理学院信息管理系
出处
《农业图书情报学报》
2021年第5期14-27,共14页
基金
江苏省社科基金重点项目“智能化驱动的学者细粒度画像构建研究”(20TQA001)。
文摘
[目的/意义]旨在探究不同内容层面:标题和摘要、引文内容、全文内容中的主题是否存在差异,以分析标题和摘要中的主题内容是否可以揭示全文的研究内容,以及引文内容对其施引文献内容的作用,为基于文献的标题和摘要来分析全文的研究内容提供理论支持。[方法/过程]使用新冠领域的中文期刊论文进行实证研究,从文献的标题和摘要、引文内容、全文内容中抽取特征词,使用聚类算法对特征词进行聚类,然后采用人工判读的方式识别研究主题,并进行对比研究,分析三者之间的主题差异。[结果/结论]研究结果表明:研究主题在文献的标题和摘要、引文内容、全文内容中存在差异;与标题和摘要相比,全文中富含更多的主题内容,但二者的主题内容差异较小,可以使用标题和摘要中的主题内容来表征全文的研究内容;引文内容与其施引文献内容的主题相关,二者可以进行内容互补。
关键词
新冠肺炎
特征词抽取
词聚类
主题分析
主题模型
Keywords
COVID-19
feature word extraction
word clustering
topic analysis
topic model
分类号
G237.5 [文化科学]
下载PDF
职称材料
题名
基于NodeRank算法的产品特征提取研究
被引量:
5
6
作者
周立欣
林杰
机构
同济大学经济与管理学院
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第4期90-98,共9页
基金
国家自然科学基金项目"社交媒体中用户创新价值度测量模型及互动创新管理方法研究"(项目编号:71672128)
中央高校基本科研业务费专项资金项目"基于大数据的社交网络传播机理与模型研究"(项目编号:1200219368)的研究成果之一
文摘
【目的】基于自然语言处理技术和复杂网络相关理论,提出新的产品特征识别方法,提高产品特征的抽取效果。【方法】构建产品特征–情感词对的二分加权网络,从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRank算法对产品特征词进行重要性排序,提高特征词提取的准确率。【结果】通过对京东商城中真实评论数据的仿真实验,结果表明NodeRank算法产品特征提取的准确率、召回率和F-score都高于HAC、TF-IDF和TextRank等基准算法。【局限】NodeRank算法的计算复杂度偏高,需要进一步优化。【结论】NodeRank算法是一种准确有效的特征提取方法,能够为产品特征提取、产品营销等商业活动提供支持。
关键词
特征词抽取
二分网络
NodeRank算法
重要性排序
Keywords
Feature Extraction
Bipartite Graph
NodeRank Algorithm
Importance Ranking
分类号
TP393 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于上下文统计反馈的中文特征词抽取方法
苏志响
邵志清
《情报探索》
2006
0
下载PDF
职称材料
2
一个面向文本分类的中文特征词自动抽取方法
付德宇
代成琴
《计算机工程与应用》
CSCD
北大核心
2006
4
下载PDF
职称材料
3
基于TextRank的网评产品特征提取方法
何金金
郭振波
王开西
《青岛大学学报(自然科学版)》
CAS
2018
3
下载PDF
职称材料
4
基于词聚类的热点话题检测算法
龙志祎
程葳
《计算机工程与设计》
CSCD
北大核心
2011
27
下载PDF
职称材料
5
基于不同内容层面的特定领域研究主题差异分析研究
赵磊
章成志
《农业图书情报学报》
2021
7
下载PDF
职称材料
6
基于NodeRank算法的产品特征提取研究
周立欣
林杰
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018
5
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部