期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
Sentiment Analysis on Twitter Data Using Term Frequency-Inverse Document Frequency
1
作者 Akash Addiga Sikha Bagui 《Journal of Computer and Communications》 2022年第8期117-128,共12页
This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is establi... This study is an exploratory analysis of applying natural language processing techniques such as Term Frequency-Inverse Document Frequency and Sentiment Analysis on Twitter data. The uniqueness of this work is established by determining the overall sentiment of a politician’s tweets based on TF-IDF values of terms used in their published tweets. By calculating the TF-IDF value of terms from the corpus, this work displays the correlation between TF-IDF score and polarity. The results of this work show that calculating the TF-IDF score of the corpus allows for a more accurate representation of the overall polarity since terms are given a weight based on their uniqueness and relevance rather than just the frequency at which they appear in the corpus. 展开更多
关键词 Sentiment Analysis Twitter Data Term frequency Inverse Term frequency Term frequency-inverse document frequency (TF-IDF) Social Media
下载PDF
Enhanced Topic-Aware Summarization Using Statistical Graph Neural Networks
2
作者 Ayesha Khaliq Salman Afsar Awan +2 位作者 Fahad Ahmad Muhammad Azam Zia Muhammad Zafar Iqbal 《Computers, Materials & Continua》 SCIE EI 2024年第8期3221-3242,共22页
The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Curr... The rapid expansion of online content and big data has precipitated an urgent need for efficient summarization techniques to swiftly comprehend vast textual documents without compromising their original integrity.Current approaches in Extractive Text Summarization(ETS)leverage the modeling of inter-sentence relationships,a task of paramount importance in producing coherent summaries.This study introduces an innovative model that integrates Graph Attention Networks(GATs)with Transformer-based Bidirectional Encoder Representa-tions from Transformers(BERT)and Latent Dirichlet Allocation(LDA),further enhanced by Term Frequency-Inverse Document Frequency(TF-IDF)values,to improve sentence selection by capturing comprehensive topical information.Our approach constructs a graph with nodes representing sentences,words,and topics,thereby elevating the interconnectivity and enabling a more refined understanding of text structures.This model is stretched to Multi-Document Summarization(MDS)from Single-Document Summarization,offering significant improvements over existing models such as THGS-GMM and Topic-GraphSum,as demonstrated by empirical evaluations on benchmark news datasets like Cable News Network(CNN)/Daily Mail(DM)and Multi-News.The results consistently demonstrate superior performance,showcasing the model’s robustness in handling complex summarization tasks across single and multi-document contexts.This research not only advances the integration of BERT and LDA within a GATs but also emphasizes our model’s capacity to effectively manage global information and adapt to diverse summarization challenges. 展开更多
关键词 SUMMARIZATION graph attention network bidirectional encoder representations from transformers Latent Dirichlet Allocation term frequency-inverse document frequency
下载PDF
试点选择的偏好:基于中央部委发起试点的政策文本分析
3
作者 吴怡频 钟文钰 赵雅婷 《公共管理评论》 CSSCI 2024年第2期185-210,共26页
试点选择是政策试点的关键环节,影响试点创新与推广效果。然而,研究人员缺少近距离观察或直接访谈决策者的机会,这制约了试点选择研究的发展。本研究将试点政策文本视为决策者对试点选择条件的官方表述,并挖掘文本中试点选择的偏好。本... 试点选择是政策试点的关键环节,影响试点创新与推广效果。然而,研究人员缺少近距离观察或直接访谈决策者的机会,这制约了试点选择研究的发展。本研究将试点政策文本视为决策者对试点选择条件的官方表述,并挖掘文本中试点选择的偏好。本研究收集了“十三五”时期385项中央部委发起试点的政策文本和部分试点的首轮试点名单。研究获得三项发现。第一,中央部委发起试点向经济发达地区或区域中心城市聚集,但各政策领域的聚集程度不同。第二,词频和共现关系分析显示“择优选点”和“重视基础”的总原则。第三,各政策领域的偏好与重视条件不尽相同,经济发展类试点强调创新试验和重点战略,农业农村和社会保障类试点则关注代表性,环境保护类试点兼顾全局需要和重点问题。 展开更多
关键词 试点选择 政策文本 词频分析 政策领域
下载PDF
基于篇章结构相似度的复制检测算法 被引量:28
4
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2007年第1期125-130,共6页
学术论文的复制检测研究对于知识产权保护和抑制抄袭侵权等行为有重要意义.国内外主要用数字指纹及关键词匹配等技术进行论文的复制检测.为解决目前中文复制检测难题,给出了一种基于篇章结构相似度的中文学术论文复制检测算法及其问题... 学术论文的复制检测研究对于知识产权保护和抑制抄袭侵权等行为有重要意义.国内外主要用数字指纹及关键词匹配等技术进行论文的复制检测.为解决目前中文复制检测难题,给出了一种基于篇章结构相似度的中文学术论文复制检测算法及其问题的数学模型.在分析论文篇章结构的基础上,利用数字指纹和词频统计等技术,经编程实现,用于论文的全抄、部分抄袭和拼抄等抄袭现象的初步检测.与基于全文数字指纹和基于全文词频统计的检测方法相比较,更适用于要求较准确的论文复制检测. 展开更多
关键词 学术论文 复制检测 抄袭识别 数字指纹 词频统计 篇章结构
下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:31
5
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
下载PDF
一种基于词共现图的文档主题词自动抽取方法 被引量:30
6
作者 耿焕同 蔡庆生 +1 位作者 于琨 赵鹏 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第2期156-162,共7页
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地... 主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题. 展开更多
关键词 自然语言处理 词共现图 主题词 TFIDF
下载PDF
优化的互信息特征选择方法 被引量:10
7
作者 朱颢东 陈宁 李红婵 《计算机工程与应用》 CSCD 北大核心 2010年第26期122-124,共3页
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信... 在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信息方法。该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频。实验结果表明该优化的互信息方法性能良好。 展开更多
关键词 文本分类 互信息 特征选择 词频 文档频
下载PDF
基于优化的文档频和粗糙集的特征选择方法 被引量:5
8
作者 朱颢东 钟勇 《湖南师范大学自然科学学报》 CAS 北大核心 2009年第3期27-31,共5页
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择方法.该综合方法... 特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择方法.该综合方法首先使用基于最小词频的文档频方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集. 展开更多
关键词 文本分类 词频 文档频 属性约简 粗糙集
下载PDF
结合优化的文档频和PA的特征选择方法 被引量:2
9
作者 朱颢东 钟勇 《计算机应用研究》 CSCD 北大核心 2010年第1期36-38,共3页
特征空间的高维特点限制了分类算法的选择,影响了分类器的设计和准确度,降低了分类器的泛化能力,从而出现分类器过拟合的现象,因此需要进行特征选择以避免维数灾难。首先简单分析了几种经典特征选择方法,总结了它们的不足;然后给出了一... 特征空间的高维特点限制了分类算法的选择,影响了分类器的设计和准确度,降低了分类器的泛化能力,从而出现分类器过拟合的现象,因此需要进行特征选择以避免维数灾难。首先简单分析了几种经典特征选择方法,总结了它们的不足;然后给出了一个优化的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性;最后应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化词条的作用,消减原词条矩阵中包含的冗余模式,从而有效地降低了向量空间的维数,提高了文本分类的精度和速度。实验结果表明此种综合性特征选择方法效果良好。 展开更多
关键词 特征选择 文本分类 词频 文档频 模式聚合
下载PDF
基于用户的个性化综合倒排索引 被引量:2
10
作者 林洁 李丹宁 吴晓 《杭州师范大学学报(自然科学版)》 CAS 2008年第3期211-215,共5页
针对传统搜索引擎的不足,论述了个性化综合倒排索引的基本思想,结合词频渠道奖励算法、遗忘算法和文档关注度算法来动态获取用户兴趣变化,从而满足个性化搜索的需求.
关键词 综合倒排索引 词频 渠道 遗忘算法 文档关注度
下载PDF
语义分析在汉语相似性文献检测中的应用研究 被引量:1
11
作者 谈文蓉 冯山 刘莉 《四川师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第4期554-558,共5页
相似性文献检测技术在数字图书馆、知识产权保护等应用中有着较强的实际意义和应用价值.汉语中存在着许多歧义现象,导致汉语相似性文献检测的难度远大于英文文献.结合汉语的特点,提出了一种改进的基于词频统计的汉语相似性文献检测方法... 相似性文献检测技术在数字图书馆、知识产权保护等应用中有着较强的实际意义和应用价值.汉语中存在着许多歧义现象,导致汉语相似性文献检测的难度远大于英文文献.结合汉语的特点,提出了一种改进的基于词频统计的汉语相似性文献检测方法.首先,利用关键词和统计信息进行切词与消歧.其次,在语义分析的基础上抽取特征词并计算权重.最后,通过构造加权词频向量空间完成相似性检测.对本科生毕业论文的小规模实验表明:该方法能有效消除切分歧义,降低运算规模,提高检测精度与速度. 展开更多
关键词 语义分析 相似度 切分歧义 汉语文献 特征提取 加权词频
下载PDF
基于多模态关联图的图像语义标注方法 被引量:2
12
作者 郭玉堂 罗斌 《计算机应用》 CSCD 北大核心 2010年第A12期3295-3297,3303,共4页
为了改善图像标注的性能,提出了一种基于多模态关联图的图像语义标注方法。该方法用一个无向图表达了图像区域特征、标注词以及图像三者之间的关系,结合图像区域特征相似性和语义间的相关性提取图像语义信息,提高了图像标注的精度。利... 为了改善图像标注的性能,提出了一种基于多模态关联图的图像语义标注方法。该方法用一个无向图表达了图像区域特征、标注词以及图像三者之间的关系,结合图像区域特征相似性和语义间的相关性提取图像语义信息,提高了图像标注的精度。利用逆向文档频率(IDF)修正图像节点与其标注词节点之间边的权值,克服了传统方法中因高频词引起的偏差,有效地提高了图像标注的性能。在Corel图像数据集上进行了实验,实验结果验证了该方法的有效性。 展开更多
关键词 图像语义 多模态图 逆向文档频率 高频词
下载PDF
汉语文献文外频率加权与逆文献频率加权方法的比较 被引量:1
13
作者 王超 黄水清 杨小莉 《情报理论与实践》 CSSCI 北大核心 2007年第2期275-277,202,共4页
本文针对信息表示和信息检索中的文外频率加权和逆文献频率加权进行定量分析。以《软件学报》2004年发表的166篇计算机类的文献为测试集,通过计算机切词,统计词频,分别计算出各种语词加权方式不同的权重,并进行比较分析,得出了逆文献频... 本文针对信息表示和信息检索中的文外频率加权和逆文献频率加权进行定量分析。以《软件学报》2004年发表的166篇计算机类的文献为测试集,通过计算机切词,统计词频,分别计算出各种语词加权方式不同的权重,并进行比较分析,得出了逆文献频率加权优于文外频率加权法,对文献频率取对数的逆文献频率加权公式优于不取对数的加权公式的结论。 展开更多
关键词 信息检索 加权算法 语词加权 逆文献频率加权
下载PDF
基于优化的文档频和Beam搜索的特征选择方法 被引量:1
14
作者 朱颢东 钟勇 《计算机科学》 CSCD 北大核心 2009年第11期196-199,共4页
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法。首先给出了一个基于最小词... 在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法。首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法。该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该算法是有效的。 展开更多
关键词 词频 文档频 粗糙集 Beam搜索 属性约简
下载PDF
结合优化的文档频和LSA的特征选择方法 被引量:1
15
作者 朱颢东 钟勇 《计算机工程与应用》 CSCD 北大核心 2009年第34期121-123,143,共4页
为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首... 为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。 展开更多
关键词 文本分类 词频 文档频 潜在语义分析
下载PDF
基于DF算法改进的文本聚类特征选择算法 被引量:6
16
作者 樊东辉 王治和 +1 位作者 陈建华 许虎寅 《甘肃联合大学学报(自然科学版)》 2012年第1期51-54,共4页
通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了... 通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了一定的改进. 展开更多
关键词 特征选择 文档频 词频
下载PDF
基于人民日报语料的中央一号文件词频历时分析 被引量:6
17
作者 黄水清 王东波 《农业图书情报学报》 2020年第3期4-9,共6页
[目的 /意义]揭示中央一号文件重要词语的时代特征。[方法 /过程]以经过人工分词处理的人民日报语料为数据对象,统计2020年中央一号文件中各部分的若干重要词语在2015年以来每年1月份《人民日报》中出现的频次,从历时性的角度对比不同... [目的 /意义]揭示中央一号文件重要词语的时代特征。[方法 /过程]以经过人工分词处理的人民日报语料为数据对象,统计2020年中央一号文件中各部分的若干重要词语在2015年以来每年1月份《人民日报》中出现的频次,从历时性的角度对比不同时期《人民日报》中频次的变化。[结果 /结论]首先,宏观性的顶层政策以及普遍性的社会现象涉及的词语在《人民日报》中有比较高的频次;其次,与"三农"相关的词汇在《人民日报》中的频次总体都是不很高,特别是部分与具体工作相关的词汇。最后,以人民日报语料为基础对政策文件的词频做历时性分析是可行的,能够得出有益的结论。 展开更多
关键词 人民日报语料 NEPD 中央一号文件 词频
下载PDF
结合优化文档频和变精度粗糙集的特征选择方法 被引量:1
18
作者 朱颢东 钟勇 《河南大学学报(自然科学版)》 CAS 北大核心 2009年第5期515-520,共6页
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词... 在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好. 展开更多
关键词 特征选择 最小词频 文档频 变精度粗糙集 信息熵 属性约简
下载PDF
基于聚类的KNN算法改进 被引量:2
19
作者 樊东辉 王治和 +1 位作者 陈建华 许虎寅 《电脑知识与技术(过刊)》 2011年第12X期9033-9034,9037,共3页
通过研究KNN算法,提出了一种利用训练集文本聚类结果改进KNN算法的方法,首先将训练集文本采用DBSCAN算法聚进行聚类,将训练集文本分为若干个簇,然后采用KNN算法对测试文档进行测试,最后用距离最近的n个簇中的若干训练集文本使用KNN算法... 通过研究KNN算法,提出了一种利用训练集文本聚类结果改进KNN算法的方法,首先将训练集文本采用DBSCAN算法聚进行聚类,将训练集文本分为若干个簇,然后采用KNN算法对测试文档进行测试,最后用距离最近的n个簇中的若干训练集文本使用KNN算法对测试文本进行分类。实验表明,改进后的算法降低了计算量,提高了效率,同时对聚类结果有了一定的改进。 展开更多
关键词 KNN算法 DBSCAN算法 训练集
下载PDF
基于词频统计的多文档自动摘要生成方案 被引量:4
20
作者 仇丽青 刘瑞 张辉 《微计算机信息》 2009年第6期181-182,294,共3页
多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息,因此研究多文档自动摘要技术具有很重要的意义。本文提出了一种上下文敏感的基于词频统计的多文档自动摘要生成方案。该方案利用高频词的重要作用统计高频词信息,同时具备上... 多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息,因此研究多文档自动摘要技术具有很重要的意义。本文提出了一种上下文敏感的基于词频统计的多文档自动摘要生成方案。该方案利用高频词的重要作用统计高频词信息,同时具备上下文敏感的特性。它具有简单易行,运行速度快,效果好等特点。实验结果证明,取得了很好的ROUGE成绩。 展开更多
关键词 Zipf法则词频统计 多文档自动摘要
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部