-
题名基于知识语义权重特征的朴素贝叶斯情感分类算法
被引量:11
- 1
-
-
作者
冀俊忠
张玲玲
吴晨生
吴金源
-
机构
北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室
北京市科学技术情报研究所
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2014年第12期1884-1890,共7页
-
基金
国家自然科学基金资助项目(613300194)
-
文摘
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.
-
关键词
语义权重特征
朴素贝叶斯
文本情感分类
信息增益
-
Keywords
semantic weighted feature
naive Bayesian
text sentiment classification
information gain
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名具有特征语义权重的数据聚类方法
被引量:1
- 2
-
-
作者
周川祥
孟凡荣
张磊
王志愿
-
机构
中国矿业大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第4期64-66,共3页
-
基金
国家自然科学基金资助项目(50674086)
江苏省社会发展科技计划基金资助项目(BS2006002)
+1 种基金
高等学校博士学科点专项科研基金资助项目(20060290508)
中国矿业大学校基金资助项目(0D090229)
-
文摘
针对聚类中的特征选择问题,提出一种基于特征语义权重的数据聚类方法。该方法由用户指定必需的特征集,通过计算特征之间的语义相关度,选择和指定特征集相关的特征集作为补充。利用语义相关度确定各个特征的语义权重,在特征语义权重计算的基础上对传统的K-Means聚类算法进行改进,提出具有特征语义权重的FSW-KMeans算法。实验结果表明,FSW-KMeans算法较大地提高了聚类算法准确率和效率。
-
关键词
本体
特征语义权重
语义相关度
FSW-KMeans算法
-
Keywords
ontology
feature semantic weight
semantic relativity
FSW-KMeans algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于改进主题模型方法的三级短视频用户画像的研究
- 3
-
-
作者
黄玉民
赵婵婵
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期686-692,共7页
-
基金
内蒙古自治区直属高校基本科研业务费项目(ZTY2023022,JY20230082)
内蒙古自治区硕士研究生科研创新项目(S20231129Z)
内蒙古自治区自然科学基金项目(2023LHMS06016)。
-
文摘
针对如何从海量短视频数据、用户数据、交互数据中快速抽象出精准的用户兴趣的问题,提出了基于主题模型的三级标签用户画像构建方法。基于主题构建方法,将融合的LDA和GSDMM主题模型所获取的视频主题词作为用户兴趣表达向量。首先,搭建了LDA过滤器,通过比对阈值剔除与主题无关的文本信息,缩小文本规模,降低非主要语料对于兴趣表达向量生成的影响。然后,提出结合语义信息和语境信息的特征词权重矩阵的构建方法,使用Bi-GRU神经网络计算词向量的上下文特征,并将其作为语境特征,使用TF-IDF算法计算出的词频权重作为语义特征,结合语境和语义特征扩充特征词含义。最后使用带有兴趣权重分配的GSDMM模型学习特征向量权重矩阵,实现用户兴趣标签生成和用户不同喜好程度影响下的兴趣权重修正。实验结果表明,该方法能够比较完备准确地表征用户画像,优于单一的主题构建方法,并且在聚类效果上表现出色。通过构建完备的用户画像,能够精准把握用户痛点,为后续个性化推荐提供服务。
-
关键词
短视频
用户画像
主题分析模型
语义权重
语境权重
-
Keywords
Short video
User portraits
Topic analysis model
Semantic weight
Context weight
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不完全语义认知过程中信息特征正确识别仿真
被引量:6
- 4
-
-
作者
秦恺
-
机构
桂林电子科技大学外国语学院
-
出处
《计算机仿真》
北大核心
2017年第2期242-245,共4页
-
基金
基金项目:壮汉英词库语义特征非范畴化的对比研究(200103YB049)
-
文摘
语义信息特征的正确识别能够有效地捕捉虚拟装配过程中用户交互意图。进行语义的正确识别时需要建立语义信息熵和词语权重值之间的关系,确定各个特征的语义权重来完成识别。传统方法利用隐藏在语义的映射关系进行识别,将奇异值分解和遗传思想理论相融合降低向量空间的维数,但没有详细分析信息熵和权重值之间的关系,所以语义信息特征的识别准确率不高。提出一种基于聚类的不完全语义认知翻译中信息特征选择方法。上述方法先依据任意信息义项的语义距离计算出信息语义间的相似度,获取信息词之间的相关度,在此基础上得到不完全语义认知翻译中信息语义扩展度,获取信息词汇间的共现率,对候选词汇集的词依次进行提取,计算信息特征之间的语义相关度,建立语义信息熵和词语权重值之间的关系,确定各个特征的语义权重,计算出每个信息特征在翻译中所提供的信息量,选取信息量较大的作为不完全语义认知翻译中信息特征。仿真结果表明,所提选择精确度高,可以为翻译教学提供了科学的依据。
-
关键词
语义信息特征
语义权重
特征识别
-
Keywords
Lexeme information feature
Lexeme weight
Feature identification
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于高质量反馈源的XML查询扩展
被引量:1
- 5
-
-
作者
钟敏娟
万常选
刘德喜
江腾蛟
-
机构
江西财经大学信息管理学院
江西财经大学数据与知识工程江西省高校重点实验室
-
出处
《情报学报》
CSSCI
北大核心
2013年第6期610-617,共8页
-
基金
国家社会科学基金项目(12CTQ042)
国家自然科学基金项目(61173146,61262035)
-
文摘
有效避免伪反馈的“查询主题漂移”主要需要解决两大问题,一是如何确定相关文档,形成较高质量的伪相关文档集,另一个是在伪相关文档集里如何挑选扩展信息。本文主要研究在获取了高质量伪相关文档集合的基础上如何有效进行XML查询扩展。针对XML文档的特点,提出了扩展向量空间模型的查询词扩展方法。实验结果表明,与初始查询和传统的词项扩展方法相比,该扩展方法更能获得与用户查询意图相关的扩展信息,更能有效地提高检索质量和性能。
-
关键词
伪反馈
XML查询扩展
标签语义权重
节点层次
-
Keywords
Pseudo-Relevance Feedback, XML query expansion, tag semantic weight, node level
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户兴趣偏好的网络文档检索
- 6
-
-
作者
韩海清
陈颉
-
机构
湖北理工学院数理学院
湖北工业大学计算机学院
-
出处
《计算机光盘软件与应用》
2012年第8期76-76,72,共2页
-
文摘
本文提出了一种基于用户兴趣偏好的网络文档检索策略。用户长期浏览网页的过程中搜集用户的兴趣偏好特征值,并将表达用户偏好的关键词按序排列,以语义关联度为标准对每次搜索引擎的网页排序结果进行重排,并在此过程中充分考虑用户偏好信息的保护。用户兴趣偏好特征值通过用户的浏览反馈行为对自身进行动态修改,使其不断捕获变化着的用户兴趣热点。实验表明,基于用户兴趣偏好的网络文档检索策略较传统的文档检索在召回率、准确率等性能指标上有所提高。
-
关键词
兴趣偏好
检索重排
语义权重
文档检索
-
分类号
G354
[文化科学—情报学]
-
-
题名基于词项扩展的XML信息检索反馈技术
被引量:2
- 7
-
-
作者
温馨
陈群
娄颖
-
机构
西北工业大学计算机学院
河南科技大学电信工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第20期36-38,共3页
-
基金
国家"863"计划基金资助重点项目(2009AA1Z134)
国家自然科学基金资助项目(60803043
60720106001)
-
文摘
为提高XML信息检索的查询准确率,提出一种基于词项扩展的XML信息检索反馈技术。利用词项所在节点的语义权重、词项与查询词间的相邻频度、共现程度,评估词项权重并排序,取权重较大的词项对初始检索词进行扩展,给出各因子的计算方法。在Wikipedia2009数据集上的实验结果表明,扩展后的查询准确率较高。
-
关键词
XML信息检索
词项扩展
反馈
语义权重
相邻频度
-
Keywords
XML information retrieval
term expansion
feedback
semantic weights
adjacency frequency
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于二进制粒的用户概念空间构建方法
- 8
-
-
作者
谭德坤
-
机构
南昌工程学院计算机系
-
出处
《计算机仿真》
CSCD
北大核心
2011年第6期223-226,共4页
-
基金
江西省2007年科技攻关计划项目(2007CC02000)
-
文摘
针对检索系统快速优化问题,提出了一种自动构建用户概念空间的方法。概念空间的构建是实现语义检索的关键,为语义检索提供知识源,传统的面向通用领域的概念空间过于庞大,实现起来非常困难。面向每个用户时,给出了一种构建用户私有概念空间的方法,私有概念空间是根据用户检索文档历史记录自动生成的。在构建用户概念空间的过程中,引入粒计算的思想,用二进制粒表示频繁特征项,并通过粒之间的运算挖掘频繁2-项集,最后计算特征项之间的语义关联权,进行了仿真。仿真结果表明,方法具有较高的效率。
-
关键词
二进制粒
用户概念空间
频繁集
语义关联权重
-
Keywords
Binary granule
User concept space
Frequent item set
Weight of semantic relationship
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
TP391
[自动化与计算机技术—计算机应用技术]
-