期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
半监督SBERT-SP微博热点话题检测方法
1
作者 李彦 邓宇浩 《计算机工程与设计》 北大核心 2024年第11期3329-3336,共8页
在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass cluste... 在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass clustering,Semi-SBERT-SP)的微博热点话题检测方法,将SBERT模型结合半监督训练,提高其短文本特征提取能力。在聚类阶段过程中引入时间窗口和降维,提高算法效率,增加一个合并层,处理算法产生的小簇。在话题表示层,提出一种融入词热度的词贡献指标,用于提取话题簇中的关键词。实验结果表明,该方法在准确率、F1、互信息3个指标上均优于对比模型或方法,能够有效检测出微博中包含的热点话题。 展开更多
关键词 微博 话题检测 短文本 预训练模型 监督学习 孪生网络 单遍聚类
下载PDF
基于多特征融合的微博主题情感挖掘 被引量:62
2
作者 黄发良 冯时 +1 位作者 王大玲 于戈 《计算机学报》 EI CSCD 北大核心 2017年第4期872-888,共17页
微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主... 微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主题是密切相关的.多数现有的微博情感分析方法都没有将微博主题与微博情感进行协同分析,或者在微博主题情感分析过程中没有考虑将用户关系、用户性格情绪等特征数据,从而导致微博情感分析与主题检测的效果难尽人意.为此,提出了一个基于多特征融合的微博主题情感挖掘模型TSMMF(Topic Sentiment Model based on Multi-feature Fusion),该模型将情感表情符号与微博用户性格情绪特征纳入到图模型LDA中实现微博主题与情感的同步推导.实验结果表明,与当前用于短文本情感主题挖掘的最优模型(JST,SLDA与DPLDA)相比较,TSMMF具有更优的微博主题情感检测性能. 展开更多
关键词 情感分析 主题检测 LDA 微博短文本 社会媒体处理 自然语言处理
下载PDF
基于LDA模型的中文微博话题意见领袖挖掘 被引量:14
3
作者 冯时 景珊 +1 位作者 杨卓 王大玲 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第4期490-494,共5页
有效挖掘微博空间中的话题意见领袖成为亟待解决的热点问题.针对这一问题,提出了基于LDA语义信息和HowNet知识库的短文本子话题分类算法.对分类后的微博从显式、隐式及用户等方面综合衡量微博的影响力,并根据层次分析法对多个因素进行... 有效挖掘微博空间中的话题意见领袖成为亟待解决的热点问题.针对这一问题,提出了基于LDA语义信息和HowNet知识库的短文本子话题分类算法.对分类后的微博从显式、隐式及用户等方面综合衡量微博的影响力,并根据层次分析法对多个因素进行科学地权值分配.实验结果表明,提出的方法较基于支持向量机的方法具有更好的效果,同时提出的影响力度量模型可以有效地挖掘出微博中的话题意见领袖. 展开更多
关键词 微博 短文本分类 意见领袖 情感分析 LDA
下载PDF
微博产品评论挖掘模型研究 被引量:24
4
作者 唐晓波 王洪艳 《情报杂志》 CSSCI 北大核心 2013年第2期107-111,127,共6页
微博平台上的产品评论是用户表达其产品需求和情感倾向的重要渠道。结合微博的社会性特点构建了一个微博产品评论挖掘模型,该模型在对产品评论进行情感极性分析的基础上,把不同极性的评论进行分类研究,通过统计分析的方法,挖掘用户关注... 微博平台上的产品评论是用户表达其产品需求和情感倾向的重要渠道。结合微博的社会性特点构建了一个微博产品评论挖掘模型,该模型在对产品评论进行情感极性分析的基础上,把不同极性的评论进行分类研究,通过统计分析的方法,挖掘用户关注的产品特征优缺点,并将对应观点的用户感知程度进行可视化;再根据微博产品评论的特点,通过共词网络分析方法实现了对产品竞争对象的识别与分析。最后,通过实证分析,验证了该模型的可行性。 展开更多
关键词 微博 短文本 情感分析 统计分析 共词网络 产品评论挖掘
下载PDF
基于Biterm主题模型的无监督微博情感倾向性分析 被引量:13
5
作者 张佳明 王波 +1 位作者 唐浩浩 李天彩 《计算机工程》 CAS CSCD 北大核心 2015年第7期219-223,229,共6页
基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分... 基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分析隐含主题的情感分布,并实现整条微博的情感倾向性分析。在NLP&CC2012语料上进行测试,结果表明,该方法能够有效识别微博的情感倾向,平均F1值比传统主题模型方法提高15%。 展开更多
关键词 微博 短文本 情感倾向性分析 无监督 Biterm主题模型
下载PDF
基于短文本及情感分析的微博舆情分析 被引量:22
6
作者 李岩 韩斌 赵剑 《计算机应用与软件》 CSCD 北大核心 2013年第12期240-243,共4页
为解决微博文本呈现的不完整性、稀疏性及碎片化等特性,设计基于短文本聚类及用户评论情感分析的微博舆情系统;通过对短语消息流会话的抽取,解决短信息的不完整性及交错性问题;通过对TF-IDF的改进,解决因关键词稀疏带来的相似度漂移问题... 为解决微博文本呈现的不完整性、稀疏性及碎片化等特性,设计基于短文本聚类及用户评论情感分析的微博舆情系统;通过对短语消息流会话的抽取,解决短信息的不完整性及交错性问题;通过对TF-IDF的改进,解决因关键词稀疏带来的相似度漂移问题;设计的短文本聚类混合算法能够有效地对微博文本信息聚类且能满足准确性和伸缩性的要求。情感词分析法能够针对热点话题的评论进行分析,识别出其情感倾向及演化规律,进一步了解网民对热点话题的观点及态度,最后通过实验验证了方法的可行性及实验效果。 展开更多
关键词 微博 热点事件 短文本聚类 情感分析
下载PDF
基于特征扩展的微博短文本流热点话题检测方法 被引量:2
7
作者 李艳红 谢梦娜 +1 位作者 王素格 李德玉 《数据采集与处理》 CSCD 北大核心 2022年第3期621-632,共12页
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短... 随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。 展开更多
关键词 微博短文本流 特征扩展 热点话题 用户影响力 增量聚类
下载PDF
微博分析研究综述 被引量:11
8
作者 刘滨 张静远 +3 位作者 刘强 赵静阳 李寒 徐巍巍 《河北科技大学学报》 CAS 2015年第1期100-110,共11页
微博,是当前重要的社会信息传播平台之一,具有易操作、传播快等特点,人们可以通过微博直接快速地表达对突发事件、公众人物、热门产品等的观点。为了利用海量微博信息,需要综合多种分析方法挖掘其潜在价值。综述了当前微博分析领域的研... 微博,是当前重要的社会信息传播平台之一,具有易操作、传播快等特点,人们可以通过微博直接快速地表达对突发事件、公众人物、热门产品等的观点。为了利用海量微博信息,需要综合多种分析方法挖掘其潜在价值。综述了当前微博分析领域的研究现状,提出了自主研发的微博分析系统,探讨了未来微博分析的研究方向。首先,介绍了微博分析的主要技术方法,包括利用微博开放平台和利用网络爬虫技术。利用微博提供的开放接口,可以方便快捷地获取微博信息,如微博内容、用户评论、用户个人详情、粉丝数、关注数等。但也存在诸多限制,如每小时只能抓取有限次数、微博平台并不开放所有信息资源等。利用网络爬虫技术可以获取更多信息,如基于全网的网络爬虫的信息采集技术可以覆盖更广的范围,基于主题的网络爬虫的信息采集技术可以选择性爬取预先设定的主题等。其次,介绍了目前微博分析的热点问题,包括微博用户行为和微博内容两方面。微博用户行为分析包括:1)传播网络研究,利用Gephi等可视化工具,呈现出微博在传播过程中的传播路径、传播范围、关键转发节点等信息,可用于预测未来传播情况;2)传播因素研究,通过分析用户行为,揭示信息传播的可能原因;3)用户影响力分析,不同学者给出不同的度量方法,而要精准地评价用户影响力需要综合考虑多方面因素,如粉丝数、转发数、被提及数、回复、社会关系等。关于微博内容的分析包括:1)微博文本预处理,包括分词和去停用词2个步骤;2)微博热点话题发现,常用方法包括基于词频的统计方法和文本聚类方法,这两种方法都有利于提高发现热点话题的效果,但没有考虑到话题动态演变的特性;3)情感分析,也被称为观点挖掘,一直是微博研究领域的热点问题,可以利用微博表情图片抽取情感词,并结合构建语义词典和机器学习的方法对微博进行情感分类,最终判断微博情感极性,可用于舆情监控、商业预测和产品选择等方面。再次,提出了自主研发的微博分析系统——阅微,重点介绍了其情感分析、地域分布和传播图3个模块。情感分析模块,基于情感词典的方法对用户的评论内容进行情感分类;地域分布模块,提取参与用户的地理位置信息并加以统计分析,呈现出微博传播在全国范围内的分布情况;传播图模块,利用可视化手段展现微博信息的传播扩散情况,如转发关系、转发层级、转发范围等情况。最后,归纳全文,从技术和应用2个方面归纳微博分析的挑战问题:可从技术上突破微博接口资源限制,提高微博分析的效率和精准度;同时从微博应用方面发展事件监控、管理和商业方面的应用。 展开更多
关键词 数据库 微博分析 用户行为分析 短文本分析 网络爬虫 阅微
下载PDF
基于BTM的微博舆情热点发现 被引量:27
9
作者 王亚民 胡悦 《情报杂志》 CSSCI 北大核心 2016年第11期119-124,140,共7页
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信... [目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。 展开更多
关键词 词对主题模型 短文本 微博舆情 相似性度量
下载PDF
基于滑动窗口的微博时间线摘要算法 被引量:5
10
作者 徐伟 赵斌 吉根林 《数据采集与处理》 CSCD 北大核心 2017年第3期523-532,共10页
是在时间维度上对文本进行内容归纳和概要生成的技术。传统的时间线摘要主要研究诸如新闻之类的长文本,而本文研究微博短文本的时间线摘要问题。由于微博短文本内容特征有限,无法仅依靠文本内容生成摘要,本文采用内容覆盖性、时间分布... 是在时间维度上对文本进行内容归纳和概要生成的技术。传统的时间线摘要主要研究诸如新闻之类的长文本,而本文研究微博短文本的时间线摘要问题。由于微博短文本内容特征有限,无法仅依靠文本内容生成摘要,本文采用内容覆盖性、时间分布性和传播影响力3种指标评价时间线摘要,并提出了基于滑动窗口的微博时间线摘要算法(Microblog timeline summariaztion based on sliding window,MTSW)。该算法首先利用词项强度和熵来确定代表性词项;然后基于上述3种指标构建出评价时间线摘要的综合评价指标;最后采用滑动窗口的方法,遍历时间轴上的微博消息序列,生成微博时间线摘要。利用真实微博数据集的实验结果表明,MTSW算法生成的时间线摘要可以有效地反映热点事件发展演化的过程。 展开更多
关键词 微博摘要 时间线摘要 短文本摘要 事件演化
下载PDF
基于突发词对主题模型改进算法的微博热点话题发现研究 被引量:5
11
作者 向卓元 吴玉 +1 位作者 陈浩 张芙玮 《情报杂志》 CSSCI 北大核心 2022年第1期104-112,共9页
[研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指... [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。 展开更多
关键词 热点话题发现 主题模型 微博 短文本 BiLSTM BBTM Word2Vec
下载PDF
基于转发关系的微博话题演化算法 被引量:1
12
作者 徐伟 赵斌 吉根林 《计算机科学》 CSCD 北大核心 2016年第2期78-82,100,共6页
现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题... 现有的话题演化研究主要针对长文本。因此研究了微博短文本的话题演化问题,综合考虑微博的文本特征和非文本特征,利用微博的传播特性,提出了基于转发关系的微博话题演化算法MTERR。该算法首先以话题模型为基础,结合微博转发特性和话题的时间特征提取微博话题;然后采用话题的内容相关性指标和转发关联度指标构建话题关联函数,生成话题演化拓扑图;最后,基于真实微博数据集的实验结果表明,MTERR算法生成的话题演化图可以有效地反映热点事件发展演化的过程。 展开更多
关键词 微博 话题演化 短文本 话题模型
下载PDF
社会化短文本自动摘要研究综述 被引量:12
13
作者 刘德喜 万常选 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2764-2771,共8页
随着Twitter、新浪微博等社会网络的蓬勃发展,社会化短文本逐渐进入研究者的视野,在该方向上的研究成果正在逐年扩大.在分析社会化短文本摘要的意义之后,综述了社会化短文本的研究现状.社会化短文本摘要方面的研究成果主要有三类,面向We... 随着Twitter、新浪微博等社会网络的蓬勃发展,社会化短文本逐渐进入研究者的视野,在该方向上的研究成果正在逐年扩大.在分析社会化短文本摘要的意义之后,综述了社会化短文本的研究现状.社会化短文本摘要方面的研究成果主要有三类,面向Web文档的自动摘要、面向事件的自动摘要、面向话题(或查询)的自动摘要.其中,面向话题(或查询)的社会化短文本自动摘要是对社会网络中海量短文本进行高效访问的重要手段.文中重点分析四种面向话题(或查询)的社会化短文本自动摘要的最新研究成果,包括:基于词频的方法、基于图的方法、基于合并的方法及基于优化的方法.最后指出社会化短文本自动摘要所面临的挑战和研究方向. 展开更多
关键词 社会化短文本 自动摘要 面向查询 社会关系 微博
下载PDF
基于转发评论的微博语义扩充和分类方法
14
作者 刘磊 许志刚 +1 位作者 蔡海博 王石 《北京工业大学学报》 CAS CSCD 北大核心 2015年第10期1528-1536,共9页
为了对微博用户、微博文本和微博评论进行分析和研究,提出了一种基于转发评论的微博语义扩充和分类方法.首先在对微博用户类型分析的基础上将微博分为6种类型;然后以信息发布型微博为研究对象,提出了微博评论选择算法,筛选出微博有效评... 为了对微博用户、微博文本和微博评论进行分析和研究,提出了一种基于转发评论的微博语义扩充和分类方法.首先在对微博用户类型分析的基础上将微博分为6种类型;然后以信息发布型微博为研究对象,提出了微博评论选择算法,筛选出微博有效评论;再利用基于转发评论的微博语义扩充和分类(comment-based microblog's semantic expansion and classification,CBMSEC)方法,将微博有效评论信息补充进微博语义,改善微博数据稀疏的问题,提高微博的分类性能. 展开更多
关键词 微博 转发评论 语义扩充 短文本分类
下载PDF
基于中文微博的突发事件舆情监测研究 被引量:2
15
作者 陈国兰 《电脑知识与技术(过刊)》 2014年第2X期905-907,共3页
微博作为异军突起的新媒体,已经成为传统媒体跟踪突发消息的重要来源。文章对突发事件舆情传播的特征与趋势、微博短文本预处理、微博突发事件情感分析3个微博突发事件监测的关键问题进行了阐释和探讨,并基于已有的研究,给出可能地解决... 微博作为异军突起的新媒体,已经成为传统媒体跟踪突发消息的重要来源。文章对突发事件舆情传播的特征与趋势、微博短文本预处理、微博突发事件情感分析3个微博突发事件监测的关键问题进行了阐释和探讨,并基于已有的研究,给出可能地解决方案。最后提出了一个高效的微博突发事件舆情监测的设计框架,通过发现突发事件情感特征及突发期,再对处于突发期的博文进行主题聚类抽取突发事件。 展开更多
关键词 微博 突发事件 短文本 情感分析 舆情监测
下载PDF
面向搜索的微博短文本语义建模方法 被引量:13
16
作者 寇菲菲 杜军平 +4 位作者 石岩松 杨从先 崔婉秋 梁美玉 石磊 《计算机学报》 EI CSCD 北大核心 2020年第5期781-795,共15页
微博中包含大量具有时间、用户等信息的短文本数据,通过挖掘其语义信息来实现精准搜索已受到广泛关注.将传统的主题模型应用于微博短文本语义建模时通常会存在以下问题.一方面,微博的短文本会引起语义稀疏性;另一方面,由于传统的主题模... 微博中包含大量具有时间、用户等信息的短文本数据,通过挖掘其语义信息来实现精准搜索已受到广泛关注.将传统的主题模型应用于微博短文本语义建模时通常会存在以下问题.一方面,微博的短文本会引起语义稀疏性;另一方面,由于传统的主题模型仅建模文档之间的信息,不能充分挖掘文档内部的上下文信息,因此其仅能捕获全局语义.针对以上问题,文中提出了面向搜索的微博短文本语义建模方法,该方法包含三部分:基于词向量的短文本扩展算法、基于扩展的微博主题模型和微博搜索.首先,所提扩展算法以具有局部语义的词向量为基础,通过计算单词间相似度对微博短文本进行扩展,以此缓解短文本的语义稀疏性并实现局部语义与全局语义的相互补充.其次,将扩展后的长文本作为所提主题模型的输入所提主题模型,以扩展后的长文本作为输入,通过建模双词进一步克服语义稀疏性,并同时利用微博多种特征(文本、时间、用户信息)来约束主题的生成过程从而提高短文本语义表示的质量.最后,基于生成的统一语义表示,可以计算短文本间相似度从而实现微博搜索.本文在真实的新浪微博数据集上进行了多组实验,对所提的微博短文本语义建模方法语义建模方法得到的语义表示进行了分析与评价并将其应用于微博搜索,实验结果验证了所提方法的有效性. 展开更多
关键词 社交网络 微博 短文本 语义建模 搜索
下载PDF
基于改进主题模型的微博短文本情感分析研究
17
作者 王娟 张志勋 《信息与电脑》 2019年第6期134-135,141,共3页
信息时代,社交媒体发展异常迅速,微博、微信等社交平台受到了广大网友的喜爱和关注。微博社交平台发布的信息文本相对较短,传播速度快,更新速度快,越来越多的网民在微博平台上表达个人意见和想法。但是,微博短文本的信息较为分散,上下... 信息时代,社交媒体发展异常迅速,微博、微信等社交平台受到了广大网友的喜爱和关注。微博社交平台发布的信息文本相对较短,传播速度快,更新速度快,越来越多的网民在微博平台上表达个人意见和想法。但是,微博短文本的信息较为分散,上下文内容联系不紧密,分析微博短文本情感态度的过程中常常存在一定阻碍和问题。基于此,重点研究了基于改进主题模型的微博短文本情感分析,希望可以深入挖掘质量更高的情感主题。 展开更多
关键词 改进主题模型 微博 短文本 情感分析
下载PDF
基于维基知识的微博事件追踪方法 被引量:1
18
作者 唐浩浩 席耀一 +2 位作者 周杰 郭志刚 陈刚 《计算机应用与软件》 CSCD 2015年第10期21-25,112,共6页
微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式... 微博文本长度短,网络用语层出不穷,传统方法在微博事件追踪中忽略了博文语义信息,导致追踪效果不够理想。针对该问题,提出一种基于维基知识的微博事件追踪方法。首先,定义维基词条的强相关实体和别名实体,并将维基知识表示为五元组形式。然后,构建词语空间到维基实体空间的映射来表示初始事件向量及后续博文向量。最后,计算博文向量与初始事件向量之间的语义相似度,并依据设定阈值进行判决,从而完成事件追踪。实验结果表明,相比传统方法,该方法可以充分利用维基知识语义信息,有效提高微博事件追踪的性能。 展开更多
关键词 维基知识 微博 短文本 事件追踪 语义扩展
下载PDF
融合句义结构模型的短文本推荐算法研究 被引量:1
19
作者 原玉娇 罗森林 +1 位作者 林萌 潘丽敏 《信息安全研究》 2015年第1期67-73,共7页
传统的基于协同过滤的推荐系统需要收集用户兴趣喜好等相关数据,在一定程度上涉及到用户的个人隐私,当前信息安全和隐私保护是数据挖掘领域的热点之一,为了有效避免用户信息泄露带来的安全问题,提出一种融合句义结构模型的短文本推荐方... 传统的基于协同过滤的推荐系统需要收集用户兴趣喜好等相关数据,在一定程度上涉及到用户的个人隐私,当前信息安全和隐私保护是数据挖掘领域的热点之一,为了有效避免用户信息泄露带来的安全问题,提出一种融合句义结构模型的短文本推荐方法。该方法以句子为研究对象,首先利用LDA主题模型构建文章-主题矩阵,划分子主题,然后利用句义结构模型抽取句子的语义格得到句子的语义特征,基于LDA主题模型使用句义结构计算句子两两之间的语义相似度,构建相似度矩阵,融合句子的语义特征和关联特征综合加权得到句子权值,以文章内最高单句权值衡量文章权值,将文章权值统一进行排序,按照排序顺序去冗余后依次推荐。在压缩比为0.5%的条件下,ROUGE-1值达到31.388%,ROUGE-SU*达到15.701%.实验结果表明,以句子为粒度的短文本推荐算法能丰富文本的特征信息、深化语义分析层次,在数据处理过程中未收集用户信息,从而有效避免用户信息泄露等安全问题,实现更加安全、快速向用户推荐文本。 展开更多
关键词 微博 短文本推荐 主题模型 自然语言处理 信息安全
下载PDF
融合BTM和图论的微博检索模型 被引量:2
20
作者 蔡晨 罗可 《计算机工程与科学》 CSCD 北大核心 2019年第8期1512-1518,共7页
微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽... 微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽取CN-DBpedia中实体及图结构,再使用SimRank算法计算图结构中实体间的相关度。综上3种相关度为该模型最终相关度。最后使用新浪微博数据集进行检索实验,实验结果表明:对比于融合隐含狄利克雷分布算法与图论的检索模型和基于开放数据关联和图论方法系统模型,新模型在MAP、准确率和召回率上性能有明显提高,说明该模型具有较优的检索性能。 展开更多
关键词 微博 短文本 相似度计算 BTM 图论 主题模型
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部