-
题名基于HDP模型的领域微博主题演化研究
被引量:2
- 1
-
-
作者
高永兵
杨利莹
胡文江
马占飞
-
机构
内蒙古科技大学信息工程学院
包头师范学院信息工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第2期1-8,共8页
-
基金
国家自然科学基金(61163025)
内蒙古自治区自然科学基金(2015MS0621)
-
文摘
领域微博中包含较多的专业领域信息,并且随时间表现出较强的演化性。为分析领域的主题演化情况,构建一个基于分层Dirichlet过程(HDP)的DM-HDP模型。以用户为单位抽取领域相关的微博,利用微博的领域特征和时间特征,提取领域相关带有明显时间特征的微博并自动挖掘其主题分布,最终构建领域主题演化分析过程。实验结果表明,基于DM-HDP模型的分析方法能够表现领域微博主题的演化过程,与基于LDA和HDP模型的方法相比,在内容困惑度和模型复杂度等方面均具有明显优势。
-
关键词
领域微博
主题挖掘
分层Dirichlet模型
DM-HDP模型
GIBBS采样
主题演化
-
Keywords
domanial microblog
topic mining
hierarchical Dirichlet model
DM-HDP model
Gibbs sampling
topic evolution
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户意图的微博文本生成技术研究
被引量:4
- 2
-
-
作者
高永兵
黎预璇
高军甜
马占飞
-
机构
内蒙古科技大学信息工程学院
包头师范学院信息工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第1期119-126,共8页
-
基金
国家自然科学基金(61762071)
内蒙古自治区自然科学基金(2015MS0621)。
-
文摘
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。
-
关键词
微博文本
自动生成
用户意图
主题
预训练语言模型
微调
-
Keywords
Weibo text
automatic generation
user intention
topic
pre-training language model
fine-tuning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于抽象语义表示的短文本质量评估方法
- 3
-
-
作者
高永兵
张颖
黎预璇
马占飞
-
机构
内蒙古科技大学信息工程学院
包头师范学院信息工程系
-
出处
《计算机应用与软件》
北大核心
2022年第5期213-219,240,共8页
-
基金
国家自然科学基金项目(61762071)
内蒙古自治区自然科学基金项目(2015MS0621)。
-
文摘
针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。
-
关键词
短文本
质量评估
句法结构
修饰语义
抽象语义表示
-
Keywords
Short text
Quality evaluation
Syntactic structure
Modified semantics
AMR
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-