期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Labeled-LDA模型的居民群体分类与出行特征分析 被引量:2
1
作者 王长硕 蒲英霞 《计算机应用与软件》 北大核心 2022年第11期17-24,共8页
如何使用海量社交媒体数据分析城市居民日常行为特征成为国内外学者广泛关注的问题。城市居民在不同时空间扮演的社会角色的不同将导致其出行行为特征随之变化,为此构建居民出行活动模式模型表征居民出行行为,引入自然语言处理领域内的... 如何使用海量社交媒体数据分析城市居民日常行为特征成为国内外学者广泛关注的问题。城市居民在不同时空间扮演的社会角色的不同将导致其出行行为特征随之变化,为此构建居民出行活动模式模型表征居民出行行为,引入自然语言处理领域内的标签狄利克雷分布模型Labeled-LDA完成群体分类,分析居民群体的出行行为特征,并讨论个体出行行为的不确定性。使用波士顿海量Twitter签到数据的实验表明,该方法能够有效区分典型的城市居民群体,并为居民在不同时空间表现出的不同出行行为特征提供概率解释。 展开更多
关键词 居民出行行为 标签狄利克雷分布(labeled-lda) 社交媒体大数据 移动模式
下载PDF
基于共享背景主题的Labeled LDA模型 被引量:17
2
作者 江雨燕 李平 王清 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页
隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labe... 隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. 展开更多
关键词 隐藏狄利克雷分配 文本分析 多标记学习 半监督聚类
下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
3
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
下载PDF
基于PTM潜在Dirichlet分配的少量标记样本文本分类 被引量:2
4
作者 赵丽 齐兴斌 +1 位作者 李雪梅 田涛 《计算机应用研究》 CSCD 北大核心 2015年第5期1428-1432,1444,共6页
针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中... 针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在Dirichlet分配模型进行关系学习,构建基于图的分类器完成分类。在公开的Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。 展开更多
关键词 文本分类 术语提取 图构建 概率主题模型 少量标记样本 潜在dirichlet分配
下载PDF
基于Twitter签到数据的城市居民群体分类算法研究
5
作者 管千娇 王长硕 《现代计算机》 2024年第16期18-24,29,共8页
为实现基于社交媒体大数据的居民群体分类,引入自然语言处理(NLP)领域的标签潜在狄利克雷分布(Labeled LDA)模型。基于2014年芝加哥市的Twitter签到数据,使用LDA探索性分析提取先验信息。构建Labeled LDA,将城市居民分为五类:上班族、... 为实现基于社交媒体大数据的居民群体分类,引入自然语言处理(NLP)领域的标签潜在狄利克雷分布(Labeled LDA)模型。基于2014年芝加哥市的Twitter签到数据,使用LDA探索性分析提取先验信息。构建Labeled LDA,将城市居民分为五类:上班族、大学生及高校教职工、中小学生及教职工、市政工作人员和其他。实验结果表明,Labeled LDA的分类精度达到0.92,超过了支持向量机(SVM)0.87的分类精度。该算法有效地实现了居民群体分类,从而促进有针对性的服务制定。 展开更多
关键词 标签潜在狄利克雷分布(labeled LDA) Twitter签到数据 居民群体分类 NLP算法
下载PDF
基于词-标签概率的多标签文本分类研究 被引量:2
6
作者 赵宏 郑厚泽 郭岚 《兰州理工大学学报》 CAS 北大核心 2023年第1期103-109,共7页
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征... 针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值. 展开更多
关键词 多标签文本分类 卷积神经网络 双向长短期记忆网络 标签的隐狄利克雷分布
下载PDF
主题模型自动标记方法研究综述
7
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题标记 主题标签
下载PDF
基于标签传播的语义重叠社区发现算法 被引量:11
8
作者 辛宇 杨静 谢志强 《自动化学报》 EI CSCD 北大核心 2014年第10期2262-2275,共14页
语义社会网络(Semantic social network,SSN)是一种由信息节点及链接关系构成的新型复杂网络,为此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.由此提出标签传播的语义重叠社区发现算... 语义社会网络(Semantic social network,SSN)是一种由信息节点及链接关系构成的新型复杂网络,为此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.由此提出标签传播的语义重叠社区发现算法,该算法以标签传播算法(Latent Dirichlet allocation,LDA)模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;提出可度量节点间相似性的主成分(Semantic coherent neighborhood propinquity,SCNP)模型和语义影响力(Semantic impact,SI)模型;以SCNP作为标签传播的权重,以SI作为截断值的参数,提出一种改进的Semantic-LPA(Semantic label propagation algorithm)算法;提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性. 展开更多
关键词 语义社会网络 重叠社区 LDA模型 标签传播算法
下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
9
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单词 单词标注 潜在狄利克雷分布模型 铁路扣件检测
下载PDF
结合半监督学习和LDA模型的文本分类方法 被引量:7
10
作者 韩栋 王春华 肖敏 《计算机工程与设计》 北大核心 2018年第10期3265-3271,共7页
针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表... 针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表示所有样本;根据训练集中已标记样本,通过一种简化粒子群优化(SPSO)算法获得SSL-LDA自训练模型的最优参数;基于SSL-LDA自训练模型对训练集中一些未标记样本进行标记,扩展训练集;基于扩展后的训练集,训练NB文本分类器。在3个数据集上的实验结果表明,该方法能够很好地应对标记样本较少的情况,获得了较高的分类精确度。 展开更多
关键词 文本分类 半监督学习 LDA主题模型 简化粒子群优化 标记样本扩展
下载PDF
基于划分子集主题模型的多标签极限分类 被引量:2
11
作者 杨菊英 刘燚 罗佳 《计算机工程与设计》 北大核心 2020年第12期3432-3437,共6页
在多标签分类任务中随着标签数量的增多,传统的基于隐含狄利克雷分布模型的方法往往会遇到可扩展性问题。为解决这一问题,提出一种基于划分子集的带标签隐含狄利克雷模型。通过对数据划分子集降低算法的时间复杂度,在标签规模达到成百... 在多标签分类任务中随着标签数量的增多,传统的基于隐含狄利克雷分布模型的方法往往会遇到可扩展性问题。为解决这一问题,提出一种基于划分子集的带标签隐含狄利克雷模型。通过对数据划分子集降低算法的时间复杂度,在标签规模达到成百上千时灵活扩展模型,提高传统带标签狄利克雷模型的预测准确率。该方法被部署于大规模实验数据集上,与多个经典方法进行比对,实验结果表明,该方法具有良好的准确率和效率,是解决多标签学习问题的有效工具。 展开更多
关键词 带标签隐含狄利克雷模型 多标签学习 极限分类 划分子集 时间复杂度
下载PDF
适用于大规模信息网络的语义社区发现方法 被引量:1
12
作者 沈桂兰 贾彩燕 +1 位作者 于剑 杨小平 《计算机科学与探索》 CSCD 北大核心 2017年第4期565-576,共12页
对节点带有内容的信息网络进行语义社区发现是新的研究方向。融合节点内容增加了算法的复杂度。提出了一种在线性时间内进行语义社区发现的标签传播算法,用LDA(latent Dirichlet allocation)主题模型表示节点内容,以节点内容相似度和传... 对节点带有内容的信息网络进行语义社区发现是新的研究方向。融合节点内容增加了算法的复杂度。提出了一种在线性时间内进行语义社区发现的标签传播算法,用LDA(latent Dirichlet allocation)主题模型表示节点内容,以节点内容相似度和传播影响力的乘性模型作为标签传播的策略,在归一化过程中,自然融合节点内容和网络结构信息,标签迭代过程中,采用节点与绝大部分邻居节点内容不相同才进行更新的策略,保证算法的运行效率。通过在不同规模的12个真实数据集上进行实验,以模块度和纯度作为度量标准,验证了算法在语义社区发现上的有效性和可行性。 展开更多
关键词 语义社区发现 LDA主题模型 内容相似度 标签传播策略 传播影响力
下载PDF
一种基于标签的改进主题演化模型
13
作者 姚立 张曦煌 《计算机工程》 CAS CSCD 北大核心 2019年第4期205-210,216,共7页
传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析... 传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。 展开更多
关键词 标签 主题演化模型 隐狄利克雷分配 词频-反重力距算法 吉布斯采样
下载PDF
Topic Model Based Text Similarity Measure for Chinese Judgment Document
14
作者 Yue Wang Jidong Ge +5 位作者 Yemao Zhou Yi Feng Chuanyi Li ZhongjinLi Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2017年第2期9-11,共3页
In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning... In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning. In this situation, some ideas about Chinese courts can reach automation or get better result through the research of machine learning, such as similar documents recommendation, workload evaluation based on similarity of judgement documents and prediction of possible relevant statutes. In trying to achieve all above mentioned, and also in face of the characteristics of Chinese judgement document, we propose a topic model based approach to measure the text similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet Allocation (LDA), Labeled Latent Dirichlet Allocation (LLDA) and other treatments. Combining with the characteristics of Chinese judgment document,we focus on the specific steps of approach, the preprocessing of corpus, the parameters choices of training and the evaluation of similarity measure result. Besides, implementing the approach for prediction of possible statutes and regarding the prediction accuracy as the evaluation metric, we designed experiments to demonstrate the reasonability of decisions in the process of design and the high performance of our approach on text similarity measure. The experiments also show the restriction of our approach which need to be focused in future work. 展开更多
关键词 CHINESE JUDGMENT documents Data science Machine learning Natural language processing Text similarity TF-IDF TOPIC model latent dirichlet allocation labeled latent dirichlet allocation
下载PDF
Supervised topic models with weighted words:multi-label document classification 被引量:1
15
作者 Yue-peng ZOU Ji-hong OUYANG Xi-ming LI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2018年第4期513-523,共11页
Supervised topic modeling algorithms have been successfully applied to multi-label document classification tasks.Representative models include labeled latent Dirichlet allocation(L-LDA)and dependency-LDA.However,these... Supervised topic modeling algorithms have been successfully applied to multi-label document classification tasks.Representative models include labeled latent Dirichlet allocation(L-LDA)and dependency-LDA.However,these models neglect the class frequency information of words(i.e.,the number of classes where a word has occurred in the training data),which is significant for classification.To address this,we propose a method,namely the class frequency weight(CF-weight),to weight words by considering the class frequency knowledge.This CF-weight is based on the intuition that a word with higher(lower)class frequency will be less(more)discriminative.In this study,the CF-weight is used to improve L-LDA and dependency-LDA.A number of experiments have been conducted on real-world multi-label datasets.Experimental results demonstrate that CF-weight based algorithms are competitive with the existing supervised topic models. 展开更多
关键词 Supervised topic model Multi-label classification Class frequency labeled latent dirichlet allocation (L-LDA) Dependency-LDA
原文传递
Thread Labeling for News Event
16
作者 闫泽华 李芳 《Journal of Shanghai Jiaotong university(Science)》 EI 2013年第4期418-424,共7页
Automatic thread labeling for news events can help people know different aspects of a news event. In this paper, we present a method to label threads of a news event. We use latent Dirichlet allocation (LDA) topic mod... Automatic thread labeling for news events can help people know different aspects of a news event. In this paper, we present a method to label threads of a news event. We use latent Dirichlet allocation (LDA) topic model to extract news threads from news corpus. Our method first selects the thread words subset then extracts phrases based on co-occurrence calculation. The extracted phrase is then used as a label of a news thread. Experimental results show that about 60% of generated labels visualize the meaningful aspects of a news event. These labels can help people fast to capture many different aspects of a news event. 展开更多
关键词 news event topic labeling latent dirichlet allocation (LDA)
原文传递
面向主题模型的主题自动语义标注研究综述 被引量:3
17
作者 凌洪飞 欧石燕 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第9期16-26,共11页
【目的】对面向主题模型的主题自动语义标注方法进行总结与评述,以促进主题模型的发展与应用。【文献范围】在Web of Science和CNKI数据库中分别以“Topic Labeling OR Topic Labelling OR Topic Tagging ORTopicIndexing”和“主题模型... 【目的】对面向主题模型的主题自动语义标注方法进行总结与评述,以促进主题模型的发展与应用。【文献范围】在Web of Science和CNKI数据库中分别以“Topic Labeling OR Topic Labelling OR Topic Tagging ORTopicIndexing”和“主题模型AND(标注OR标签)”等检索式进行检索,通过手工筛选获得代表性文献57篇。【方法】对相关论文进行深入阅读与分析,以主题标注过程中主题标签的生成来源为线索,对已有方法进行分类与比较分析。【结果】面向主题模型的主题自动语义标注包括候选标签生成与排序两个主要步骤,根据候选标签的生成来源可分为依靠自身语料库和依靠外部语料库两类方法。【局限】目前该领域的研究还不是很丰富,分析与评述不够系统和全面。【结论】该领域的研究仍具有较大探索空间,面向社交媒体内容的主题语义标注是未来研究方向,可结合更丰富的知识库并采用深度学习技术进行改进提升。 展开更多
关键词 主题语义标注 概率主题模型 隐含狄利克雷分布
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部