期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
1
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多分配模型 文本挖掘
下载PDF
基于DMA与特征划分的多源文本主题模型 被引量:2
2
作者 许伟佳 秦永彬 +1 位作者 黄瑞章 陈艳平 《计算机工程》 CAS CSCD 北大核心 2021年第7期59-66,共8页
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,... 针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,使用Gibbs采样算法估计每个数据源的主题数量。同时,对每个数据源分配专有的噪音词分布参数以及主题-词分布参数,采用特征划分方法区分每个数据源的特征词和噪音词,并学习每个数据源的用词特征,避免噪音词集对模型聚类的干扰。实验结果表明,与传统主题模型相比,该模型能够保留每个数据源特有的词特征,具有更好的主题发现效果及鲁棒性。 展开更多
关键词 多源文本主题模型 文本聚类 狄利克雷多分配 特征划分 GIBBS采样
下载PDF
主题模型在短文本上的应用研究 被引量:1
3
作者 韩肖赟 侯再恩 孙绵 《计算机工程与科学》 CSCD 北大核心 2020年第1期144-152,共9页
针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参... 针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数,选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用,并以此指明了未来主题模型的研究方向和侧重点。 展开更多
关键词 潜在狄利克雷分配模型 狄利克雷多混合模型 短文本 主题模型 网络舆情 吉布斯采样
下载PDF
城乡二元结构下中国人口流动格局及其解释——基于流向别的考察
4
作者 张耀军 陈芸 +1 位作者 巫锡炜 齐婧含 《人口研究》 北大核心 2024年第2期118-132,共15页
研究人口流动格局对于理解区域人口增减分化、准确把握经济社会发展趋势具有重要意义。利用第六次和第七次全国人口普查数据,将省际人口流动划分为乡-乡、乡-城、城-乡和城-城4类,并基于空间自回归负二项模型,考察4类人口流动网络的空... 研究人口流动格局对于理解区域人口增减分化、准确把握经济社会发展趋势具有重要意义。利用第六次和第七次全国人口普查数据,将省际人口流动划分为乡-乡、乡-城、城-乡和城-城4类,并基于空间自回归负二项模型,考察4类人口流动网络的空间特征及其影响因素。研究结果表明,2010~2020年,乡-城、城-城人口流动在省际人口流动中的比例上升,乡-乡人口流动的比例下降;4类人口流动网络呈现不同的空间特征,乡-乡、乡-城人口流动呈自西向东趋势,城-乡、城-城人口流动更加多元且出现双向流动趋势;中国人口中心正由单一城市(省份)转向城市群;经济因素依然是影响乡-乡、乡-城人口流动的重要因素,但影响城-乡、城-城人口流动的因素更加复杂多样且经济因素的影响减弱。 展开更多
关键词 人口流动 城乡二元结构 空间自回归负二模型
原文传递
半参数贝叶斯分层分位回归模型及其在保险公司成本分析中的应用 被引量:2
5
作者 张永霞 孟生旺 田茂再 《数理统计与管理》 CSSCI 北大核心 2021年第3期381-394,共14页
本文建立了一种半参数贝叶斯分层分位回归模型,并基于美国NAIC提供的多个保险公司连续多年期的非平衡纵向成本观测数据进行了实证分析.本文主要贡献包括三个方面:一是首次在有限正态混合误差假定下,对具有右偏厚尾性的成本数据建立半参... 本文建立了一种半参数贝叶斯分层分位回归模型,并基于美国NAIC提供的多个保险公司连续多年期的非平衡纵向成本观测数据进行了实证分析.本文主要贡献包括三个方面:一是首次在有限正态混合误差假定下,对具有右偏厚尾性的成本数据建立半参数分层分位回归模型,并考虑到保险公司的聚类性,选用狄利克雷过程先验进行模型非参数部分的估计,进一步推广了分位回归模型在保险精算领域中的应用;二是通过模拟数据研究,系统比较了在非对称拉普拉斯误差假定下和有限正态混合误差假定下,半参数分层分位回归模型对复杂数据的拟合精度及参数估计的精确性,结果表明,有限正态混合误差更能充分捕捉数据的复杂性;三是通过实际观测的保险公司成本数据进行分析,选出了对成本具有较强效应的解释变量,并发现在不同分位数水平下各个解释变量对响应变量的效应具有较大区别. 展开更多
关键词 分位回归 狄利克雷过程先验 单指标模型 贝叶斯参数估计 保险公司成本
原文传递
积极应对人口老龄化战略下适老化出行的建成环境研究 被引量:6
6
作者 杨林川 唐祥龙 刘吉祥 《上海城市规划》 北大核心 2022年第1期156-162,共7页
党的十九届五中全会将积极应对人口老龄化上升到最高层级的国家战略,全方位地做好应对老龄化的各种准备、满足老年人多元需求由此成为国家中心工作之一。移动性与老年人的身心健康、生活质量及福祉息息相关,其受到社区建成环境的直接影... 党的十九届五中全会将积极应对人口老龄化上升到最高层级的国家战略,全方位地做好应对老龄化的各种准备、满足老年人多元需求由此成为国家中心工作之一。移动性与老年人的身心健康、生活质量及福祉息息相关,其受到社区建成环境的直接影响。基于2015年福建省厦门市居民出行调查数据,提取12082个60岁及以上的老年人样本,建立多层二元logit和多层负二项回归模型,识别影响老年人出行倾向和次数(频率)的建成环境要素。结果表明:(1)土地利用混合度与老年人移动性正相关;(2)商业设施可达性与老年人移动性正相关;(3)人口密度和公交线路密度对老年人移动性的影响较为复杂,存在提升移动性的最优取值区间;(4)社会经济属性和建成环境对出行倾向和次数的影响较为相似,但也有所差异。 展开更多
关键词 老年人 建成环境 人居环境 移动性 多层二元logit模型 多层负二回归模型 生活质量
下载PDF
一种长文本辅助短文本的文本理解方法 被引量:3
7
作者 闫盈盈 黄瑞章 +3 位作者 王瑞 马灿 刘博伟 黄庭 《山东大学学报(工学版)》 CAS 北大核心 2018年第3期67-74,87,共9页
在狄利克雷多项回归(dirichlet-multinomial regression,DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression,DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用... 在狄利克雷多项回归(dirichlet-multinomial regression,DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression,DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。 展开更多
关键词 二元狄利克雷多项回归模型 短文本理解 主题模型
原文传递
地名视角下青海藏族人类活动演变时空分析 被引量:1
8
作者 栾桂泽 彭直琰 +4 位作者 蔡敬芝 富瑶 宋璐 沈克强 赵飞 《测绘地理信息》 CSCD 2021年第5期163-168,共6页
以青海省95 000余条地名数据为研究样本,运用向前逐步回归分析与隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型等方法,系统地分析了青海藏族地名特征及人类活动时空演变规律。结果表明:(1)藏族聚集区的形成主要受地形与水系... 以青海省95 000余条地名数据为研究样本,运用向前逐步回归分析与隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型等方法,系统地分析了青海藏族地名特征及人类活动时空演变规律。结果表明:(1)藏族聚集区的形成主要受地形与水系的影响,其中地形因素影响最大;(2)1949年后,受民族政策影响出现大量民族区域自治组织;(3)许多牧民转为定居劳作形成现在的藏族聚集区;(4)近300年中,青海藏民的主要迁徙地区为海南藏族自治州及其周边,藏民的迁徙在一定程度上传播了藏传佛教。 展开更多
关键词 藏族聚集区 地名研究 人类活动 逐步回归分析 隐含狄利克雷分布(latent Dirichlet allocation LDA)模型 迁移分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部