针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC...针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.展开更多
为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题...为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题、疾病看作词语,通过主题模型LDA发现隐含的药物功能,通过药物功能,将相关药物、相关疾病和药物与疾病联系起来。根据药物对药物功能的分布对药物进行聚类,每一类药物被相关的疾病所描述,进而对临床用药进行分析。Ma LDA不仅能发现临床用药中针对某一类疾病效用较好的药物,而且能发现隐含的联合用药。实验数据来源于上海市某医院137 510位病人的用药记录和就诊记录。实验结果证实了Ma LDA相对于其他方法在对电子就医记录进行用药分析的有效性。展开更多
主要研究关于面板数据的有限阶固定效应的动态变系数回归模型(简称FDVCM)的统计推断问题.基于B-样条函数和广义矩估计(简称GMM)方法,首先建立了未知系数函数的非参数GMM估计,并证明大样本情形下该估计达到最优非参数收敛速度且具有渐近...主要研究关于面板数据的有限阶固定效应的动态变系数回归模型(简称FDVCM)的统计推断问题.基于B-样条函数和广义矩估计(简称GMM)方法,首先建立了未知系数函数的非参数GMM估计,并证明大样本情形下该估计达到最优非参数收敛速度且具有渐近正态性质.然而实际问题中模型的动态阶数完全未知,也可能存在其它冗余的回归变量,文中借助文[Fan J,Li R.Variable selection via penalized likelihood and its oracle properties.Journal of the American Statistical Association,2001,96(456):1348-1360]中的smoothly clipped absolute deviation(简称SCAD)惩罚函数同时识别真实的动态阶数和显著的外生回归变量.同时建立了压缩估计的Oracle性质,即所识别的模型与真实模型中的参数估计具有相同的渐近分布.最后,无论是数值试验还是实例数据分析都验证了本文方法的合理性和可行性.展开更多
文摘针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.
文摘为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题、疾病看作词语,通过主题模型LDA发现隐含的药物功能,通过药物功能,将相关药物、相关疾病和药物与疾病联系起来。根据药物对药物功能的分布对药物进行聚类,每一类药物被相关的疾病所描述,进而对临床用药进行分析。Ma LDA不仅能发现临床用药中针对某一类疾病效用较好的药物,而且能发现隐含的联合用药。实验数据来源于上海市某医院137 510位病人的用药记录和就诊记录。实验结果证实了Ma LDA相对于其他方法在对电子就医记录进行用药分析的有效性。
文摘主要研究关于面板数据的有限阶固定效应的动态变系数回归模型(简称FDVCM)的统计推断问题.基于B-样条函数和广义矩估计(简称GMM)方法,首先建立了未知系数函数的非参数GMM估计,并证明大样本情形下该估计达到最优非参数收敛速度且具有渐近正态性质.然而实际问题中模型的动态阶数完全未知,也可能存在其它冗余的回归变量,文中借助文[Fan J,Li R.Variable selection via penalized likelihood and its oracle properties.Journal of the American Statistical Association,2001,96(456):1348-1360]中的smoothly clipped absolute deviation(简称SCAD)惩罚函数同时识别真实的动态阶数和显著的外生回归变量.同时建立了压缩估计的Oracle性质,即所识别的模型与真实模型中的参数估计具有相同的渐近分布.最后,无论是数值试验还是实例数据分析都验证了本文方法的合理性和可行性.