文摘为了有效填充不完整的公交到站时间信息,提出了一种基于改进k~*-means算法的不完整到站时间的填充方法.根据到站流动人数、到站所属时段、站点间距离、站点间运行时间特征加权度量站点间相似性,对现有kmeans算法进行改进以构建公交站点间运行时间完备信息表.以北京市地面公交运行数据为例,验证了该方法的可靠性,并与线性拟合、最近邻插值、k-means算法等填充方法进行了对比试验.结果表明:该方法对不完整到站时间的填充率高于97%,且对已知到站时间平均填充误差不高于100 s.
文摘目前贝叶斯网络(Bayesian networks,BN)的传统结构学习算法在处理高维数据时呈现出计算负担过大、在合理时间内难以得到期望精度结果的问题.为了在高维数据下学习稀疏BN的最优结构,本文提出了一种学习稀疏BN最优结构的改进K均值分块学习算法.该算法采用分而治之的策略,首先采用互信息作为节点间距离度量,利用融合互信息的改进K均值算法对网络分块;其次,使用MMPC(Max-min parent and children)算法得到整个网络的架构,根据架构找到块间所有边的可能连接方向,从而找到所有可能的图结构;之后,对所有图结构依次进行结构学习;最终利用评分找到最优BN.实验证明,相比现有分块结构学习算法,本文提出的算法不仅习得了网络的精确结构,且学习速度有一定提高;相比非分块经典结构学习算法,本文提出的算法在保证精度基础上,学习速度大幅提高,解决了非分块经典结构学习算法无法在合理时间内处理高维数据的难题.