期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于分类词典的文本相似性度量方法 被引量:6
1
作者 李海林 邹金串 《智能系统学报》 CSCD 北大核心 2017年第4期556-562,共7页
针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计... 针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法,通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明,新方法在聚类与分类实验中均能取得较好的实验结果,相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。 展开更多
关键词 文本挖掘 语义分析 分类词典 关键词提取 词语编码 相似性度量 聚类 分类
下载PDF
基于CPET时序聚类的中长跑耐力运动员选拔方法
2
作者 李海林 夏燕燕 邹金串 《计算机工程》 CAS CSCD 北大核心 2022年第9期262-268,共7页
心肺运动试验(CPET)能将人体的呼吸系统、心血管系统等综合为一体,不仅能够体现受试者的有氧运动能力,评估受试者的心肺耐力,而且能以整体整合医学的视角来研究受试者对运动的应激反应。为对CPET数据进行凝聚层次聚类分析,提出一种基于... 心肺运动试验(CPET)能将人体的呼吸系统、心血管系统等综合为一体,不仅能够体现受试者的有氧运动能力,评估受试者的心肺耐力,而且能以整体整合医学的视角来研究受试者对运动的应激反应。为对CPET数据进行凝聚层次聚类分析,提出一种基于时间序列形态特征的算法。选取15名业余中长跑运动员的CPET数据作为聚类对象,聚类指标选取了表征有氧能力和心肺耐量的耗氧量、二氧化碳、心率、分钟通气当量、代谢当量、生理死腔与潮气量比值、呼吸商及每搏输出量等8类指标,体现运动员摄取、利用氧的效率、肺循环以及心功能等综合状况。通过聚类分析发现受试者个体差异较大,未出现明显的“群居分布”特征,根据轮廓系数评估可剔除心肺耐量较差的测试者。实验结果表明,该算法在确保聚类准确率的同时能够降低数据压缩率,且对形态特征显著的数据集进行聚类效果更佳。 展开更多
关键词 时间序列聚类 心肺运动试验 耐力运动员 运动员选拔 动态时间弯曲
下载PDF
糖尿病联合并发症发病风险计算与预测 被引量:5
3
作者 郑尔昌 邹金串 +4 位作者 薛成斌 张晋伟 陈少阳 陈强 胡国鹏 《华侨大学学报(自然科学版)》 CAS 2022年第4期498-510,共13页
采用国家人口与健康科学数据共享平台临床医学科学数据中心提供的3000例糖尿病并发症数据作为数据集,对糖尿病联合并发症发病风险进行计算与预测.通过关联规则查找高风险联合并发症并计算各联合并发症的关联发病率,采用随机森林算法建... 采用国家人口与健康科学数据共享平台临床医学科学数据中心提供的3000例糖尿病并发症数据作为数据集,对糖尿病联合并发症发病风险进行计算与预测.通过关联规则查找高风险联合并发症并计算各联合并发症的关联发病率,采用随机森林算法建立高风险联合并发症发病预测模型,并查找其关键影响因素.研究结果表明:部分联合并发症关联发病率超过90%;在筛选出的12组高风险联合并发症中,高血压、动脉粥样硬化、视网膜病变、冠心病、肾病等是常见并发症;不同的联合并发症中关键影响因素(生化指标)各不相同;各联合并发症十折交叉验证法的分类平均精度均在0.8000以上,曲线下面积(AUC)值均大于0.67. 展开更多
关键词 糖尿病 并发症 关联发病率 关键因素 发病预测 关联规则 随机森林
下载PDF
基于模式数量距离的时间序列相似性度量方法
4
作者 邹金串 《广东经济》 2017年第4X期168-170,共3页
针对时间序列数据特征表示和模式方法存在的局限性,提出基于模式数量距离的时间序列相似性度量方法.
关键词 数据挖掘 时间序列 相似性度量 模式距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部