期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于频繁模式挖掘的维吾尔文智能组词方法 被引量:6
1
作者 吐尔地·托合提 维尼拉·木沙江 艾斯卡尔·艾木都拉 《计算机应用》 CSCD 北大核心 2012年第10期2920-2922,2926,共4页
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特... 以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。 展开更多
关键词 维吾尔文本 分词 组词 语义词 频繁模式
下载PDF
频繁子树模式在中心词识别中的应用研究 被引量:1
2
作者 田卫东 黄勇 《微电子学与计算机》 CSCD 北大核心 2015年第11期27-32,共6页
中文问句中心词识别领域中,现有方法未能有效利用依存句法中的深层统计关系.为解决此问题并探究中心词在词的多维属性上的统计关系,首次提出多维树概念,给出多维频繁模式挖掘方案并应用于中文问句中心词识别中.针对此应用给出频繁子树... 中文问句中心词识别领域中,现有方法未能有效利用依存句法中的深层统计关系.为解决此问题并探究中心词在词的多维属性上的统计关系,首次提出多维树概念,给出多维频繁模式挖掘方案并应用于中文问句中心词识别中.针对此应用给出频繁子树模式精简及规则冲突解决方案,训练出一个中文中心词识别模型.此方法是典型的客观方法,实验表明,此方法有较好的稳定性、适应性与鲁棒性,且较条件随机场模型在准确率上有进一步提高. 展开更多
关键词 条件随机场 依存关系树 频繁子树模式 模式精简 规则冲突 中心词
下载PDF
面向中文电子病历的属性挖掘 被引量:1
3
作者 费超群 张书涵 李阳阳 《高技术通讯》 CAS 2022年第6期597-606,共10页
电子病历(EMR)的属性挖掘任务旨在从一组同一科室下的病历文本中抽取该科室医学检查项目。传统的频繁项或序列挖掘技术并不能直接用于该任务。本文提出一种新的不需要人工干预的属性挖掘框架,并借助无标注技术来处理这一难题,即将属性... 电子病历(EMR)的属性挖掘任务旨在从一组同一科室下的病历文本中抽取该科室医学检查项目。传统的频繁项或序列挖掘技术并不能直接用于该任务。本文提出一种新的不需要人工干预的属性挖掘框架,并借助无标注技术来处理这一难题,即将属性挖掘问题形式化为半结构化的频繁子序列挖掘任务,并提出一种有效的算法从电子病历中挖掘候选的词模式。在中文电子病历上进行的各项综合实验,证明了本文提出的方法可以有效处理属性挖掘任务。 展开更多
关键词 属性挖掘 电子病历(EMR) 频繁子序列挖掘 词模式 频繁词模式
下载PDF
基于统计和浅层语言分析的维吾尔文语义串快速抽取 被引量:1
4
作者 吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2017年第4期70-79,共10页
该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模... 该文提出了一种基于统计和浅层语言分析的维吾尔文语义串快速抽取方法,采用一种多层动态索引结构为大规模文本建词索引,结合维吾尔文词间关联规则采用一种改进的n元递增算法进行词串扩展并发现文本中的可信频繁模式,最终依次判断频繁模式串结构完整性从而得到语义串。通过在不同规模的语料上实验发现,该方法可行有效,能够应用到维吾尔文文本挖掘多个领域。 展开更多
关键词 语义串 多层动态索引 词串扩展 可信频繁模式 邻接特征分析
下载PDF
用于网络新闻热点识别的热点新词发现 被引量:5
5
作者 王煜 徐建民 《计算机应用》 CSCD 北大核心 2020年第12期3513-3519,共7页
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中... 通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。 展开更多
关键词 热点新词 FP-TREE 逐点互信息(PMI) 邻接熵 时间特征
下载PDF
基于频繁模式挖掘的中文关键词提取算法
6
作者 崔诚煜 冉晓旻 《太赫兹科学与电子信息学报》 2015年第2期279-284,共6页
针对现有关键词提取算法存在计算复杂、语义信息挖掘较浅等问题,提出一种基于频繁模式挖掘的中文关键词提取算法。该算法采用改进的FP-增长算法挖掘词共现信息,排除噪音词汇;利用语义相似度算法消除同义词;精简候选词特征,在保证较高准... 针对现有关键词提取算法存在计算复杂、语义信息挖掘较浅等问题,提出一种基于频繁模式挖掘的中文关键词提取算法。该算法采用改进的FP-增长算法挖掘词共现信息,排除噪音词汇;利用语义相似度算法消除同义词;精简候选词特征,在保证较高准确率和召回率的条件下减少了存储空间和计算量。实验结果表明,该算法所获得的平均F值为59.7%,高于若干经典算法;支持度计数是最重要的影响因素。 展开更多
关键词 提取 频繁模式挖掘 词共现 FP-增长
下载PDF
面向流域水资源自由文本的属性抽取方法
7
作者 瞿珊珊 周晓光 《情报探索》 2018年第5期63-67,共5页
[目的/意义]为流域水资源领域知识库的构建提供数据来源。[方法/过程]针对非结构化的流域水资源属性信息,提出一种基于属性触发词的流域水资源属性抽取方法。首先,基于统计学方法分析流域水资源文本,得到流域水资源实体-属性触发词-属... [目的/意义]为流域水资源领域知识库的构建提供数据来源。[方法/过程]针对非结构化的流域水资源属性信息,提出一种基于属性触发词的流域水资源属性抽取方法。首先,基于统计学方法分析流域水资源文本,得到流域水资源实体-属性触发词-属性值的分布规律;其次,利用频繁模式挖掘,提取出属性触发词;最后,结合属性触发词与属性触发规则,实现属性三元组的抽取。[结果/结论]经百度百科自由文本实验与对比分析,该方法适用于数值型属性抽取,具有较高的精确率和召回率。 展开更多
关键词 流域水资源 属性抽取 属性触发词 频繁模式
下载PDF
一种基于网络表示学习的生活模式挖掘方法
8
作者 蔡郑 贾利娟 孙扬清 《电脑知识与技术》 2020年第31期81-85,共5页
近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时... 近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时空信息进行了预处理,再结合自然语言处理将用户一定时间范围内的活动通过主题向量来表示,然后通过聚类和频繁模式发掘等方法发掘出用户的生活模式。实验结果验证了本文方法的有效性。 展开更多
关键词 时空信息 语义 网络表示 主题向量 生活模式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部