期刊文献+
共找到181篇文章
< 1 2 10 >
每页显示 20 50 100
用户偏好-制造商偏好双重视阈下的产品创新机会识别路径研究
1
作者 王金凤 仵轩 +2 位作者 冯立杰 张珂 刘鹏 《计算机集成制造系统》 EI CSCD 北大核心 2024年第4期1433-1445,共13页
精准识别产品创新机会对制造商规避盲目创新风险,持续获取竞争优势至关重要。针对现有产品创新机会识别研究中因视角单一致使制造商价值创造的效率难以最大化,以及识别的创新机会聚焦度不清晰等诸多问题,基于用户偏好制造商偏好双重视... 精准识别产品创新机会对制造商规避盲目创新风险,持续获取竞争优势至关重要。针对现有产品创新机会识别研究中因视角单一致使制造商价值创造的效率难以最大化,以及识别的创新机会聚焦度不清晰等诸多问题,基于用户偏好制造商偏好双重视阈构建了产品创新机会识别路径。首先,运用结构主题模型从用户在线评论和产品描述文本中分别提取用户偏好及制造商偏好的产品属性主题;其次,基于两类主题之间的相似度进行主题分类以获取具象产品的创新需求;再次,从现有相关专利中提取创新要素并依托多维技术创新地图识别产品创新机会;最后,以老年智能手环靶向开展产品创新机会识别为例,验证了所提路径的可行性。应用结果表明,构建的用户偏好制造商偏好双重视阈下的产品创新机会识别路径能够为制造商高效开展产品创新活动提供可资借鉴的决策理论支持。 展开更多
关键词 产品创新机会识别 用户偏好制造商偏好双重视阈 多维技术创新地图 结构主题模型
下载PDF
在线社交网络中的多主题谣言溯源
2
作者 戴树兴 夏正友 《计算机技术与发展》 2024年第1期30-36,共7页
随着通信技术的快速发展,用户之间的信息可以很快地流通,同时也导致谣言在社交网络中传播,因此亟需对谣言来源进行检测以确保社交网络的公信力。目前关于谣言溯源的研究方向基本注重于单主题谣言传播,然而社交网络中存在大量不同主题的... 随着通信技术的快速发展,用户之间的信息可以很快地流通,同时也导致谣言在社交网络中传播,因此亟需对谣言来源进行检测以确保社交网络的公信力。目前关于谣言溯源的研究方向基本注重于单主题谣言传播,然而社交网络中存在大量不同主题的谣言,谣言源头以及谣言主题数量越多,产生的不良影响越大。针对多主题谣言同时存在的情况,信息的传播过程需要被重新定义。因此,该文提出了一种多主题独立级联模型,并在该模型的基础上定义了谣言溯源问题。从已感染的网络子图中,基于影响力最大化的原则找出前k个可疑节点,这组节点被认为是最可能的谣言来源。并证明了该问题是NP难的,以及目标函数是单调且子模的。在此基础上,提出了一种基于影响力最大化的近似比为(1-1/e)的贪婪算法。在大型真实数据集上的实验表明,平均误差距离控制在1跳之内。而且与其他算法相比,该算法具有更高的准确性以及有效性。 展开更多
关键词 多主题 社交网络 谣言溯源 谣言来源 独立级联
下载PDF
罕见病病种遴选与优先主题确定方法的思考
3
作者 李柯欣 陈敬丹 +5 位作者 张丁丁 郭武栋 郑佳音 李林康 赵琨 张抒扬 《罕见病研究》 2024年第2期269-274,共6页
本文通过对罕见病病种遴选和优先主题确定全流程的梳理和总结,对罕见病病种的申报和初步审查、病种主题信息的标准化、病种主题优先级遴选的证据梳理及罕见病主题确定和病种遴选的评价方法等多个环节内容进行了深入分析。以期为后续开... 本文通过对罕见病病种遴选和优先主题确定全流程的梳理和总结,对罕见病病种的申报和初步审查、病种主题信息的标准化、病种主题优先级遴选的证据梳理及罕见病主题确定和病种遴选的评价方法等多个环节内容进行了深入分析。以期为后续开展罕见病病种遴选工作、提升罕见病病种遴选的公平合理性和科学性,并进一步推动中国罕见病相关领域的研究和决策提供参考和借鉴。 展开更多
关键词 罕见病 病种遴选 优先主题 多准则决策分析
下载PDF
基于多尺度上下文的英文作文自动评分研究
4
作者 于明诚 党亚固 +2 位作者 吴奇林 吉旭 毕可鑫 《计算机工程》 CAS CSCD 北大核心 2024年第3期259-266,共8页
目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理... 目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理长序列文本时无法准确捕捉到符合上下文语境的向量嵌入,提升动态向量语义表征质量,解决一词多义问题,并通过一维卷积模块提取不同尺度的短语级别嵌入。多尺度上下文网络通过结合内置自注意力简单循环单元和全局注意力机制,分别捕捉单词、短语和句子级别的作文高维潜在上下文语义关联关系,利用句向量与作文主题计算语义相似度提取篇章主题层次特征,将所有特征输入融合层通过线性层得到自动评分结果。在公开的标准英文作文评分数据集ASAP上的实验结果表明,MSC模型平均二次加权的Kappa值达到了80.5%,且在多个子集上取得了最佳效果,优于实验对比的深度学习自动评分模型,证明了MSC在英文作文自动评分任务上的有效性。 展开更多
关键词 英文作文自动评分 预训练模型 多尺度上下文 全局注意力 主题层次特征
下载PDF
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究
5
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-TextRCNN
下载PDF
多文本阅读教学议题选择策略与实践研究
6
作者 谢云 《吉林省教育学院学报》 2024年第1期35-40,共6页
多文本阅读教学围绕议题以多个文本组合呈现在课堂上,它容量大、内容丰富、形式多样,有利于从多个层面、多个角度对文本展开深入探究,打破了传统单篇阅读容量过小、视野狭窄、拓展不深等局限。为了实现多文本阅读教学目标,提升教学有效... 多文本阅读教学围绕议题以多个文本组合呈现在课堂上,它容量大、内容丰富、形式多样,有利于从多个层面、多个角度对文本展开深入探究,打破了传统单篇阅读容量过小、视野狭窄、拓展不深等局限。为了实现多文本阅读教学目标,提升教学有效性,还需以议题为抓手,综合学生认知特点、发展需求、语文学科性质、学段要求等,基于单元主题、训练重点、习作要求等研定议题,并确保议题的集中性和可议论性。本文从多文本阅读教学议题选定的要点着手,分析了议题选择的基本策略,并最终以两组案例说明了议题选择策略的合理性。 展开更多
关键词 多文本阅读教学 议题选择 语文素养
下载PDF
结合文本聚类和多标签分类的学科交叉主题早期识别方法
7
作者 冯岭 《情报杂志》 北大核心 2024年第8期160-169,共10页
[研究目的]以专利为研究数据,提出一种结合文本聚类和多标签分类的学科交叉主题早期识别方法。[研究方法]以“量子计算”作为研究领域,通过基于聚类结果的筛选和基于多标签分类的筛选等两种方法将大量非学科交叉专利从专利集合中过滤,... [研究目的]以专利为研究数据,提出一种结合文本聚类和多标签分类的学科交叉主题早期识别方法。[研究方法]以“量子计算”作为研究领域,通过基于聚类结果的筛选和基于多标签分类的筛选等两种方法将大量非学科交叉专利从专利集合中过滤,进而在学科交叉专利占比较高的小数据集上采用主题识别方法实现学科交叉主题的早期识别。随后,在德温特专利数据集上进行实证研究,验证了所提出方法的有效性。[研究结论]研究发现了“量子加密技术”和“量子计算技术与量子计算机”等学科交叉主题。与已有方法相比,提出的识别方法可以在交叉领域尚处于萌芽期或成长期、相关文献数量较少的情况下,发现文献集合中的学科交叉主题。 展开更多
关键词 专利数据 学科交叉主题 早期识别 多标签分类 学科交叉专利 文本聚类 量子计算
下载PDF
多维技术创新地图融合TO-RFM模型的技术机会识别与评价路径研究 被引量:4
8
作者 冯立杰 马亚坤 +2 位作者 王金凤 张珂 张世斌 《情报理论与实践》 北大核心 2023年第2期145-155,108,共12页
[目的/意义]精准识别技术机会以准确把握市场先机对提升企业核心竞争力至关重要。针对现有技术机会识别粒度较粗、技术机会评价较主观的局限,构建基于多维技术创新地图与TO-RFM模型的技术机会识别与评价路径具有重要的意义。[方法/过程... [目的/意义]精准识别技术机会以准确把握市场先机对提升企业核心竞争力至关重要。针对现有技术机会识别粒度较粗、技术机会评价较主观的局限,构建基于多维技术创新地图与TO-RFM模型的技术机会识别与评价路径具有重要的意义。[方法/过程]首先,运用LDA主题模型从专利数据集中挖掘影响技术创新的要素,并依据主题分布与主题热度分析筛选技术要素;其次,将技术要素划分创新维度后建立多维技术创新地图,通过创新维度与创新法则耦合形成技术机会备选集;最后,利用技术机会价值评估模型(TO-RFM)中的三维评价指标及四象限图对所识别的技术机会的潜在价值予以研判。[结果/结论]以沸腾氯化工艺为例,利用所提方法识别出了9种技术机会,验证了该识别方法的有效性。研究结果具有较强的实践意义,为企业精准把握创新先机、提升创新效率提供了有益的参考。[局限]虽能有效挖掘技术热点,但仍需加强对技术要素间语义关系的考虑,以进一步完善技术要素的剖析。 展开更多
关键词 LDA 主题热度 多维技术创新地图 TO-RFM模型 技术机会识别
下载PDF
朝向教学境况本身:群文阅读的概念廓清与实践路径 被引量:1
9
作者 陈雪 《课程.教材.教法》 北大核心 2023年第8期79-84,共6页
面对不同于传统单篇阅读的群文阅读,不少教师对其教学效果、教学内容、教学过程以及在文体上的适用性等存在诸多困惑。教学实践中,教师受要素主义教育理论、单篇阅读教学惯性以及对群文阅读特点缺乏认知等的影响,群文阅读教学常常采用... 面对不同于传统单篇阅读的群文阅读,不少教师对其教学效果、教学内容、教学过程以及在文体上的适用性等存在诸多困惑。教学实践中,教师受要素主义教育理论、单篇阅读教学惯性以及对群文阅读特点缺乏认知等的影响,群文阅读教学常常采用课文机械叠加的模式。梳理群文阅读的核心概念,可知群文之“文”当理解为跨媒介、跨学科的多“文本”,群文之“群”意指群文阅读的本质为结构性读解文本,议题之“议”指群文阅读为紧扣议题的个体性探究。鉴于群文阅读的特点,可从四个方面来构建教学实践路径:设置生成性目标为主的教学目标,设计可议性和系统性强的议题,践行为学生提供学科核心概括性知识和背景性知识的课前引导,构建侧重过程性和互动性的多维教学评价。 展开更多
关键词 群文阅读 教学困境 议题 多维评价
下载PDF
基于LDA-SNA和多维空间专利地图的核心技术主题及创新机会识别研究 被引量:4
10
作者 冯立杰 王文豪 +2 位作者 王金凤 张珂 张世斌 《科技管理研究》 北大核心 2023年第5期165-174,共10页
为把握核心技术、精准高效研判技术机会,提出一种基于LDA-SNA和多维空间专利地图的核心技术主题及创新机会识别方法。首先,采用LDA-SNA方法提取技术主题及要素并筛选核心技术主题;其次,依托多维空间专利地图对核心技术主题要素进行归维... 为把握核心技术、精准高效研判技术机会,提出一种基于LDA-SNA和多维空间专利地图的核心技术主题及创新机会识别方法。首先,采用LDA-SNA方法提取技术主题及要素并筛选核心技术主题;其次,依托多维空间专利地图对核心技术主题要素进行归维处理,并选取创新法则依据维法耦合原理生成基于核心技术主题的技术创新机会;最后,以钛白粉浆料制备技术为例,检索并搜集到1 962条专利为数据集。研究结果识别出6个核心技术主题的7个创新机会,验证该方法的可行性,为相关企业进行技术机会识别以高效开展技术创新提供决策参考依据。 展开更多
关键词 核心技术主题 技术机会识别 LDA-SNA 多维空间专利地图
下载PDF
基于多文本分析的领域关键技术问题挖掘方法研究 被引量:3
11
作者 伊惠芳 刘细文 龙艺璇 《情报理论与实践》 北大核心 2023年第1期187-196,共10页
[目的/意义]关键技术问题研究对于辅助各创新主体把握创新突破方向、攻克关键核心技术、推进技术创新具有重要意义。[方法/过程]针对目前技术关键问题挖掘领域识别样本、流程、方法上的不足,提出多文本分析的领域关键技术问题挖掘框架,... [目的/意义]关键技术问题研究对于辅助各创新主体把握创新突破方向、攻克关键核心技术、推进技术创新具有重要意义。[方法/过程]针对目前技术关键问题挖掘领域识别样本、流程、方法上的不足,提出多文本分析的领域关键技术问题挖掘框架,以专利说明书技术背景为主,综述性论文结束语和技术需求文档为辅,从数据获取及转化、技术问题提取、技术问题主题识别、关键技术问题发现4个环节展开分析。[结果/结论]对石墨烯领域案例研究证明了多文本分析的领域关键技术问题识别框架的有效性;专利说明书技术背景、综述论文结束语与技术需求文档在挖掘技术问题上的表现、描述极性、结果上具有不同的解释力度,可互相佐证补充。 展开更多
关键词 关键技术问题 多文本分析 机器学习 主题模型
下载PDF
一种大规模教育监测问卷填答系统实现方法
12
作者 袁晓敏 吴德操 +2 位作者 万君 谭必玉 陈洪余 《软件导刊》 2023年第12期147-153,共7页
网络问卷调查以其简单、快速、跨地域的优势,为教育教研机构获取教师信息提供了更为快捷的方式。为获得准确客观的评价结果,需要对不同情况下的受试群体设计相应问题进行涵盖,以形成巨大的储备题库。现有网络调查模式采用不分角色的全... 网络问卷调查以其简单、快速、跨地域的优势,为教育教研机构获取教师信息提供了更为快捷的方式。为获得准确客观的评价结果,需要对不同情况下的受试群体设计相应问题进行涵盖,以形成巨大的储备题库。现有网络调查模式采用不分角色的全题库测评,加之多学科联合调查,极易造成受试者疲劳,降低调查效率,阻碍网络问卷教育监测的大规模推广应用。根据答题情况对受试者进行动态分组,并进行针对性选题派发是一种较好的解决思路。为此,提出一种基于Angular框架且支持多组合逻辑跳转和多题联合校验的实现方法,可在测试过程中依据受试者已有的答案组合自动进行逻辑判断,并动态跳转至后续题组,同时增加对存在逻辑关系的多道题的联合约束校验功能,以提升测评的针对性、实效性和精确性,节省测验时间。该方法在2020年和2022年重庆市基础教育监测教师问卷调查中得到良好应用。 展开更多
关键词 ANGULAR MONGODB 问卷调查 题目分维度管理 多组合逻辑跳转
下载PDF
一种基于多任务学习的科学文献推荐算法
13
作者 白莹琦 帕丽旦·吐尔逊 《电子科技》 2023年第4期59-64,共6页
传统推荐算法通过主题模型或者词语向量化的平均值对文本内容进行映射。针对现有方法不能充分利用文本信息或忽略词序信息这一问题,文中面向科学文献,提出了一种多任务学习推荐方法。该方法基于多任务学习框架,设计编码器并搭建了GL模... 传统推荐算法通过主题模型或者词语向量化的平均值对文本内容进行映射。针对现有方法不能充分利用文本信息或忽略词序信息这一问题,文中面向科学文献,提出了一种多任务学习推荐方法。该方法基于多任务学习框架,设计编码器并搭建了GL模型。该模型被训练为内容推荐与文本元数据预测的组合,可改善传统协同过滤的稀疏性问题,使得协同过滤模型正则化。最后,分别在公开数据集与私有数据集上进行了评估测试,结果表明所提方法性能优于现有的经典方法。 展开更多
关键词 推荐系统 深度学习 神经网络 多任务学习 协同过滤 门控递归单元 协同主题回归 编码器
下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
14
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
下载PDF
基于向量空间模型的多主题Web文本分类方法 被引量:14
15
作者 周炎涛 唐剑波 吴正国 《计算机应用研究》 CSCD 北大核心 2008年第1期142-144,共3页
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,... 对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。 展开更多
关键词 向量空间模型 文本分类 多主题 数据挖掘
下载PDF
Web网页信息文本分类的研究 被引量:5
16
作者 李净 袁小华 沈晓晶 《计算机工程与设计》 CSCD 北大核心 2008年第23期6026-6028,共3页
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Bo... 面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。 展开更多
关键词 WEB文本分类 多主题 多分类器 BOOSTING算法 综合Bayesian分类法
下载PDF
基于主题的Web文本聚类方法 被引量:3
17
作者 张万山 肖瑶 +1 位作者 梁俊杰 余敦辉 《计算机应用》 CSCD 北大核心 2014年第11期3144-3146,3151,共4页
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚... 针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。 展开更多
关键词 多主题 WEB文本 聚类 特征词 准确率
下载PDF
多维主题演化分析模型构建与实证研究 被引量:14
18
作者 刘自强 王效岳 白如江 《情报理论与实践》 CSSCI 北大核心 2017年第3期92-98,共7页
[目的/意义]分析科研主题的复杂演化过程,能够帮助学者及时把握研究热点、研究前沿和发展趋势,然而目前主题演化相关研究主要从单一维度进行演化分析。[方法/过程]文章构建了基于主题热度、状态和演化路径3个维度的主题演化分析模型,以... [目的/意义]分析科研主题的复杂演化过程,能够帮助学者及时把握研究热点、研究前沿和发展趋势,然而目前主题演化相关研究主要从单一维度进行演化分析。[方法/过程]文章构建了基于主题热度、状态和演化路径3个维度的主题演化分析模型,以碳纳米管研究领域为例进行了实证研究,首先对相关科技文献数据进行采集、预处理,并利用PLDA模型进行主题识别,然后基于多维主题演化分析模型,结合可视化技术,构建了多个维度的科学知识图谱,分析了主题热度、演化状态、宏观演化脉络和微观演化路径,清晰地描绘了碳纳米管领域的主题演化脉络、趋势。[结果/结论]研究结果表明,多维主题演化分析模型能够准确分析主题演化生命周期的复杂过程。 展开更多
关键词 多维度 主题识别 主题演化 可视化 模型 实证研究
下载PDF
基于概念簇的多主题提取算法 被引量:3
19
作者 马甲林 张永军 王志坚 《智能系统学报》 CSCD 北大核心 2015年第2期261-266,共6页
现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念... 现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过"预设种子"方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。 展开更多
关键词 语义 稀疏 上下文背景 知识库 概念簇 多主题提取 K-MEANS MEABCC
下载PDF
一种基于搜索策略的多主题信息采集方法 被引量:2
20
作者 仲兆满 李存华 +1 位作者 刘宗田 管燕 《电子学报》 EI CAS CSCD 北大核心 2014年第12期2352-2358,共7页
本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置... 本文针对多主题信息采集效率低下的问题,调研了主题规则在内置搜索引擎和通用搜索引擎上搜索结果的差异,提出将主题规则拆分成原子规则的思想,分析了原子规则间的相同、互换、包含三种关系.在原子规则之间关系的基础上,设计了针对内置搜索和通用搜索不同的原子规则分配策略,这样做一方面提高主题信息采集的准确率,另一方面减少搜索采集的次数.针对原子规则直接搜索结果的准确率不高的问题,提出了基于句群的主题与信息相关性的过滤方法.设置138条主题规则(拆分后的原子规则为8223条),14个内置搜索引擎和4个通用搜索引擎,在单位时间内采集到的信息总条数与采集到的相关信息的条数两个方面进行了实验比较.结果表明,所提方法在信息采集数目及相关信息采集数目方面均具有较好的性能. 展开更多
关键词 多主题信息采集 原子规则 内置搜索 通用搜索 相关性计算
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部