期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
以作者合作共现为源数据的科研团队发掘方法研究 被引量:26
1
作者 沈耕宇 黄水清 王东波 《现代图书情报技术》 CSSCI 北大核心 2013年第1期57-62,共6页
在对个人和科研机构的评价研究中,针对难以准确、可靠地界定与识别科研团队的问题,将向量空间模型应用到作者合著关系网络的科研团队发掘研究中。在考虑论文作者署名顺序的前提下,构建论文与作者向量空间,通过计算作者向量的相似度来衡... 在对个人和科研机构的评价研究中,针对难以准确、可靠地界定与识别科研团队的问题,将向量空间模型应用到作者合著关系网络的科研团队发掘研究中。在考虑论文作者署名顺序的前提下,构建论文与作者向量空间,通过计算作者向量的相似度来衡量作者之间的合作关系,再通过社会网络分析中的凝聚子群分析方法分析作者合作关系网络。最后,以某高校内某学院的所有在编教师为研究对象,准确地发掘出所有真实存在的科研团队,从而验证方法的合理性。 展开更多
关键词 向量空间模型 作者合作相关度 派系分析 科研团队发现 合著关系网络
原文传递
基于汉英词性组合的短语级平行语料类别知识挖掘研究 被引量:1
2
作者 王东波 韩普 +1 位作者 沈耕宇 沈思 《图书情报工作》 CSSCI 北大核心 2013年第11期106-111,145,共7页
基于通过具体实验确定的Bisecting K-means聚类和Lemmatization形态变换算法,在汉英短语级人文社会科学平行语料基础上,尝试进行类别知识挖掘的实验。在中文社会科学引文索引(CSSCI)的类别和标题知识基础上,完成对汉英语料的预处理,并... 基于通过具体实验确定的Bisecting K-means聚类和Lemmatization形态变换算法,在汉英短语级人文社会科学平行语料基础上,尝试进行类别知识挖掘的实验。在中文社会科学引文索引(CSSCI)的类别和标题知识基础上,完成对汉英语料的预处理,并分析名词、动词和形容词的分布状况。在名词、动词和形容词等词性的组合基础上,对比不同词性组合的效果并确定最优的词性组合类别知识挖掘模型。 展开更多
关键词 词性组合Bisecting K-means汉英平行语料库 类别知识
原文传递
基于多元相似度融合的中文命名实体消歧方法 被引量:1
3
作者 石水倩 金晶 +2 位作者 沈耕宇 王宝佳 任妮 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第2期56-64,共9页
【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【... 【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【结果】在维基百科农业方向数据集上的实验结果表明,本文所提方法准确率为89.7%,优于传统方法。【局限】方法仅在特定领域适用。【结论】本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率,能够解决特定领域的实体消歧问题,未来可将其应用于更广泛的实体消歧场景中。 展开更多
关键词 实体消歧 相似度 上下文词向量 实体属性 主题词向量
原文传递
一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究
4
作者 何琳 何娟 +2 位作者 沈耕宇 杨波 黄水清 《现代图书情报技术》 CSSCI 北大核心 2012年第7期109-114,共6页
综合运用模式匹配、主题识别、信息抽取等多种信息处理技术,从基于文献的角度设计一种面向qRT-PCR实验的内参基因及实验环境的挖掘系统,为qRT-PCR实验提供有价值的内参基因推介参考,可以缩短内参基因筛选的时间,减少实验验证的成本,具... 综合运用模式匹配、主题识别、信息抽取等多种信息处理技术,从基于文献的角度设计一种面向qRT-PCR实验的内参基因及实验环境的挖掘系统,为qRT-PCR实验提供有价值的内参基因推介参考,可以缩短内参基因筛选的时间,减少实验验证的成本,具有较高的识别正确率。初步的测试结果得到生物学领域专业人员的认可。 展开更多
关键词 实时定量聚合酶链式反应实验 内参基因 实验环境 文本挖掘 信息抽取
原文传递
基于深度学习的细粒度命名实体识别研究——以番茄病虫害为例 被引量:10
5
作者 任妮 鲍彤 +1 位作者 沈耕宇 郭婷 《情报科学》 CSSCI 北大核心 2021年第11期96-102,共7页
【目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章以电子书、论文、网页作为... 【目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和CBOW预训练字向量分别输入BiLSTM-CRF模型训练,并在识别后补充规则控制实体的边界。【结果/结论】BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。 展开更多
关键词 细粒度 BERT模型 BiLSTM模型 命名实体识别 番茄病虫害
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部