期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
领域跨越:数据挖掘的应用和发展趋势 被引量:17
1
作者 洪亮 李雪思 周莉娜 《图书情报知识》 CSSCI 北大核心 2017年第4期22-32,共11页
随着网络和信息技术的不断普及,非结构化、半结构化数据正在爆发式地增长,这些数据早已经远远超越了目前人力所能处理的范畴。数据挖掘技术的重要性在处理和分析数据量巨大、数据类型丰富、增长迅速的大数据时日益凸显。近几年数据挖掘... 随着网络和信息技术的不断普及,非结构化、半结构化数据正在爆发式地增长,这些数据早已经远远超越了目前人力所能处理的范畴。数据挖掘技术的重要性在处理和分析数据量巨大、数据类型丰富、增长迅速的大数据时日益凸显。近几年数据挖掘技术的研究有着诸多新进展,在信息管理学科的应用与发展也不断深化。本文以iConference 2017所收录的11篇会议论文为研究样本,结合近三年国内外相关研究文献,以数据挖掘采用的方法来分类探讨数据挖掘在商业智能、医药卫生、学术文献、社交媒体等领域的应用,通过对应用中出现问题和相应的解决方法的分析与总结,归纳出数据挖掘在信息社区的应用与发展。 展开更多
关键词 数据挖掘 iConference信息管理 大数据 跨领域
下载PDF
领域知识演化分析方法综述
2
作者 李雪思 张智雄 +1 位作者 王宇飞 刘熠 《数据分析与知识发现》 EI CSCD 北大核心 2024年第1期1-15,共15页
【目的】领域知识演化分析是图书情报学界长期关注的一个重要研究问题。本文对国内外有关领域知识演化分析方法的研究进行总结梳理,为后续的相关研究提供参考。【文献范围】利用领域知识演化的关键词在CNKI和Web of Science中检索,并对... 【目的】领域知识演化分析是图书情报学界长期关注的一个重要研究问题。本文对国内外有关领域知识演化分析方法的研究进行总结梳理,为后续的相关研究提供参考。【文献范围】利用领域知识演化的关键词在CNKI和Web of Science中检索,并对检索结果进行人工判读和分析,选取与领域知识演化分析方法密切相关的84篇重点文献进行综述。【方法】通过回顾研究文献,对领域知识演化的相关概念进行辨析,在此基础上将现有的领域知识演化分析方法分为基于引用、基于结构和基于内容的三类。在对每类分析方法梳理过程中,首先辨析该类方法的理论依据,然后阐述该类方法的基本分析思路并介绍相关进展,最后对现有的领域知识演化分析方法进行总结和展望。【结果】现有的三类领域知识演化分析方法依托于各自的科学理论,借助技术的进步和数据资源的完善,不断深化改进演化分析的思路框架;虽然取得了丰富的研究成果,但并没有在知识演化分析的研究角度上产生突破,无法根本性地解决当前研究视角下的局限性。【局限】基于筛选后的文献进行综述分析,可能未全面覆盖相关的研究工作。【结论】领域知识演化分析的未来研究中有以下两个方向值得重点关注:一是尝试拓展新的领域知识演化分析切入点,二是尝试交叉融合已有的研究方法以改善现有分析方法下的局限。 展开更多
关键词 领域知识 知识演化 演化分析
原文传递
基于语步识别的科技文献结构化自动综合工具构建
3
作者 刘熠 张智雄 +1 位作者 王宇飞 李雪思 《数据分析与知识发现》 EI CSCD 北大核心 2024年第2期65-73,共9页
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具... 【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路,即通过语步识别与研究问题、研究方法、研究进展短语抽取,自动揭示单篇文献中的关键知识内容;通过层次聚类与类簇标签生成,实现多篇文献的知识整理归纳;通过设计树形综合结构,指导结构化综合结果输出。【结果】研发了结构化自动综合工具,能够自动综合文献集内容,并按照“研究问题-研究方法-研究进展”的树形结构揭示文献集的研究脉络与骨架。【局限】由于聚类技术的限制,目前还存在聚类准确率不足、聚类簇个数难以确定等问题,影响了自动综合效果。【结论】基于语步识别技术,构建面向实际应用的结构化自动综合工具,支持文献检索、自动综合、结果循证等功能,验证了基于语步识别实现结构化自动综合思路的可行性和有效性。 展开更多
关键词 科技文献 语步识别 结构化自动综合 短语抽取 层次聚类 类簇标签生成
原文传递
ChatGPT的技术基础分析 被引量:73
4
作者 钱力 刘熠 +7 位作者 张智雄 李雪思 谢靖 许钦亚 黎洋 管铮懿 李西雨 文森 《数据分析与知识发现》 CSCD 北大核心 2023年第3期6-15,共10页
【目的】梳理分析ChatGPT相关的语料、算法与模型,为同行业研究提供体系化的参考借鉴。【方法】通过系统梳理GPT-3发布至今的相关文献与资料,刻画ChatGPT技术的整体架构,并解释与分析其背后的模型、算法与原理。【结果】通过文献调研,... 【目的】梳理分析ChatGPT相关的语料、算法与模型,为同行业研究提供体系化的参考借鉴。【方法】通过系统梳理GPT-3发布至今的相关文献与资料,刻画ChatGPT技术的整体架构,并解释与分析其背后的模型、算法与原理。【结果】通过文献调研,根据现有资料还原了支撑ChatGPT功能的技术细节,梳理了ChatGPT技术的整体架构,解释了ChatGPT整体技术构成。按照ChatGPT的语料体系、预训练算法与模型、微调算法与模型三个层次分析ChatGPT各技术组件的算法原理与模型组成。【局限】本文调研ChatGPT相关的文献难免存在遗漏,且对部分技术内容的解读还不够深入,一些由笔者推断的内容甚至可能存在错误。【结论】ChatGPT技术应用的突破,是语料、模型、算法,通过迭代训练不断积累的结果,也是各类算法模型有效组合与集成的结果。 展开更多
关键词 ChatGPT ChatGPT技术 生成式预训练模型 人工智能
原文传递
科技文献研究问题句识别方法研究 被引量:2
5
作者 李雪思 张智雄 +1 位作者 刘熠 王宇飞 《图书情报工作》 北大核心 2023年第9期132-140,共9页
[目的/意义]科技文献是记录科学问题提出和求解过程的重要载体,其中的研究问题句对于揭示科学问题具体内容、把握文章的研究主题具有重要作用。自动识别科技文献研究问题句是科技文本挖掘中一个重要的任务。[方法/过程]针对研究问题句... [目的/意义]科技文献是记录科学问题提出和求解过程的重要载体,其中的研究问题句对于揭示科学问题具体内容、把握文章的研究主题具有重要作用。自动识别科技文献研究问题句是科技文本挖掘中一个重要的任务。[方法/过程]针对研究问题句自动识别,首先提出一种基于迭代的半自动标注策略,结合模型预判的置信度进行人工校对,对研究问题句数据进行标注。在此基础上,采用BERT-CNN的架构设计句子分类模型,该模型引入BERT生成文本向量,并使用CNN提取文本特征,然后通过实验与基准模型进行对比验证了模型的有效性。[结果/结论]基于提出的标注策略构建了大规模规范可用的数据集,经过人工检验准确率达到95%;并在此基础上设计了基于BERT-CNN架构的识别模型,在研究问题句识别任务中F1值达到94.8%。本文的研究为科技文献研究问题的挖掘与分析提供了高质量的数据支持和有效的模型方法。 展开更多
关键词 研究问题句 自动识别 预训练语言模型 深度学习 文本挖掘
原文传递
中文科技论文标题自动生成系统的设计与实现 被引量:1
6
作者 王宇飞 张智雄 +2 位作者 赵旸 张梦婷 李雪思 《数据分析与知识发现》 CSCD 北大核心 2023年第2期61-71,共11页
【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据... 【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据支撑;基于BERT-UniLM构建标题生成模型,以取得较好的生成效果;基于HTTP设计应用程序接口,以实现系统的开放调用。【结果】初步实现了中文科技论文标题自动生成系统,能够生成较为恰当地反映论文内容的标题。【局限】BERT模型具有最大输入长度限制,对于输入超过长度限制的摘要会自动截断,因此较长摘要的标题生成效果可能会受到影响。【结论】重点从数据、模型、开放调用三个方面设计和实现了中文科技论文标题自动生成系统,为科研人员及文献服务机构提供便捷易用工具,并为其他科技文本进行标题自动生成提供了一种实践路径。 展开更多
关键词 标题自动生成系统 中文科技论文摘要 文本生成任务 BERT-UniLM
原文传递
预印本学术交流生态中的参与主体及作用 被引量:9
7
作者 李雪思 张智雄 《中国科技期刊研究》 CSSCI 北大核心 2022年第10期1321-1331,共11页
【目的】探究预印本学术生态的参与主体,以及参与主体发挥的具体作用,以期为我国预印本学术生态的建设提供借鉴。【方法】通过生态角色分析的方法,调研并梳理arXiv、bioRxiv和SSRN 3个典型预印本平台的学术交流生态。根据梳理结果对预... 【目的】探究预印本学术生态的参与主体,以及参与主体发挥的具体作用,以期为我国预印本学术生态的建设提供借鉴。【方法】通过生态角色分析的方法,调研并梳理arXiv、bioRxiv和SSRN 3个典型预印本平台的学术交流生态。根据梳理结果对预印本学术交流生态中具体的参与主体以及主体承担的生态角色进行分析,归纳预印本学术交流生态模型,结合该模型对每类主体所发挥的作用作出具体阐述。【结果】预印本学术交流生态中有5类常见的参与主体和8种生态角色。不同参与主体承担不同的生态角色,并在预印本学术交流生态中发挥不同的作用。【结论】预印本学术交流是一个由科学界主导的学术交流方式,各类参与主体对预印本学术交流生态建设发挥着重要作用。我国预印本学术交流的发展尚未成熟,各类参与主体需要通过承担各自的角色积极参与预印本学术交流,以推动我国学术信息交流新生态的建设和发展。 展开更多
关键词 学术交流 预印本学术生态 预印本平台 预印本生态建设
原文传递
基于BERT模型实现概念定义句自动识别 被引量:2
8
作者 李雪思 张智雄 刘欢 《情报科学》 CSSCI 北大核心 2022年第8期160-166,192,共8页
【目的/意义】概念作为科学知识的表达,在科研中起着重要的作用。概念定义句的识别是科技文献挖掘分析的一个重要课题。【方法/过程】针对已有概念定义句识别研究中存在大量特征工程的问题,本文尝试在概念定义句识别研究中引入BERT模型... 【目的/意义】概念作为科学知识的表达,在科研中起着重要的作用。概念定义句的识别是科技文献挖掘分析的一个重要课题。【方法/过程】针对已有概念定义句识别研究中存在大量特征工程的问题,本文尝试在概念定义句识别研究中引入BERT模型,并通过与以往研究的对比验证了BERT的有效性。随后利用科技文献全文数据,基于BERT模型采用多阶段微调的方式构建了面向实际应用的概念定义句自动识别模型。【结果/结论】BERT的注意力机制能捕获到概念定义句各个组成项之间的长距离和短距离依赖,从而更加有效地识别概念定义句。此外,通过多阶段微调的方式能够提升模型在实际应用中的效果。【创新/局限】提出基于BERT模型的概念定义句识别方法并验证其有效性,并进一步构建了具有实用化水平的概念定义句自动识别模型。 展开更多
关键词 定义句识别 BERT 深度学习 预训练模型 自动识别
原文传递
一种基于序列标注的概念短语抽取方法 被引量:1
9
作者 李雪思 张智雄 刘欢 《图书情报工作》 CSSCI 北大核心 2022年第11期121-128,共8页
[目的/意义]科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程]通过分析概念定义句的结构、句式等模式特征,提出以... [目的/意义]科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程]通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论]结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。 展开更多
关键词 序列标注 概念定义句 概念短语 自动抽取
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部