Environmental,social,and governance(ESG)factors are critical in achieving sustainability in business management and are used as values aiming to enhance corporate value.Recently,non-financial indicators have been cons...Environmental,social,and governance(ESG)factors are critical in achieving sustainability in business management and are used as values aiming to enhance corporate value.Recently,non-financial indicators have been considered as important for the actual valuation of corporations,thus analyzing natural language data related to ESG is essential.Several previous studies limited their focus to specific countries or have not used big data.Past methodologies are insufficient for obtaining potential insights into the best practices to leverage ESG.To address this problem,in this study,the authors used data from two platforms:LexisNexis,a platform that provides media monitoring,and Web of Science,a platform that provides scientific papers.These big data were analyzed by topic modeling.Topic modeling can derive hidden semantic structures within the text.Through this process,it is possible to collect information on public and academic sentiment.The authors explored data from a text-mining perspective using bidirectional encoder representations from transformers topic(BERTopic)—a state-of-the-art topic-modeling technique.In addition,changes in subject patterns over time were considered using dynamic topic modeling.As a result,concepts proposed in an international organization such as the United Nations(UN)have been discussed in academia,and the media have formed a variety of agendas.展开更多
【目的/意义】挖掘AI环境下图书馆主题文本分布特征,以期为图书馆智能化转型和服务升级提供实践参考和理论支持。【方法/过程】本研究基于Web of Science数据库核心集合,应用BERTopic模型对检索到的相关文献进行主题识别与知识结构提取...【目的/意义】挖掘AI环境下图书馆主题文本分布特征,以期为图书馆智能化转型和服务升级提供实践参考和理论支持。【方法/过程】本研究基于Web of Science数据库核心集合,应用BERTopic模型对检索到的相关文献进行主题识别与知识结构提取,以洞察AI在图书馆领域的研究现状和未来发展动向。【结果/结论】研究结果显示,AI环境下图书馆的研究主题主要可分为五类:图书馆智能化、馆藏资源开发、学术研究支持、信息资源建设、聊天机器人与智能代理。最后,结合主题内容分析,深入讨论了AI环境下图书馆的机遇与挑战。【创新/局限】研究工作采用先进的自然语言技术——BERTopic主题模型对AI环境下图书馆领域主题文本进行知识挖掘,未来的研究工作将纳入更广泛的数据来源,进行更加全面细致地研究。展开更多
【目的/意义】基于文献研究,从研究主题和发展演化两个角度对健康信息学的发展现状进行梳理,为相关学者更好地从事健康信息学研究提供参考。【方法/过程】首先从Web of science中获取健康信息学文献,运用JCR和ESI学科分类方法将文献分...【目的/意义】基于文献研究,从研究主题和发展演化两个角度对健康信息学的发展现状进行梳理,为相关学者更好地从事健康信息学研究提供参考。【方法/过程】首先从Web of science中获取健康信息学文献,运用JCR和ESI学科分类方法将文献分为医学、计算机、图书情报三个数据集;其次利用基于Bertopic模型主题挖掘法分析健康信息学在三个数据集中的研究主题和发展演化趋势。【结果/结论】从研究主题看,健康信息学主要包含六个研究主题:人工智能在健康领域的应用、健康知识服务、用户健康信息行为、信息技术在临床中的应用、健康信息存储与管理、人机交互系统应用;从发展趋势看,在保留各个学科自身特点的同时,实现多学科的交叉融合是健康信息学发展的必然趋势。【创新/局限】本文对健康信息学在不同学科中的研究异同进行了对比分析,有助于明晰健康信息学的起源和发展演进情况,同时为健康信息学未来的研究创新与空间拓展提供依据,但本文只收集了健康信息学在三个核心领域的研究数据,后期可以进一步扩大数据收集范围,从更广泛的学科领域对其进行更深入的分析。展开更多
[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和...[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。展开更多
目的/意义识别领域研究前沿,辅助科学研究者有效遴选和追踪重点研究主题,助力科研管理决策者动态调整政策导向。方法/过程以Web of Science 2012—2022年37927条肿瘤学领域高影响力期刊文献题录和高被引文献题录为数据样本,运用BERTop...目的/意义识别领域研究前沿,辅助科学研究者有效遴选和追踪重点研究主题,助力科研管理决策者动态调整政策导向。方法/过程以Web of Science 2012—2022年37927条肿瘤学领域高影响力期刊文献题录和高被引文献题录为数据样本,运用BERTop提取主题,构建多维指标研究前沿识别模型,从多维度识别领域内不同类型的研究前沿。结果/结论所构建模型识别出肿瘤学领域热点研究前沿主题9个、新兴研究前沿主题14个、潜在研究前沿主题13个和衰退研究主题1个,具有有效性。展开更多
基金supported by a National Research Foundation of Korea(NRF)(http://nrf.re.kr/eng/index)grant funded by the Korean government(RS-2023-00208278).
文摘Environmental,social,and governance(ESG)factors are critical in achieving sustainability in business management and are used as values aiming to enhance corporate value.Recently,non-financial indicators have been considered as important for the actual valuation of corporations,thus analyzing natural language data related to ESG is essential.Several previous studies limited their focus to specific countries or have not used big data.Past methodologies are insufficient for obtaining potential insights into the best practices to leverage ESG.To address this problem,in this study,the authors used data from two platforms:LexisNexis,a platform that provides media monitoring,and Web of Science,a platform that provides scientific papers.These big data were analyzed by topic modeling.Topic modeling can derive hidden semantic structures within the text.Through this process,it is possible to collect information on public and academic sentiment.The authors explored data from a text-mining perspective using bidirectional encoder representations from transformers topic(BERTopic)—a state-of-the-art topic-modeling technique.In addition,changes in subject patterns over time were considered using dynamic topic modeling.As a result,concepts proposed in an international organization such as the United Nations(UN)have been discussed in academia,and the media have formed a variety of agendas.
文摘【目的/意义】挖掘AI环境下图书馆主题文本分布特征,以期为图书馆智能化转型和服务升级提供实践参考和理论支持。【方法/过程】本研究基于Web of Science数据库核心集合,应用BERTopic模型对检索到的相关文献进行主题识别与知识结构提取,以洞察AI在图书馆领域的研究现状和未来发展动向。【结果/结论】研究结果显示,AI环境下图书馆的研究主题主要可分为五类:图书馆智能化、馆藏资源开发、学术研究支持、信息资源建设、聊天机器人与智能代理。最后,结合主题内容分析,深入讨论了AI环境下图书馆的机遇与挑战。【创新/局限】研究工作采用先进的自然语言技术——BERTopic主题模型对AI环境下图书馆领域主题文本进行知识挖掘,未来的研究工作将纳入更广泛的数据来源,进行更加全面细致地研究。
文摘【目的/意义】基于文献研究,从研究主题和发展演化两个角度对健康信息学的发展现状进行梳理,为相关学者更好地从事健康信息学研究提供参考。【方法/过程】首先从Web of science中获取健康信息学文献,运用JCR和ESI学科分类方法将文献分为医学、计算机、图书情报三个数据集;其次利用基于Bertopic模型主题挖掘法分析健康信息学在三个数据集中的研究主题和发展演化趋势。【结果/结论】从研究主题看,健康信息学主要包含六个研究主题:人工智能在健康领域的应用、健康知识服务、用户健康信息行为、信息技术在临床中的应用、健康信息存储与管理、人机交互系统应用;从发展趋势看,在保留各个学科自身特点的同时,实现多学科的交叉融合是健康信息学发展的必然趋势。【创新/局限】本文对健康信息学在不同学科中的研究异同进行了对比分析,有助于明晰健康信息学的起源和发展演进情况,同时为健康信息学未来的研究创新与空间拓展提供依据,但本文只收集了健康信息学在三个核心领域的研究数据,后期可以进一步扩大数据收集范围,从更广泛的学科领域对其进行更深入的分析。
文摘[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。
文摘目的/意义识别领域研究前沿,辅助科学研究者有效遴选和追踪重点研究主题,助力科研管理决策者动态调整政策导向。方法/过程以Web of Science 2012—2022年37927条肿瘤学领域高影响力期刊文献题录和高被引文献题录为数据样本,运用BERTop提取主题,构建多维指标研究前沿识别模型,从多维度识别领域内不同类型的研究前沿。结果/结论所构建模型识别出肿瘤学领域热点研究前沿主题9个、新兴研究前沿主题14个、潜在研究前沿主题13个和衰退研究主题1个,具有有效性。