当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲...当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions.展开更多
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以...[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。展开更多
文摘当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions.
文摘[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。