期刊文献+
共找到370篇文章
< 1 2 19 >
每页显示 20 50 100
TG-SMR:AText Summarization Algorithm Based on Topic and Graph Models 被引量:1
1
作者 Mohamed Ali Rakrouki Nawaf Alharbe +1 位作者 Mashael Khayyat Abeer Aljohani 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期395-408,共14页
Recently,automation is considered vital in most fields since computing methods have a significant role in facilitating work such as automatic text summarization.However,most of the computing methods that are used in r... Recently,automation is considered vital in most fields since computing methods have a significant role in facilitating work such as automatic text summarization.However,most of the computing methods that are used in real systems are based on graph models,which are characterized by their simplicity and stability.Thus,this paper proposes an improved extractive text summarization algorithm based on both topic and graph models.The methodology of this work consists of two stages.First,the well-known TextRank algorithm is analyzed and its shortcomings are investigated.Then,an improved method is proposed with a new computational model of sentence weights.The experimental results were carried out on standard DUC2004 and DUC2006 datasets and compared to four text summarization methods.Finally,through experiments on the DUC2004 and DUC2006 datasets,our proposed improved graph model algorithm TG-SMR(Topic Graph-Summarizer)is compared to other text summarization systems.The experimental results prove that the proposed TG-SMR algorithm achieves higher ROUGE scores.It is foreseen that the TG-SMR algorithm will open a new horizon that concerns the performance of ROUGE evaluation indicators. 展开更多
关键词 Natural language processing text summarization graph model topic model
下载PDF
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
2
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
下载PDF
基于BERTopic模型的网络暴力事件衍生舆情探测
3
作者 胡凯茜 李欣 王龙腾 《情报杂志》 北大核心 2024年第7期146-153,共8页
[研究目的]在海量用户生成内容中及时探测和剖析网络暴力事件的衍生舆情能够为舆情事件链的演化分析、同类舆情的研判介入、衍生事件的监测预警提供理论支持。[研究方法]使用BERTopic模型对短文本内容主题建模并采用聚类的方式展示主题... [研究目的]在海量用户生成内容中及时探测和剖析网络暴力事件的衍生舆情能够为舆情事件链的演化分析、同类舆情的研判介入、衍生事件的监测预警提供理论支持。[研究方法]使用BERTopic模型对短文本内容主题建模并采用聚类的方式展示主题的潜在层次结构。根据词向量余弦相似度设计主题衍生度的计量算法,同时融合词共现网络在文档-词语层面信息捕捉的优势以及桑基图直观演示舆情演化过程的特点,衡量主题间的影响力与衍生关系。[研究结论]在开源数据集下多组主题模型的对照实验中,BERTopic模型在短文本建模以及下游任务的平均得分提高2.13%。在网络暴力热点事件的应用实例中,多维细粒度分析与交互式可视化方法可达到直观展示暴力事件的主题聚类、词义关联与演化态势的效果,实现网络暴力事件衍生舆情的探测与分析。 展开更多
关键词 网络舆情 网络暴力 衍生舆情 舆情监测 短文本 主题建模 BERtopic模型
下载PDF
Inheritance and Development of Three Pre-Qin Classics of Confucianism——An Application of Topic Modeling in Classical Chinese Text Analysis
4
作者 HU Jia-jia 《Journal of Literature and Art Studies》 2019年第3期317-328,共12页
The Analects, Mengzi and Xunzi are the top-three classical works of pre-Qin Confucianism, which epitomized thoughts and ideas of Confucius, Mencius and XunKuang1. There have been lots of spirited and in-depth discussi... The Analects, Mengzi and Xunzi are the top-three classical works of pre-Qin Confucianism, which epitomized thoughts and ideas of Confucius, Mencius and XunKuang1. There have been lots of spirited and in-depth discussions on their ideological inheritance and development from all kinds of academics. This paper tries to cast a new light on these discussions through “machine reading2”. 展开更多
关键词 PRE-QIN CONFUCIANISM the Analects Mengzi XUNZI text analysis machine READING topic modeling Mallet Gephi
下载PDF
Topic Model Based Text Similarity Measure for Chinese Judgment Document
5
作者 Yue Wang Jidong Ge +5 位作者 Yemao Zhou Yi Feng Chuanyi Li ZhongjinLi Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2017年第2期9-11,共3页
In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning... In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning. In this situation, some ideas about Chinese courts can reach automation or get better result through the research of machine learning, such as similar documents recommendation, workload evaluation based on similarity of judgement documents and prediction of possible relevant statutes. In trying to achieve all above mentioned, and also in face of the characteristics of Chinese judgement document, we propose a topic model based approach to measure the text similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet Allocation (LDA), Labeled Latent Dirichlet Allocation (LLDA) and other treatments. Combining with the characteristics of Chinese judgment document,we focus on the specific steps of approach, the preprocessing of corpus, the parameters choices of training and the evaluation of similarity measure result. Besides, implementing the approach for prediction of possible statutes and regarding the prediction accuracy as the evaluation metric, we designed experiments to demonstrate the reasonability of decisions in the process of design and the high performance of our approach on text similarity measure. The experiments also show the restriction of our approach which need to be focused in future work. 展开更多
关键词 CHINESE JUDGMENT documents Data science Machine learning Natural language processing text similarity TF-IDF topic model LATENT DIRICHLET ALLOCATION Labeled LATENT DIRICHLET ALLOCATION
下载PDF
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:16
6
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
下载PDF
基于iTopicModel的关联文本分类算法
7
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
下载PDF
Assessing citizen science opportunities in forest monitoring using probabilistic topic modelling 被引量:1
8
作者 Stefan Daume Matthias Albert Klaus von Gadow 《Forestry Studies in China》 CAS 2014年第2期93-104,共12页
Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified moni... Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified monitoring can help to detect ecological threats and changes earlier, but monitoring resources are limited. Participatory forest monitoring with the help of "citizen scientists" can provide additional resources for forest monitoring and at the same time help to communicate with stakeholders and the general public. Examples for citizen science projects in the forestry domain can be found but a solid, applicable larger framework to utilise public participation in the area of forest monitoring seems to be lacking. We propose that a better understanding of shared and related topics in citizen science and forest monitoring might be a first step towards such a framework. Methods: We conduct a systematic meta-analysis of 1015 publication abstracts addressing "forest monitoring" and "citizen science" in order to explore the combined topical landscape of these subjects. We employ 'topic modelling an unsupervised probabilistic machine learning method, to identify latent shared topics in the analysed publications. Results: We find that large shared topics exist, but that these are primarily topics that would be expected in scientific publications in general. Common domain-specific topics are under-represented and indicate a topical separation of the two document sets on "forest monitoring" and "citizen science" and thus the represented domains. While topic modelling as a method proves to be a scalable and useful analytical tool, we propose that our approach could deliver even more useful data if a larger document set and full-text publications would be available for analysis. Conclusions: We propose that these results, together with the observation of non-shared but related topics, point at under-utilised opportunities for public participation in forest monitoring. Citizen science could be applied as a versatile tool in forest ecosystems monitoring, complementing traditional forest monitoring programmes, assisting early threat recognition and helping to connect forest management with the general public. We conclude that our presented approach should be pursued further as it may aid the understanding and setup of citizen science efforts in the forest monitoring domain. 展开更多
关键词 Forest monitoring Citizen science Participatory forest monitoring Probabilistic topic modelling text analysis
下载PDF
NON-PARAMETRIC TOPIC MODEL FOR DISCOVERING GEOGRAPHICAL TOPIC VARIATIONS
9
作者 Qi Xiang Huang Yu +3 位作者 Song Jun Huang Tinglei Wang Hongqi Fu Kun 《Journal of Electronics(China)》 2014年第6期576-586,共11页
This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumpt... This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumptions or discretization of locations, here topics are associated with a distance dependent Chinese Restaurant Process(ddC RP), and for each document, the observed words are influenced by the document's GPS-tag. Our model allows both unbound number and flexible distribution of the geographical variations of the topics' content. We develop a Gibbs sampler for the proposal, and compare it with existing models on a real data set basis. 展开更多
关键词 text mining topic model Geographical topics Bayesian non-parameter
下载PDF
面向短文本的增强上下文神经主题模型
10
作者 刘刚 王同礼 +2 位作者 唐宏伟 战凯 杨雯莉 《计算机工程与应用》 CSCD 北大核心 2024年第1期154-164,共11页
目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主... 目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主题模型(enhanced context neural topic model,ECNTM)。ECNTM基于主题控制器对主题进行稀疏性约束,过滤掉不相关的主题,同时模型的输入变成BOW向量和SBERT句子嵌入的拼接,在高斯解码器中,通过在嵌入空间中将单词上的主题分布处理为多元高斯分布或高斯混合分布,显式地丰富了短文本有限的上下文信息,解决了短文本词共现特征稀疏问题。在WS、Reuters、KOS、20 NewsGroups四个公开数据集上的实验结果表明,该模型在困惑度、主题一致性以及文本分类准确率上相较基准模型均有明显提升,证明了引入主题稀疏约束特性以及丰富的上下文信息到短文本主题建模的有效性。 展开更多
关键词 神经主题模型 短文本 稀疏约束 变分自编码器 主题建模
下载PDF
基于主题模型的通用文本匹配方法
11
作者 黄振业 莫淦清 余可曼 《计算机应用与软件》 北大核心 2024年第5期310-318,349,共10页
检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹... 检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹配问题。基于这个问题,提出一种新的基于文本聚类主题模型的轻量方法,不需要利用额外的背景知识来匹配通用文本相似性。在两个经典测试样本数据集上的实验结果表明,该方法的文本相似性检测效率非常高。 展开更多
关键词 自然语言处理 文本匹配 主题模型 吉布斯采样
下载PDF
基于三维主题特征测度的新兴主题识别研究
12
作者 郑德俊 程为 《情报学报》 CSCD 北大核心 2024年第2期167-180,共14页
识别领域新兴主题有利于及时跟踪领域发展的最新动态,为科研工作者的选题以及科研管理者的决策提供情报支撑。本文提出一种基于三维主题特征测度的新兴主题识别方法,基于BERTopic对领域语义知识进行主题建模,以文献为基本单位进行主题表... 识别领域新兴主题有利于及时跟踪领域发展的最新动态,为科研工作者的选题以及科研管理者的决策提供情报支撑。本文提出一种基于三维主题特征测度的新兴主题识别方法,基于BERTopic对领域语义知识进行主题建模,以文献为基本单位进行主题表示,构建基于时间、引用和关联的三维主题特征指标框架,用于新兴主题识别;并以文本分类领域为例,验证本文方法的可行性与有效性。研究发现,以文献为基本单位表示主题能辅助主题深入挖掘,三维主题特征指标框架具有较好的适应性与扩展性,本文提出的新兴主题识别方法存在泛化应用的参考价值。在理论层面,能为新兴主题识别的相关研究提供一种可参考的方法和思路;在实践层面,可作为一种参考工具应用于科技情报分析、领域发展态势分析等场景。 展开更多
关键词 新兴主题识别 主题建模 主题特征测度 文本分类
下载PDF
PPP政策内容分析及其市场影响
13
作者 孙慧 梁英子 +1 位作者 袁婷婷 王轶涵 《系统工程学报》 CSCD 北大核心 2024年第2期175-188,共14页
PPP政策是政府治理PPP模式的主要工具,也是社会资本方制定PPP投资策略的指导文件.从政策文本内容及其市场影响两个角度出发,分析了2014年∼2021年我国中央层面的PPP政策文本.首先,构建了LDA主题模型对PPP政策进行主题演化分析,从主题发... PPP政策是政府治理PPP模式的主要工具,也是社会资本方制定PPP投资策略的指导文件.从政策文本内容及其市场影响两个角度出发,分析了2014年∼2021年我国中央层面的PPP政策文本.首先,构建了LDA主题模型对PPP政策进行主题演化分析,从主题发现、主题强度和演化趋势三个方面分析PPP政策的文本内容;其次,基于LDA主题模型结果及财政部PPP项目库数据,构建了多元线性回归模型进一步研究了不同政策主题对PPP市场的影响机制.从政策内容来看,PPP政策在文本设计方面存在主题分布不均衡的问题,并且呈现出一定的波动性和矛盾性;从政策的市场影响来看,激励性政策并未达到政策预期,且PPP市场对规范性政策更加敏感,社会资本方在进行投资选择时更倾向于监管规范、信息公开的PPP市场. 展开更多
关键词 PPP政策 文本分析 市场影响 主题模型 量化分析
下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究
14
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 Word2Vec 五年规划 文化政策 文本分析
下载PDF
基于话题决策模型的英文文本切题度计算方法研究
15
作者 胡婷 《自动化技术与应用》 2024年第4期60-62,98,共4页
为了对英文作文考试中英文文本的切题度加以判断,提出一套基于话题决策模型的英文文本切题度计算方法。介绍该算法的数据处理流程与话题决策模型的数据处理方法,最后通过WIKI_727K数据集对话题决策模型进行训练与测试,经实验研究发现,... 为了对英文作文考试中英文文本的切题度加以判断,提出一套基于话题决策模型的英文文本切题度计算方法。介绍该算法的数据处理流程与话题决策模型的数据处理方法,最后通过WIKI_727K数据集对话题决策模型进行训练与测试,经实验研究发现,所提出的话题决策模型在精确率、召回率等方面具有一定的应用优势,并在ASAP数据集上表现出较为理想的切题度判断效果。 展开更多
关键词 英文文本 切题度 话题决策模型
下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
16
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
下载PDF
低开销的匿名通信群组威胁人物挖掘方法
17
作者 霍艺璇 赵佳鹏 +4 位作者 时金桥 齐敏 孙岩炜 王学宾 杨燕燕 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期37-46,共10页
深暗网因其强隐匿性、接入简便性和交易便捷性,滋生了大量非法活动,如推广网络博彩、贩卖毒品等.随着网络社交方式的更新,加密即时通信工具Telegram中的群组成为不法分子推广黑灰产、买卖资源和工具的聚集地,大量不法分子利用Telegram... 深暗网因其强隐匿性、接入简便性和交易便捷性,滋生了大量非法活动,如推广网络博彩、贩卖毒品等.随着网络社交方式的更新,加密即时通信工具Telegram中的群组成为不法分子推广黑灰产、买卖资源和工具的聚集地,大量不法分子利用Telegram的匿名功能在对内容无限制、消息短、文字难理解的群组中推动业务而逃避监管,严重威胁国家社会稳定和网络安全.如果能够基于对群组中大量低信息量内容的分析,挖掘大批量潜在威胁人物,将为监管、治理和打击部门提供更多有价值的线索.本文提出一种低开销的匿名通信群组威胁人物挖掘方法,通过调整文本中网络公害流行术语的重要程度优化内容分析质量,融合大语言模型的强大知识储备和生成能力,对群组内容进行无监督的高质量动态时序主题提取与可视化统计分析.实验结果表明,与传统分类做法相比,本文方法大大降低了人工标注成本,提升了威胁人物挖掘的数量和质量,加深了对网络公害生态的理解,具有现实意义. 展开更多
关键词 网络公害 文本挖掘 Telegram群组 主题建模
下载PDF
二十一世纪以来美国科技政策主题分析及发展态势研判
18
作者 曹玲静 张志强 《情报学报》 CSCD 北大核心 2024年第5期616-632,共17页
21世纪以来,新一轮科技革命和产业变革加速演进,国际科技竞争尤其是科技强国大国间的科技竞争日益加剧。美国是国际科技竞争的主要推手,分析21世纪以来美国科技政策主题演变特点,有助于观察美国科技政策发展规律和战略重点。本研究以美... 21世纪以来,新一轮科技革命和产业变革加速演进,国际科技竞争尤其是科技强国大国间的科技竞争日益加剧。美国是国际科技竞争的主要推手,分析21世纪以来美国科技政策主题演变特点,有助于观察美国科技政策发展规律和战略重点。本研究以美国21世纪以来宏观科技政策作为研究对象,按照总统任期划分时间阶段,采用嵌入式主题模型(embedded topic model,ETM)对科技政策文本进行主题发现和分析,结合主题相似度,以可视化方式展现美国科技政策的主题演变过程,观察和分析美国科技政策演变特点及其聚焦的科技战略重点及其启示,以前瞻其未来科技发展趋向。分析结果表明,美国长期重视STEM(science,technology,engineering,mathematics)科技人才教育培养,稳定支持医疗卫生和生物科技领域,聚焦发展信息科技等关键前沿领域,注重能源和生态环境科技领域创新,前瞻布局国家战略性科技产业领域。 展开更多
关键词 科技政策学 主题建模 政策量化 文本分析 政策信息学
下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究
19
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
下载PDF
基于结构主题模型的医联体政策文本区域差异
20
作者 杨馨怡 王素芬 +1 位作者 余洋 于昊生 《东华大学学报(自然科学版)》 CAS 北大核心 2024年第3期178-184,共7页
为研究我国不同地区的医联体政策差异与特征,收集2010年10月至2022年12月地方政府发布的599份医联体相关政策,采用描述性统计和结构主题模型,从政策发布数量、政策类型和政策主题3个维度对比我国4大经济地区(西部、中部、东部、东北地区... 为研究我国不同地区的医联体政策差异与特征,收集2010年10月至2022年12月地方政府发布的599份医联体相关政策,采用描述性统计和结构主题模型,从政策发布数量、政策类型和政策主题3个维度对比我国4大经济地区(西部、中部、东部、东北地区)的医联体政策。研究发现:我国地方医联体政策体系结构不够均衡,呈重实施细则、轻标准规范的特点;分级诊疗服务体系建设和医联体管理模式是各地区医联体政策的热门主题,而配套措施和疾病防治与诊疗的相关主题尚未得到广泛关注;各地区的医联体建设整体呈多元化探索的特点。地方政府需根据地区差异有针对性地发布政策,以补足医联体政策短板,促进地区医联体政策体系完善。 展开更多
关键词 医疗联合体 结构主题模型 地方政策 区域差异 政策文本
下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部