-
题名用户评论中的标签抽取以及排序
被引量:11
- 1
-
-
作者
李丕绩
马军
张冬梅
韩晓晖
-
机构
山东大学计算机科学与技术学院
山东建筑大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第5期14-19,45,共7页
-
基金
国家自然科学基金资助项目(60970047
61103151
+1 种基金
61173068)
教育部博士点基金资助项目(20110131110028)
-
文摘
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。
-
关键词
意见挖掘
主题模型
语义独立
标签抽取
排序
-
Keywords
opinion mining
topic model
semantic independent
tag extraction
ranking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名ChatGPT大模型技术发展与应用
被引量:17
- 2
-
-
作者
夏润泽
李丕绩
-
机构
南京航空航天大学计算机科学与技术学院
模式分析与机器智能工业和信息化部重点实验室(南京航空航天大学)
-
出处
《数据采集与处理》
CSCD
北大核心
2023年第5期1017-1034,共18页
-
文摘
通过回顾深度学习、语言模型、语义表示和预训练技术的发展历程,全面解析了ChatGPT的技术渊源和演进路线。在语言模型方面,从早期的N-gram统计方法逐步演进到神经网络语言模型,通过对机器翻译技术的研究和影响也催生了Transformer的出现,继而又推动了神经网络语言模型的发展。在语义表示和预训练技术发展方面,从早期的TF-IDF、pLSA和LDA等统计方法发展到Word2Vec等基于神经网络的词向量表示,继而发展到ELMo、BERT和GPT-2等预训练语言模型,预训练框架日益成熟,为模型提供了丰富的语义知识。GPT-3的出现揭示了大语言模型的潜力,但依然存在幻觉问题,如生成不可控、知识谬误及逻辑推理能力差等。为了缓解这些问题,ChatGPT通过指令学习、监督微调、基于人类反馈的强化学习等方式在GPT-3.5上进一步与人类进行对齐学习,效果不断提升。ChatGPT等大模型的出现,标志着该领域技术进入新的发展阶段,为人机交互以及通用人工智能的发展开辟了新的可能。
-
关键词
自然语言处理
语言模型
预训练技术
ChatGPT
-
Keywords
natural language processing
language model
pre-training technique
ChatGPT
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-