摘要
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。
Keyword extraction is a key research issue in natural language processing,knowledge graph,system dialogue,etc.In this paper,we analyze the keyword extraction process from the existing keyword extraction algorithms,and sort out in detail the computational features and application cases of existing keyword extraction methods.We analyze the supervised extraction,the unsupervised extraction,and the semisupervised extraction methods in terms of features extraction,representative papers,model algorithms,and method descriptions,summarzing the research progress,algorithm mechanism,advantages,limitations,and application scenarios as well.The keyword extraction evaluation strategies are given,and the application prospects of semisupervised methods of keyword extraction are prospected,as well as the research directions and possible challenges in feature fusion,domain knowledge,and graph construction.
作者
崔洪振
张龙豪
彭云峰
邬雯
CUI Hongzhen;ZHANG Longhao;PENG Yunfeng;WU Wen(School of Computer&Communication Engineering,University of Science and Technology of Beijing,Beijing 100083,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第2期1-14,24,共15页
Journal of Chinese Information Processing
基金
国家自然科学基金(61871029)。
关键词
关键词提取
特征
有监督提取方法
keyword extraction
features
supervised extraction methods