摘要
文本特征词提取是一种提炼文本重要信息的实用技术,同时也为文本聚类、自动分类、信息抽取等相关课题提供了技术支持。在规范文本上,利用文本篇章结构的特征,以此为基础设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,并对比分析了各种位置因子对系统的贡献度。
Extracting feature word of text is a practicable technology of extracting important information from text.At the same time,the technology also is provided support for related subjects of text clustering,automatic classification and extraction of information.Based on regular text and features of structure of text,the authors designed a weighting function of extraction.Combining word frequencies,length of word and position factor,the authors analyzed contribution of all kinds of position factors to system.
出处
《科技创新与生产力》
2012年第3期61-63,共3页
Sci-tech Innovation and Productivity
基金
太原科技大学大学生创新计划支持项目
关键词
规范文本
特征词提取
加权函数
位置因子
regular text
extraction of feature word
weighting function
position factor