摘要
主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上。
Subject extraction is one of the important problems in natural language processing area. Traditional methods mainly depend on "thesaunts + matching" mode. But problems arise when processing Internet news using this method, one is the limited volume of thesaurus compared with the uninterrupted emergence of new concepts in Internet nearly all the time. According to Web Chinese news page structure, we propose a new practical algorithm for extracting subject from Web pages without thesaurus. We do subject extraction experiment using 1,000 pieces of news corpus, compared with handcraft, coincidence ratio attain 93 %.
出处
《情报学报》
CSSCI
北大核心
2008年第1期12-17,共6页
Journal of the China Society for Scientific and Technical Information
基金
本文受国家863项目(No.2002AA119905)及国家自然科学基金项目(No.60082003)资助.
关键词
主题提取
WEB页面
超链接
subject extraction, Web pages, hyperlinks