摘要
文章依据所抓取的大量藏文网页URL,对相关的藏文信息网页进行除噪去重处理,得到较为完善的藏文信息库。对用户要查询的藏文信息进行预处理和藏文语义标注,通过基于本体的词汇相关性算法,扩展藏文的查询词汇,建立一对多的藏语词汇联系,从而实现藏文查询中的相关性检索,得到更加符合用户需求的语义关联网页信息。
Tibetan information page was manipulated by de-noising and de-duplicating process to obtain an im-proved Tibetan information database based on the a large number of Tibetan web page URL grasped. Semantictagging and preprocessing was conducted for the querying Tibetan information user wanted and association ofone to many Tibetan vocabularies was established based on the running the vocabulary correlation algorithm, ex-tending the querying Tibetan words so as to realize the relevance of Tibetan query retrieval and to obtain relatedsemantic web information in line with needs of user.
基金
2014年度西藏大学国家级大学生创新创业训练计划项目"藏文Web语义检索的研究与实现"(项目号:201410694018)
2013年度国家自然科学基金重点项目子课题"藏文词法分析系统与舆情监测知识库构建"(项目号:61331013)
2013年度青年科研培育基金项目"西藏旅游目的地营销系统运营模式研究"(项目号:ZDPJSK2013080)阶段性成果
关键词
藏文网页
信息库
藏文语义相关
藏文语义扩展
Tibetan web page
information library
Tibetan semantic relevancy
Tibetan semantic extension