-
题名基于扩展模式树匹配的XConquer算法
- 1
-
-
作者
张子鋆
何震瀛
汪卫
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第8期40-42,共3页
-
基金
国家自然科学基金资助项目(60703093)
上海市科委基金资助重点项目(07DZ12061)
-
文摘
针对XQuery全文扩展中合取语义ftcontains表达式的计算问题,提出基于扩展模式树匹配的XConquer算法。树形结构索引DataSkeleton为查询节点静态过滤初始数据节点流,最小最低公共祖先动态阻止无效节点入栈,避免无用栈操作。实验结果表明,XConquer算法的查询性能优于DeweyPathStack算法。
-
关键词
XQuery全文扩展标准
扩展模式树
模式匹配
-
Keywords
XQuery Full-Text(XQFT) extended standard
extended pattern tree
pattern matching
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名扩展搜索日志上下文的新词识别
- 2
-
-
作者
李雪伟
吕学强
刘克会
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京理工大学管理与经济学院
北京城市系统工程研究中心
-
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第11期59-65,共7页
-
基金
国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)
北京市属高等学校创新团队建设与教师职业发展计划项目(项目编号:IDHT20130519)的研究成果之一
-
文摘
【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词。其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验,P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。
-
关键词
搜索日志
全文扩展
新词
边界
改进左右熵
-
Keywords
Search log Full extension New words Boundary Improved left-right entropy
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-