期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于PAT-tree的中文关键词自动检索模式的研究 被引量:4
1
作者 柳佳刚 陈山 《计算技术与自动化》 2009年第2期119-123,共5页
利用可变长语言模型对中文文档的关键词进行准确识别是中文信息处理中的一个重要问题。由于不存在n元语言模型的截断效应,对关键词检索的长度没有限制,因此增加了关键词识别的难度。利用PAT-tree技术设计了一个改进的可变长统计语言模... 利用可变长语言模型对中文文档的关键词进行准确识别是中文信息处理中的一个重要问题。由于不存在n元语言模型的截断效应,对关键词检索的长度没有限制,因此增加了关键词识别的难度。利用PAT-tree技术设计了一个改进的可变长统计语言模型对中文文档中的关键词进行识别。在该模型基础上进行相关性检测实验。实验结果表明基于PAT-tree的改进语言模型能更好的识别关键词。 展开更多
关键词 PAT—tree 信息检索 语言模型 交互信息
下载PDF
领域本体自动构建研究 被引量:12
2
作者 王磊 周宽久 仇鹏 《情报学报》 CSSCI 北大核心 2010年第1期45-52,共8页
本体作为语义基础被广泛应用于信息检索、人工智能、语义网络和知识管理等领域。然而本体的构建和维护工作费时费力,影响了本体的广泛应用。因此,研究者们尝试利用机器学习、数据挖掘等技术自动构建本体,提出诸多本体自动构建的理论... 本体作为语义基础被广泛应用于信息检索、人工智能、语义网络和知识管理等领域。然而本体的构建和维护工作费时费力,影响了本体的广泛应用。因此,研究者们尝试利用机器学习、数据挖掘等技术自动构建本体,提出诸多本体自动构建的理论和方法。本文在总结现存本体自动构建方法的同时深入研究了基于FCA(Formal Concept Analysis)的本体自动构建方法,主要包括:基于PAT-Tree的统计分词,文档特征选择,基于文档一关键词的形式背景生成,最后用FCA构建本体。实验表明,基于FCA的本体构建方法明显提高了本体自动化的程度,卡句建的本体具有较好的可信度。 展开更多
关键词 本体 pat-tree FCA 本体自动构建
下载PDF
用PAT Tree构建Internet搜索引擎分布式数据库 被引量:2
3
作者 杜可亮 李星 杨文峰 《计算机应用》 CSCD 北大核心 2002年第9期4-6,共3页
文中根据Internet搜索引擎的特点 ,提出了用PATTree作为搜索引擎索引数据库的思想 ,在理论上对其可行性进行了分析 ,用它实现了一个能够对FTP站点进行检索的实验性搜索引擎。
关键词 pat-tree Internet 搜索引擎 分布式数据库
下载PDF
一种用于Web信息抽取的页面信息本体自动学习方法 被引量:2
4
作者 柳佳刚 龙军 李泽军 《计算技术与自动化》 2011年第1期119-123,共5页
针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研... 针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF.IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。 展开更多
关键词 本体学习 信息抽取 pat-tree 关联规则
下载PDF
基于新闻标题的网络热词发现算法
5
作者 郭冲 《计算机与现代化》 2013年第3期58-62,66,共6页
使用基于PAT-Tree的候选短语提取算法,通过修改PAT-Tree数据结构使之适合处理变长中文字符串及非中文字符。根据交互信息评估字符串的关联程度,并结合新闻报道和网络热词的特点提出向前过滤算法发现网络热词。与其它同类算法相比,本算... 使用基于PAT-Tree的候选短语提取算法,通过修改PAT-Tree数据结构使之适合处理变长中文字符串及非中文字符。根据交互信息评估字符串的关联程度,并结合新闻报道和网络热词的特点提出向前过滤算法发现网络热词。与其它同类算法相比,本算法不需要制定复杂的语言规则和候选短语的评分公式,实现更加简单、速度更快。实验证明了本文算法的有效性和正确性。 展开更多
关键词 网络热词 pat-tree 互信息 中文字符串 候选短语
下载PDF
全文检索模型综述 被引量:12
6
作者 申展 江宝林 +2 位作者 陈祎 唐磊 胡运发 《计算机科学》 CSCD 北大核心 2004年第5期61-64,共4页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全... 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。 展开更多
关键词 信息检索 文档数据库 全文检索模型 倒排表 Pat-树 互关联后继树 位图 署名文件
下载PDF
搜索引擎结果聚类算法研究 被引量:11
7
作者 张健沛 刘洋 +1 位作者 杨静 代坤 《计算机工程》 CAS CSCD 北大核心 2004年第5期95-97,共3页
随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给... 随着Web文档数量的剧增,搜索引擎也暴露了许多问题,用户不得不在搜索引擎返回的大量文档摘要列表中查找。而对搜索引擎结果聚类能使用户在更高的主题层次上来查看搜索引擎返回的结果。该文提出了搜索引擎结果聚类的几个重要指标并给出了一个新的基于PAT-tree的搜索引擎结果聚类算法。 展开更多
关键词 聚类 搜索引擎 PAT—tree WEB内容挖掘
下载PDF
基于PAT TREE统计语言模型与关键词自动提取 被引量:12
8
作者 杨文峰 李星 《计算机工程与应用》 CSCD 北大核心 2001年第15期17-19,35,共4页
未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语... 未登录关键词的识别是中文信息处理中的一个关键问题。文章利用PAT TREE实现了一种可变长统计语言模型,由于不存在n元统计语言模型的截断效应,从而对待提取的关键词的长度没有限制。在该模型的基础上,通过相关性检测,从540M汉语语料中自动提取出了12万个关键词候选字串。最后,经过分析和筛选,候选字串的准确度由82.3%上升到96.1%。实验表明,基于PAT TREE的统计语言模型是实现未登录词提取的有力工具。 展开更多
关键词 信息检索 统计语言模型 关键词 自动提取 PATtree INTERNET
下载PDF
基于HowNet和PAT树的网购评语情感分析 被引量:4
9
作者 李永忠 胡思琪 《图书情报研究》 2016年第3期66-70,65,共6页
在对相关研究情况进行总结与分析的基础上,通过对How Net情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于How Net和PAT树的情感分析方法对分析网购评论的情感倾向性行之有... 在对相关研究情况进行总结与分析的基础上,通过对How Net情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于How Net和PAT树的情感分析方法对分析网购评论的情感倾向性行之有效,并以淘宝一女装商家为例进行实证研究,最后指出进一步探索情感倾向性分析的几个方向。 展开更多
关键词 HowNet情感词典 PAT树 网购评语 情感分析
下载PDF
基于序列数据挖掘的中文网页特征选择方法 被引量:2
10
作者 谷峰 刘晨曦 吴扬扬 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期97-100,共4页
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结... 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. 展开更多
关键词 序列数据挖掘 PAT树 净频率 频繁字串 中文网页分类
下载PDF
具有概念联想功能的特定领域分词词典的自动构建 被引量:3
11
作者 张彦 邵志清 《计算机工程》 CAS CSCD 北大核心 2004年第20期148-150,共3页
提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将... 提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingSender中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多,而且提供了概念联想的功能。 展开更多
关键词 语义词典 未登录词 PAT树 语义距离
下载PDF
Chinese Term Extraction Based on PAT Tree 被引量:2
12
作者 张锋 樊孝忠 许云 《Journal of Beijing Institute of Technology》 EI CAS 2006年第2期162-166,共5页
A new method of automatic Chinese term extraction is proposed based on Patricia (PAT) tree. Mutual information is calculated based on prefix searching in PAT tree of domain corpus to estimate the internal associativ... A new method of automatic Chinese term extraction is proposed based on Patricia (PAT) tree. Mutual information is calculated based on prefix searching in PAT tree of domain corpus to estimate the internal associative strength between Chinese characters in a string. It can improve the speed of term candidate extraction largely compared with methods based on domain corpus directly. Common collocation suffix, prefix bank are constructed and term part of speech (POS) composing rules are summarized to improve the precision of term extraction. Experiment results show that the F-measure is 74.97%. 展开更多
关键词 term extraction PAT tree mutual information CORPUS
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部