期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
一种通用HTML网页主题信息提取方法 被引量:11
1
作者 许文 都云程 +1 位作者 李渝勤 施水才 《现代图书情报技术》 CSSCI 北大核心 2007年第1期40-43,共4页
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
关键词 DOM 信息提取 分块 相关度
下载PDF
基于句子相似度计算的信息抽取 被引量:4
2
作者 廉站俊 吕学强 +1 位作者 张玉杰 施水才 《现代图书情报技术》 CSSCI 北大核心 2007年第6期38-41,共4页
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。
关键词 信息抽取 概率分布 主题 句子相似度计算
下载PDF
基于信息熵与词语活跃度的领域词抽取 被引量:1
3
作者 王成 吕学强 +1 位作者 王弘蔚 王涛 《北京信息科技大学学报(自然科学版)》 2011年第5期49-52,58,共5页
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语... 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。 展开更多
关键词 领域词抽取 领域词过滤 信息熵 词语活跃度 知识获取 自然语言处理
下载PDF
基于新型主题信息量化方法的Web主题信息提取研究 被引量:1
4
作者 吕聚旺 都云程 +1 位作者 王弘蔚 施水才 《现代图书情报技术》 CSSCI 北大核心 2008年第12期48-53,共6页
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采... 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 展开更多
关键词 网页主题信息信息抽取信息块语义信息IB—DOM树
下载PDF
基于页面结构分析的论坛主题信息定位方法研究
5
作者 陈雄 都云程 +1 位作者 李渝勤 施水才 《微计算机信息》 2010年第27期168-170,共3页
随着论坛中的用户不断增多,论坛中积存了大量的信息资源,为了能从论坛中提取出有效的主题信息,提出了一种通过分析页面结构的定位论坛主题信息的方法。该方法利用所有跟帖所在的节点在结构上相似的特点,计算各个节点的相似度,并利用总... 随着论坛中的用户不断增多,论坛中积存了大量的信息资源,为了能从论坛中提取出有效的主题信息,提出了一种通过分析页面结构的定位论坛主题信息的方法。该方法利用所有跟帖所在的节点在结构上相似的特点,计算各个节点的相似度,并利用总结的启发式规则提取特征,最后定位得到主题信息。实验表明,该方法具有较高的通用性和准确性。 展开更多
关键词 信息抽取 论坛 节点相似度
下载PDF
基于层叠隐马尔可夫模型的中文命名实体识别 被引量:153
6
作者 俞鸿魁 张华平 +2 位作者 刘群 吕学强 施水才 《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名... 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。 展开更多
关键词 命名实体识别 角色标注 ICTCLAS
下载PDF
基于多层条件随机场的中文命名实体识别 被引量:25
7
作者 胡文博 都云程 +1 位作者 吕学强 施水才 《计算机工程与应用》 CSCD 北大核心 2009年第1期163-165,227,共4页
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识... 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。 展开更多
关键词 条件随机场 命名实体识别 命名实体
下载PDF
基于同义词词林的中文文本主题词提取 被引量:11
8
作者 程涛 施水才 +1 位作者 王霞 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期145-148,共4页
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下... 中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明。 展开更多
关键词 主题词提取 同义词词林 权值 同义词
下载PDF
句子重述技术在中文文本摘要中的应用 被引量:3
9
作者 周强 施水才 +1 位作者 李渝勤 吕学强 《情报学报》 CSSCI 北大核心 2008年第6期897-901,共5页
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新... 本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。 展开更多
关键词 中文文本摘要 权重 相似度 信息处理 指代消解 句子重述技术
下载PDF
BBS中文新词语自动挖掘 被引量:2
10
作者 吕学强 黄河 +1 位作者 李渝勤 施水才 《现代图书情报技术》 CSSCI 北大核心 2007年第1期37-39,共3页
针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。
关键词 自动挖掘 新词语 统计 规则
下载PDF
基于关键名词短语聚类的中文搜索结果聚类 被引量:1
11
作者 麻雪云 肖诗斌 +1 位作者 王弘蔚 施水才 《计算机工程与应用》 CSCD 北大核心 2009年第31期118-121,共4页
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,... 目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。 展开更多
关键词 搜索结果聚类 关键名词短语抽取 C-Value算法 CHAMELEON算法
下载PDF
基于N-gram语言模型的汉字识别后处理研究 被引量:5
12
作者 董广宇 吕学强 +1 位作者 王涛 施水才 《微计算机信息》 2009年第10期276-278,共3页
为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率... 为提高汉字文本的识别率,本文将基于统计的N-gram元语言模型和单字识别器概率模型结合起来,以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。 展开更多
关键词 N元语言模型 维特比算法 汉字识别 后处理
下载PDF
一种改进的基于《知网》的词语语义相似度计算 被引量:106
13
作者 江敏 肖诗斌 +1 位作者 王弘蔚 施水才 《中文信息学报》 CSCD 北大核心 2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&... 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。 展开更多
关键词 计算机应用 中文信息处理 知网 词语相似度 义原 词语极性识别
下载PDF
基于条件随机场的领域术语识别研究 被引量:14
14
作者 施水才 王锴 +1 位作者 韩艳铧 吕学强 《计算机工程与应用》 CSCD 2013年第10期147-149,155,共4页
领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特... 领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特征模板,同时通过10倍交叉验证法确定模型训练参数。实验结果表明,通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。 展开更多
关键词 领域术语 条件随机场 词性组合 特征模板
下载PDF
用户兴趣分类在个性化搜索引擎中的应用 被引量:9
15
作者 李银松 施水才 +1 位作者 张玉杰 吕学强 《情报学报》 CSSCI 北大核心 2008年第4期535-540,共6页
个性化搜索引擎是指在普通搜索引擎的基础上,根据用户的背景,兴趣等调整排序算法,针对不同的用户提供不同的服务。本文对搜索引擎的排序算法和用户行为进行了深入细致的研究,通过隐性方法收集用户行为信息,统计并构建用户长期兴趣... 个性化搜索引擎是指在普通搜索引擎的基础上,根据用户的背景,兴趣等调整排序算法,针对不同的用户提供不同的服务。本文对搜索引擎的排序算法和用户行为进行了深入细致的研究,通过隐性方法收集用户行为信息,统计并构建用户长期兴趣模型,短期兴趣模型,时段兴趣模型等,利用向量相似度计算获取最适合用户当前状态的兴趣模型,最后将该兴趣模型结合到搜索引擎的排序算法中,影响文档得分,实现结果集的个性化排序。实验证明,该方法简单有效,可以增加搜索引擎对用户兴趣的应变能力。 展开更多
关键词 信息检索 个性化搜索引擎 用户兴趣分类 LUCENE
下载PDF
基于大规模语料的新词语识别方法 被引量:5
16
作者 施水才 俞鸿魁 +1 位作者 吕学强 李渝勤 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期89-91,共3页
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的... 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语. 展开更多
关键词 新词语 流行语 语料库
下载PDF
搜索引擎日志中“N_1+N_2+V”型名词短语研究 被引量:3
17
作者 肖诗斌 赵红改 +1 位作者 王洪俊 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期116-122,共7页
"N1+N2+V"结构是组成名词短语的一种基本形式。本文基于搜狗日志语料,对搜索引擎日志中的"N1+N2+V"型名词短语进行研究。针对语料自身的特点,从句法特征、短语的层次切分与拆分、句法功能和语义关系4方面,对这类短... "N1+N2+V"结构是组成名词短语的一种基本形式。本文基于搜狗日志语料,对搜索引擎日志中的"N1+N2+V"型名词短语进行研究。针对语料自身的特点,从句法特征、短语的层次切分与拆分、句法功能和语义关系4方面,对这类短语进行了考察,着重分析了N1与N2、N2与V的语义关系。文中对搜狗日志的查询内容进行了深入分析和实证,为搜索引擎用短语词典的构建研究提供理论依据。 展开更多
关键词 “N1+N2+V”结构 搜索引擎日志 句法特征 句法功能 语义关系
下载PDF
基于条件随机场的英文地理行政实体识别 被引量:5
18
作者 宗萍 施水才 +1 位作者 王涛 吕学强 《现代图书情报技术》 CSSCI 北大核心 2009年第2期51-55,共5页
采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Enti-ties,GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表... 采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Enti-ties,GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。 展开更多
关键词 ACE评测 地理行政实体 实体识别 条件随机场 特征选择
下载PDF
基于空间金字塔的镜头检测 被引量:3
19
作者 都云程 任绍美 +1 位作者 王涛 吕学强 《计算机工程与应用》 CSCD 2013年第11期187-190,270,共5页
提出一种HSV颜色直方图与像素的位置空间金字塔结合的方法,该方法既考虑像素的信息,又考虑了像素的位置信息,来进行视频镜头分割。将图像进行一次亚采样,对得到的第一层亚采样图像进行均匀的四分割;对得到的四块小区域分别计算其颜色直... 提出一种HSV颜色直方图与像素的位置空间金字塔结合的方法,该方法既考虑像素的信息,又考虑了像素的位置信息,来进行视频镜头分割。将图像进行一次亚采样,对得到的第一层亚采样图像进行均匀的四分割;对得到的四块小区域分别计算其颜色直方图,获得四个特征向量;将第一层亚采样的图像再进行一次亚采样,得到第二层亚采样图像,并计算其颜色特征向量;将五个特征向量级联,作为图像帧的特征,并计算相邻两个帧的相似度。该算法不仅考虑了像素信息,还考虑了像素位置信息,而且考虑的是全局位置信息和局部位置信息。实验结果显示,该方法较好地权衡了查全率和查准率。 展开更多
关键词 空间金字塔 亚采样 分块 直方图
下载PDF
基于自商图像的人脸图像增强 被引量:3
20
作者 施水才 杨忱 +1 位作者 王涛 吕学强 《计算机工程与应用》 CSCD 2013年第13期142-144,共3页
为了降低光照对人脸识别效果的影响,通过多层次自商图像的方法获得反射系数。将原图作为输入图像采用反锐化掩模滤波的方式进行增强,再通过自商图像方法获得反射系数和光照成分;把光照成分作为输入图像,重复以上操作,对每次得到的反射... 为了降低光照对人脸识别效果的影响,通过多层次自商图像的方法获得反射系数。将原图作为输入图像采用反锐化掩模滤波的方式进行增强,再通过自商图像方法获得反射系数和光照成分;把光照成分作为输入图像,重复以上操作,对每次得到的反射系数按比例融合得到最终的反射系数。YaleB人脸库上的实验结果表明,该方法能在一定程度上去除光照的影响,使人脸识别率有一定的提高。 展开更多
关键词 反射光照模型 自商图像 反锐化掩模滤波
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部