期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于规则的自动分类在文本分类中的应用 被引量:20
1
作者 李渝勤 孙丽华 《中文信息学报》 CSCD 北大核心 2004年第4期9-14,共6页
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的... 文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 文本分类 规则分类
下载PDF
基于特征分选策略的中文共指消解方法 被引量:2
2
作者 李渝勤 甘润生 +1 位作者 杨永红 施水才 《计算机工程》 CAS CSCD 北大核心 2011年第18期180-182,共3页
针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征... 针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的"噪声"。实验结果表明,该中文共指消解方法能提高共指消解的性能,F值达到80.72%。 展开更多
关键词 共指消解 特征选择 自然语言处理 支撑向量机 数据词典
下载PDF
面向互联网舆情的热词分析技术 被引量:17
3
作者 李渝勤 孙丽华 《中文信息学报》 CSCD 北大核心 2011年第1期48-53,59,共7页
热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而... 热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术——热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。 展开更多
关键词 热词 命名实体识别 热度计算 波动权值 词群关系
下载PDF
面向对象的可重用库管理系统 被引量:1
4
作者 李渝勤 李琳 《计算机工程与应用》 CSCD 北大核心 1999年第5期34-36,共3页
研究软件的可重用技术是提高软件生产率、解决软件危机的良好途径。好的重用技术可以带来高可靠。高性能、高质量和高效率的软件新系统。重用是支持软件工程新范型的基础前提。文章介绍了一种支持基于重用的、开放的、不依赖于具体领域... 研究软件的可重用技术是提高软件生产率、解决软件危机的良好途径。好的重用技术可以带来高可靠。高性能、高质量和高效率的软件新系统。重用是支持软件工程新范型的基础前提。文章介绍了一种支持基于重用的、开放的、不依赖于具体领域的可重用部件管理系统。 展开更多
关键词 面向对象 软件工程 可重用部件库 管理系统
下载PDF
TRS CD-Web出版系统
5
作者 李渝勤 李琳 肖诗斌 《中国传媒科技》 1998年第6期12-14,共3页
WWW是目前Internet上发展最快的领域,随着Web的迅猛发展,数据库连接产品与Internet/Intranet的结合已成为一种典型的计算机模式。TRS
关键词 数据库连接 浏览器 检索功能 出版物 阅读器 全文检索 计算机模式 管理系统 导航文件 用户界面
下载PDF
面向企业的信息网系统
6
作者 李渝勤 肖诗斌 王青 《信息系统工程》 1998年第8期61-61,共1页
信息是管理企业发展的命脉,在信息技术飞速发展的今天,引入先进的技术手段和方法,利用现代化的工具完善企业的信息管理机制,加大企业管理的技术含量,提高企业竞争能力,已成为各企业领导的共识。一、企业信息网的组织结构 成功的企业需要... 信息是管理企业发展的命脉,在信息技术飞速发展的今天,引入先进的技术手段和方法,利用现代化的工具完善企业的信息管理机制,加大企业管理的技术含量,提高企业竞争能力,已成为各企业领导的共识。一、企业信息网的组织结构 成功的企业需要:高效地管理企业经济运转的内部信息; 展开更多
关键词 企业管理 信息网系统 MIS
全文增补中
一种通用HTML网页主题信息提取方法 被引量:11
7
作者 许文 都云程 +1 位作者 李渝勤 施水才 《现代图书情报技术》 CSSCI 北大核心 2007年第1期40-43,共4页
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
关键词 DOM 信息提取 分块 相关度
下载PDF
基于大规模语料的新词语识别方法 被引量:5
8
作者 施水才 俞鸿魁 +1 位作者 吕学强 李渝勤 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期89-91,共3页
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的... 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语. 展开更多
关键词 新词语 流行语 语料库
下载PDF
句子重述技术在中文文本摘要中的应用 被引量:3
9
作者 周强 施水才 +1 位作者 李渝勤 吕学强 《情报学报》 CSSCI 北大核心 2008年第6期897-901,共5页
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新... 本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。 展开更多
关键词 中文文本摘要 权重 相似度 信息处理 指代消解 句子重述技术
下载PDF
BBS中文新词语自动挖掘 被引量:2
10
作者 吕学强 黄河 +1 位作者 李渝勤 施水才 《现代图书情报技术》 CSSCI 北大核心 2007年第1期37-39,共3页
针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。
关键词 自动挖掘 新词语 统计 规则
下载PDF
基于新闻语料的流行语量化分析
11
作者 施水才 吕学强 +2 位作者 俞鸿魁 王霞 李渝勤 《现代电子技术》 2007年第2期154-156,共3页
通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定... 通过对1947~2002年,共计56年的《人民日报》新闻语料进行统计分析,按照流行语的时间属性,将流行语分为新流行语、持续流行语、历史流行语以度周期流行语,分析了新词语、流行语与高频有意义串的异同,列举《人民日报》中的实例,定性定量地分析了流行语的特点。 展开更多
关键词 流行语 新词 统计 新闻语料
下载PDF
面向网络文本的信息可信度评估方法研究 被引量:2
12
作者 李璐旸 李渝勤 +2 位作者 刘挺 秦兵 王轩 《智能计算机与应用》 2013年第5期31-34,38,共5页
随着网络信息的膨胀性增长,不可信的信息在网络中日益增多,阻碍误导用户对可信信息的获取。研究网络文本的可信度评估方法,对句子级命题提取多维网络分布特征,通过线性组合计算可信度值,从而判断命题的可信度。在可信度评估过程中,文中... 随着网络信息的膨胀性增长,不可信的信息在网络中日益增多,阻碍误导用户对可信信息的获取。研究网络文本的可信度评估方法,对句子级命题提取多维网络分布特征,通过线性组合计算可信度值,从而判断命题的可信度。在可信度评估过程中,文中方法通过词语结构特征提取可信信息的候选信息,并在候选信息的可信度计算中加入对信息源的可信度分析判断,提高了信息可信度的评估准确度。 展开更多
关键词 信息可信度 替换项 候选答案 可信度计算
下载PDF
基于WordNet的语义分布词典建设
13
作者 张会平 吕学强 +1 位作者 施水才 李渝勤 《现代图书情报技术》 CSSCI 北大核心 2007年第3期55-59,共5页
提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。
关键词 语言资源 语义分布词典 WORDNET Semcor
下载PDF
基于页面结构分析的论坛主题信息定位方法研究
14
作者 陈雄 都云程 +1 位作者 李渝勤 施水才 《微计算机信息》 2010年第27期168-170,共3页
随着论坛中的用户不断增多,论坛中积存了大量的信息资源,为了能从论坛中提取出有效的主题信息,提出了一种通过分析页面结构的定位论坛主题信息的方法。该方法利用所有跟帖所在的节点在结构上相似的特点,计算各个节点的相似度,并利用总... 随着论坛中的用户不断增多,论坛中积存了大量的信息资源,为了能从论坛中提取出有效的主题信息,提出了一种通过分析页面结构的定位论坛主题信息的方法。该方法利用所有跟帖所在的节点在结构上相似的特点,计算各个节点的相似度,并利用总结的启发式规则提取特征,最后定位得到主题信息。实验表明,该方法具有较高的通用性和准确性。 展开更多
关键词 信息抽取 论坛 节点相似度
下载PDF
数据驱动的依存句法分析方法研究 被引量:1
15
作者 李正华 李渝勤 +1 位作者 刘挺 车万翔 《智能计算机与应用》 2013年第5期1-4,共4页
依存句法分析是自然语言处理领域的核心研究课题。依存句法分析的目标是将输入的自然语言文本从序列形式转化为树状结构,从而刻画句子内部词语之间的句法关系。近年来,依存句法分析作为一个研究热点,取得了长足的发展,并且逐渐广泛应用... 依存句法分析是自然语言处理领域的核心研究课题。依存句法分析的目标是将输入的自然语言文本从序列形式转化为树状结构,从而刻画句子内部词语之间的句法关系。近年来,依存句法分析作为一个研究热点,取得了长足的发展,并且逐渐广泛应用于其他自然语言处理任务中。对前人提出的数据驱动的依存句法分析方法进行总结和比较,进而提出了依存句法分析未来的挑战。 展开更多
关键词 自然语言处理 依存句法分析 数据驱动
下载PDF
机控叙词表设计与分析
16
作者 施水才 李渝勤 《情报科学技术》 1989年第1期7-13,共7页
关键词 主题词表 数据库
全文增补中
上一页 1 下一页 到第
使用帮助 返回顶部