期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于大规模语料库的新词检测
被引量:
32
1
作者
崔世起
刘群
+2 位作者
孟遥
于浩
西野文人
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期927-932,共6页
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见...
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
展开更多
关键词
新词
垃圾串
垃圾头
垃圾尾
独立词概率
下载PDF
职称材料
面向Internet的中文新词语检测
被引量:
59
2
作者
邹纲
刘洋
+4 位作者
刘群
孟遥
于浩
西野文人
亢世勇
《中文信息学报》
CSCD
北大核心
2004年第6期1-9,共9页
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ...
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
展开更多
关键词
计算机应用
中文信息处理
新词语
自动检测
下载PDF
职称材料
基于Web数据的特定领域双语词典抽取
被引量:
11
3
作者
张永臣
孙乐
+4 位作者
李飞
李文波
西野文人
于浩
方高林
《中文信息学报》
CSCD
北大核心
2006年第2期16-23,共8页
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语...
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。
展开更多
关键词
计算机应用
中文信息处理
双语词典
词间关系矩阵
非平行语料
种子词
下载PDF
职称材料
Web页面信息块的自动分割
被引量:
10
4
作者
瞿有利
于浩
+1 位作者
徐国伟
西野文人
《中文信息学报》
CSCD
北大核心
2004年第1期6-13,共8页
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称...
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。
展开更多
关键词
计算机应用
中文信息处理
WEB页面
信息提取
信息块
下载PDF
职称材料
题名
基于大规模语料库的新词检测
被引量:
32
1
作者
崔世起
刘群
孟遥
于浩
西野文人
机构
中国科学院计算技术研究所数字化技术研究室
中国科学院研究生院
中国科学院研究生院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期927-932,共6页
基金
国家"八六三"高技术研究发展计划基金项目(2004AA114010
2003AA111010)
中国科学院计算技术研究所和富士通研究开发中心有限公司合作项目~~
文摘
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
关键词
新词
垃圾串
垃圾头
垃圾尾
独立词概率
Keywords
new word
garbage string
garbage head
garbage tail
IWP
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向Internet的中文新词语检测
被引量:
59
2
作者
邹纲
刘洋
刘群
孟遥
于浩
西野文人
亢世勇
机构
中科院计算技术研究所数字化实验室
富士通研究开发中心有限公司
烟台师范学院中文系
出处
《中文信息学报》
CSCD
北大核心
2004年第6期1-9,共9页
文摘
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
关键词
计算机应用
中文信息处理
新词语
自动检测
Keywords
computer application
Chinese language processing
new word
automatic detection
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Web数据的特定领域双语词典抽取
被引量:
11
3
作者
张永臣
孙乐
李飞
李文波
西野文人
于浩
方高林
机构
中国科学院软件研究所中文信息中心中国科学院研究生院
富士通研究开发中心有限公司
出处
《中文信息学报》
CSCD
北大核心
2006年第2期16-23,共8页
基金
富士通研究开发中心合作项目
国家自然科学基金资助项目(60203007)
+1 种基金
国家"八六三"高技术研究发展计划资助项目(2003AA1Z2110)
北京市科技新星计划资助项目(H020820790130)
文摘
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。
关键词
计算机应用
中文信息处理
双语词典
词间关系矩阵
非平行语料
种子词
Keywords
computer application
Chinese information processing
bilingual dictionary
word relation matrix
non-parallel corpus
seed word
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web页面信息块的自动分割
被引量:
10
4
作者
瞿有利
于浩
徐国伟
西野文人
机构
富士通研究开发中心有限公司
株式会社富士通研究所
出处
《中文信息学报》
CSCD
北大核心
2004年第1期6-13,共8页
文摘
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。
关键词
计算机应用
中文信息处理
WEB页面
信息提取
信息块
Keywords
computer application
Chinese information processing
Web page
information extraction
information block
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于大规模语料库的新词检测
崔世起
刘群
孟遥
于浩
西野文人
《计算机研究与发展》
EI
CSCD
北大核心
2006
32
下载PDF
职称材料
2
面向Internet的中文新词语检测
邹纲
刘洋
刘群
孟遥
于浩
西野文人
亢世勇
《中文信息学报》
CSCD
北大核心
2004
59
下载PDF
职称材料
3
基于Web数据的特定领域双语词典抽取
张永臣
孙乐
李飞
李文波
西野文人
于浩
方高林
《中文信息学报》
CSCD
北大核心
2006
11
下载PDF
职称材料
4
Web页面信息块的自动分割
瞿有利
于浩
徐国伟
西野文人
《中文信息学报》
CSCD
北大核心
2004
10
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部