期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
Effective Analysis of Chinese Word-Segmentation Accuracy
1
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
下载PDF
全二分最大匹配快速分词算法 被引量:39
2
作者 李振星 徐泽平 +1 位作者 唐卫清 唐荣锡 《计算机工程与应用》 CSCD 北大核心 2002年第11期106-109,共4页
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一... 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。 展开更多
关键词 全二分最大匹配快速分词算法 自动分词 中文信息处理 数据结构
下载PDF
一种基于后缀数组的无词典分词方法 被引量:14
3
作者 张长利 赫枫龄 左万利 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2004年第4期548-553,共6页
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要... 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理. 展开更多
关键词 无词典分词 数组 文档 散列表 计算速度 算法 中文信息处理 法能 频度 实验
下载PDF
基于统计的中文地名识别 被引量:49
4
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
下载PDF
一种组合型中文分词方法 被引量:11
5
作者 郑晓刚 韩立新 +1 位作者 白书奎 曾晓勤 《计算机应用与软件》 CSCD 北大核心 2012年第7期26-28,39,共4页
设计一种组合型的分词机制:基于字典的双向最大匹配,基于字标注的中文分词方法和隐马尔科夫的分词方式。通过实验的结果比较,表明该种组合型的分词方法能够较好地解决中文歧义并发现新的登录词。
关键词 中文信息处理 中文自动分词 组合型分词
下载PDF
基于FFT的网页正文提取算法研究与实现 被引量:15
6
作者 李蕾 王劲林 +1 位作者 白鹤 胡晶晶 《计算机工程与应用》 CSCD 北大核心 2007年第30期148-151,共4页
主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特... 主要研究"正文式"网页的有效信息提取算法。该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。分析了此种网页的页面结构特征,将问题转化为——给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。实验结果表明,此种方法能比较准确的对"正文式"网页的有效信息进行提取。 展开更多
关键词 中文信息处理 WEB页面 信息提取 页面结构 FFT 区域分割
下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
7
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
下载PDF
中文地名的自动识别 被引量:10
8
作者 黄德根 孙迎红 《计算机工程》 CAS CSCD 北大核心 2006年第3期220-222,共3页
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放... 以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。 展开更多
关键词 地名识别 规则量化 自动分词 中文信息处理
下载PDF
基于规则和统计的中文自动文摘系统 被引量:21
9
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2006年第5期10-16,共7页
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成... 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 主题划分 可读性 评价
下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
10
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
下载PDF
基于最大熵模型的交集型切分歧义消解 被引量:6
11
作者 张锋 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过... 利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. 展开更多
关键词 中文信息处理 汉语自动分词 交集型歧义 最大熵模型
下载PDF
自动分词技术及其在信息检索中应用的研究 被引量:24
12
作者 黄崑 符绍宏 《现代图书情报技术》 CSSCI 北大核心 2001年第3期26-29,共4页
首先分析了自动分词与自然语言处理、自动分词与信息检索之间的关系 ,在此基础上 ,介绍了近年来自动分词系统实现的技术原理 。
关键词 中文自动分词 自然语言处理 信息检索 自然语言检索 人工智能
下载PDF
汉语文本中交集型切分歧义的分类处理 被引量:3
13
作者 李凯 左万利 吕巍 《小型微型计算机系统》 CSCD 北大核心 2004年第8期1486-1490,共5页
自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准... 自动分词是中文信息处理的基本问题 ,交集型歧义字段的切分又是中文分词的难点 .本文把交集型歧义字段按其宏结构分类 ,再依据本文提出的 4条切分原则 ,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理 ,提高了分词的准确性 .该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中 .实验效果表明 。 展开更多
关键词 自动分词 交集型歧义字段 宏结构 类别
下载PDF
基于中文信息处理的古代汉语分词研究 被引量:31
14
作者 邱冰 皇甫娟 《微计算机信息》 北大核心 2008年第24期100-102,共3页
本文在计算机语言处理与古代汉语词汇研究的交叉学科领域进行了新的探索,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。统计结果显示,古代汉语双音词比重自先秦以来以一种平稳的方式增长,该结论与古... 本文在计算机语言处理与古代汉语词汇研究的交叉学科领域进行了新的探索,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。统计结果显示,古代汉语双音词比重自先秦以来以一种平稳的方式增长,该结论与古代汉语词汇研究成果一致。本文提出的方法具有良好的合理性和高效的处理性能,在一定程度上克服了传统人工分词方法的缺陷和不足,因而计算机自然语言处理在古代汉语研究中也有重要的应用价值。 展开更多
关键词 计算机自然语言处理 中文信息处理 自动分词
下载PDF
多次Hash快速分词算法 被引量:22
15
作者 张科 《计算机工程与设计》 CSCD 北大核心 2007年第7期1716-1718,共3页
中文分词是中文信息处理的一个重要的组成部分。一些应用不仅要求有较高的准确率,速度也是至关重要的。通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法。该算法不仅... 中文分词是中文信息处理的一个重要的组成部分。一些应用不仅要求有较高的准确率,速度也是至关重要的。通过对已有分词算法的分析,尤其是对快速分词算法的分析,提出了一种新的词典结构,并根据新的词典结构提出新的分词算法。该算法不仅实现对词首字的Hash查找,也实现了词的其它字的Hash查找。理论分析和实验结果表明,该算法在速度上优于现有的其它分词算法。 展开更多
关键词 中文分词 中文信息处理 哈希 数据结构 时间复杂度
下载PDF
基于熵权的图像分割性能灰色评判 被引量:3
16
作者 俞峰 杨成梧 《兵工学报》 EI CAS CSCD 北大核心 2008年第8期930-934,共5页
为了克服传统的灰色综合评判中主观赋权的局限性,借助于信息工程学中的熵的概念,根据各评价指标的差异程度来修正权重,建立了一种新的综合评判模型——熵权灰色综合评判模型,并将该模型应用到图像分割性能评判当中。讨论影响图像分割性... 为了克服传统的灰色综合评判中主观赋权的局限性,借助于信息工程学中的熵的概念,根据各评价指标的差异程度来修正权重,建立了一种新的综合评判模型——熵权灰色综合评判模型,并将该模型应用到图像分割性能评判当中。讨论影响图像分割性能的各种因素,从评判的灰色性入手,运用灰色数学的原理和方法对各因素从理论上进行定量分析。对因素权重的确定,不是单凭主观判断,而是采用熵权系数法进行客观计算。评价对象的固有信息得到充分利用。避免了以往评价中只强调过程的某几项少数指标而忽略其它指标的缺点。因此,该模型具有更好的有效性和实用性。 展开更多
关键词 信息处理技术 信息融合 自动目标识别 图像分割 灰色数学 综合评判
下载PDF
一种中文分词词典新机制——四字哈希机制 被引量:16
17
作者 张培颖 李村合 《微型电脑应用》 2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一... 词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 展开更多
关键词 中文信息处理 自动分词 分词词典 四字哈希
下载PDF
一种基于词编码的中文文档格式 被引量:1
18
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
下载PDF
基于改进的正向最大匹配中文分词算法研究 被引量:11
19
作者 王惠仙 龙华 《贵州大学学报(自然科学版)》 2011年第5期112-115,119,共5页
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初... 中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端。针对此问题提出了根据中文词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法,并用互信息统计来消除交集型歧义。最后,通过实验对算法进行了分词和验证,结果表明改进的算法与一般正向最大匹配算法相比,中文分词的准确率提高了。 展开更多
关键词 自动分词 中文信息处理 挖掘 最大匹配
下载PDF
一种改进的高效分词词典机制 被引量:8
20
作者 王东 陈笑蓉 《贵州大学学报(自然科学版)》 2007年第4期380-384,389,共6页
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字... 汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。 展开更多
关键词 汉语自动分词 Hash索引算法 中文信息处理
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部