期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
Improvement in Accuracy of Word Segmentation of a Web-Based Japanese-to-Braille Translation Program for Medical Information
1
作者 Tsuyoshi Oda Aki Sugano +10 位作者 Masashi Shimbo Kenji Miura Mika Ohta Masako Matsuura Mineko Ikegami Tetsuya Watanabe Shinichi Kita Akihiro Ichinose Eiichi Maeda Yuji Matsumoto Yutaka Takaoka 《通讯和计算机(中英文版)》 2013年第1期82-89,共8页
关键词 医疗信息 翻译程序 Web 盲文 分词 精度 自然语言处理 专有名词
下载PDF
基于POI数据的公共免租站点数字化检测策略探索与应用
2
作者 张悦 柯俊生 +2 位作者 张姣 易卓锋 李慧 《长江信息通信》 2024年第1期218-220,共3页
在5G网络大规模部署和刚性成本快速增长的局势下,为了节省基站建设场地租赁费用以及制定有效的选址策略,文章提出了一种公共免租站点智能检测的方法。该方法利用中文切词算法挖掘公共免租站点关键词并建立公共免租关键词库,引入广泛的PO... 在5G网络大规模部署和刚性成本快速增长的局势下,为了节省基站建设场地租赁费用以及制定有效的选址策略,文章提出了一种公共免租站点智能检测的方法。该方法利用中文切词算法挖掘公共免租站点关键词并建立公共免租关键词库,引入广泛的POI数据、基站数据以及合同数据进行匹配和交叉运算,实现系统化、智能化地检测现有站点是否满足公共免租条件。通过建设公共免租关键词库,辅助锁定存量租用的现网物业站点,并以公共免租谈判的手段进行推动,有效地摆脱了传统人工判断的主观性与不确定性,为基站选址决策者提供可靠的参考,从而降低基站租金成本,提高5G网络的经济效益。 展开更多
关键词 公共免租点 中文切词 公共免租关键词库 POI数据 基站选址
下载PDF
白乐桑相对字本位的字词兼顾
3
作者 李义海 《闽江学院学报》 2023年第1期66-80,共15页
白乐桑基于二语教学的经济原则和汉语二语教学的特性,在“学科教学论”的视界内,建立字和口语表达的关联,并以字为纽带联结口头和书面交际,实现了汉语二语教学的“字词兼顾”。白乐桑认为,“字”和“词”是两个基本教学单位,“字”包括... 白乐桑基于二语教学的经济原则和汉语二语教学的特性,在“学科教学论”的视界内,建立字和口语表达的关联,并以字为纽带联结口头和书面交际,实现了汉语二语教学的“字词兼顾”。白乐桑认为,“字”和“词”是两个基本教学单位,“字”包括字形、声音、意义、结构、书写和记忆等要素,是初级汉语教学的起点;“词”是口语交际中用以成句的最小言语单位,在书语交际中由字或字的组合来记录。白乐桑“相对字本位”的“字词兼顾”,通过高频字的分级筛选和“以字带词”实现了教材编纂时对高频词的遴选和控制,增加了学生对汉语辞章组合性的认识;通过“以字释词”提高了学生的学习兴趣并加深了对字词关系的了解。 展开更多
关键词 白乐桑 “相对字本位”教学法 字词兼顾 汉语二语教学
下载PDF
字典与统计相结合的中文分词方法 被引量:41
4
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
基于词频统计的中文分词的研究 被引量:68
5
作者 费洪晓 康松林 +1 位作者 朱小娟 谢文彪 《计算机工程与应用》 CSCD 北大核心 2005年第7期67-68,100,共3页
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频... 论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。 展开更多
关键词 中文分词 词频统计 互信息N元统计模型 t-测试
下载PDF
SegT:一个实用的藏文分词系统 被引量:25
6
作者 刘汇丹 诺明花 +2 位作者 赵维纳 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,... 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 展开更多
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
下载PDF
基于字典和统计的分词方法 被引量:13
7
作者 陈平 刘晓霞 李亚军 《计算机工程与应用》 CSCD 北大核心 2008年第10期144-146,共3页
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
关键词 基于字典的分词 基于统计的分词 交叉歧义 未登录词
下载PDF
基于Hash结构的机械统计分词系统研究 被引量:8
8
作者 费洪晓 胡海苗 巩燕玲 《计算机工程与应用》 CSCD 北大核心 2006年第5期159-161,共3页
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系... 在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。 展开更多
关键词 中文分词 机械分词 统计分词 Hash结构
下载PDF
中文病历文本分词方法研究 被引量:7
9
作者 李国垒 陈先来 +1 位作者 夏冬 杨荣 《中国生物医学工程学报》 CAS CSCD 北大核心 2016年第4期477-481,共5页
探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础。分别使用单纯中科院ICTCLAS分词、ICTCLAS+自定义词典、ICTCLAS+统计分词和ICTCLAS+自定义词典结合互信息统计分词4种策略,对1 500份出院记录中的病历文... 探索适合医学文本的分词方法,为医学数据挖掘和临床决策支持的语义分析奠定基础。分别使用单纯中科院ICTCLAS分词、ICTCLAS+自定义词典、ICTCLAS+统计分词和ICTCLAS+自定义词典结合互信息统计分词4种策略,对1 500份出院记录中的病历文本进行分词处理,并从准确率、召回率和综合指标值等3个方面对分词结果进行评价。以人工分词的50份出院记录结果为标准依据,4种分词策略的综合指标值分别为45.77%、58.76%、64.93%和78.06%。结果证实,自定义词典结合基于互信息的统计分词方法,能够有效地对病历中出院记录文本进行分词处理,可以满足临床数据分析的需求,具有良好的推广意义。 展开更多
关键词 病历文本 中文分词 统计分词 词典分词 出院记录
下载PDF
中文信息处理中自动分词技术的研究与展望 被引量:67
10
作者 刘迁 贾惠波 《计算机工程与应用》 CSCD 北大核心 2006年第3期175-177,182,共4页
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。
关键词 汉语自动分词 中文信息处理 分词技术 分词算法
下载PDF
基于条件随机场的中文领域分词研究 被引量:14
11
作者 朱艳辉 刘璟 +2 位作者 徐叶强 田海龙 马进 《计算机工程与应用》 CSCD 北大核心 2016年第15期97-100,共4页
针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确... 针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。 展开更多
关键词 中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法
下载PDF
具有三级索引词库结构的中文分词方法研究 被引量:16
12
作者 肖红 许少华 李欣 《计算机应用研究》 CSCD 北大核心 2006年第8期49-51,共3页
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文... 提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。 展开更多
关键词 中文切词 正向最大匹配 词库 索引密度 全文检索
下载PDF
中文分词十年回顾 被引量:246
13
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
下载PDF
中文分词及词性标注一体化模型研究 被引量:10
14
作者 佟晓筠 宋国龙 +2 位作者 刘强 张俐 姜伟 《计算机科学》 CSCD 北大核心 2007年第9期174-175,212,共3页
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自... 本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。 展开更多
关键词 中文分词 词性标注 N-最短路径法
下载PDF
基于规则与统计相结合的中文文本自动查错模型与算法 被引量:33
15
作者 张仰森 曹元大 俞士汶 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字... 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 展开更多
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误
下载PDF
基于N-最短路径方法的中文词语粗分模型 被引量:99
16
作者 张华平 刘群 《中文信息学报》 CSCD 北大核心 2002年第5期1-7,共7页
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召... 预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。 展开更多
关键词 N-最短路径方法 中文词语粗分模型 中文词语分析 预处理 统计模型 中文信息处理
下载PDF
基于文献的我国脑梗死中医护理研究现状分析 被引量:33
17
作者 韩柳 田润溪 +5 位作者 姜雨婷 王晋芳 赵俊强 高尚谦 刘欣娟 郝玉芳 《护理学杂志》 CSCD 2016年第19期40-43,共4页
目的 了解和分析我国脑梗死中医护理研究现状,为中医护理临床及研究提供参考。方法 从4个中文数据库中检索建库至2016年3月脑梗死中医护理文献,采用计量分析及关键词共词矩阵分析法进行文献特征分析。结果 共检出脑梗死中医护理文献5 44... 目的 了解和分析我国脑梗死中医护理研究现状,为中医护理临床及研究提供参考。方法 从4个中文数据库中检索建库至2016年3月脑梗死中医护理文献,采用计量分析及关键词共词矩阵分析法进行文献特征分析。结果 共检出脑梗死中医护理文献5 441篇(硕博士论文681篇,会议论文90篇,期刊论文4 670篇;1963-1994年1-10篇,1995-2004年15-86篇,2005-2015年102-965篇),4 670篇论文分布在484种期刊,其中475篇(10.17%)发表在27种护理期刊;446篇(8.20%)有基金支持;有核心作者318人,平均发文6篇;研究机构共2 572个,排序前10的均为中医药院校及其附属医院;研究内容主要包括心理干预,肢体、神经、运动及认知康复护理,康复期症状护理,并发症及合并疾病护理,急性期溶栓护理5个方面。结论 我国脑梗死中医护理研究经历了缓慢发展期,现处于兴盛时期,研究数量已成规模但质量偏低,研究内容覆盖全面但欠深入细化,载文期刊分布广泛但护理期刊载文偏少,应加以改进,以提升脑梗死中医护理研究质量。 展开更多
关键词 脑卒中 脑梗死 中医药 中医护理 共词分析 文献计量学
下载PDF
一种基于可信度的人名识别方法 被引量:20
18
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
基于有效子串标注的中文分词 被引量:26
19
作者 赵海 揭春雨 《中文信息学报》 CSCD 北大核心 2007年第5期8-13,共6页
由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题,以一种更为可靠... 由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在Bakeoff-2005评测语料上获得了验证。 展开更多
关键词 计算机应用 中文信息处理 中文分词 基于子串标注的分词
下载PDF
基于双向匹配法和特征选择算法的中文分词技术研究 被引量:8
20
作者 麦范金 李东普 岳晓光 《昆明理工大学学报(自然科学版)》 CAS 北大核心 2011年第1期47-51,共5页
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,... 传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好. 展开更多
关键词 双向最大匹配 特征选择算法 中文分词
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部