期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
融合单词级段信息的中文医疗命名实体识别
1
作者 王海鹏 杜方 +1 位作者 宋丽娟 李婷 《计算机技术与发展》 2024年第6期110-117,共8页
中文医疗命名实体识别(Named Entity Recognition,NER)是医学领域的一项基础任务,在知识图谱等许多下游任务中起着重要的作用。常用的NER方法可分为基于词级信息和基于段级信息,已有研究表明两种信息融合能取得更好的性能。目前,词级信... 中文医疗命名实体识别(Named Entity Recognition,NER)是医学领域的一项基础任务,在知识图谱等许多下游任务中起着重要的作用。常用的NER方法可分为基于词级信息和基于段级信息,已有研究表明两种信息融合能取得更好的性能。目前,词级信息和段级信息融合的方法在中文医疗NER任务中还未被充分研究,且现有的融合方法为段中的每个单词赋予相同的权重,不考虑单词的不同贡献。而医疗实体中每个单词和实体(段)有着不同的相关性,忽略这种相关性的差异将影响医疗NER的性能。基于此,通过分析中文医疗实体特性,提出了一种单词级段信息抽取方法(Word-Level Segment Information Extraction,WL-SIE)。该方法为实体中的每个单词分配一个权重矩阵集,学习单词与实体之间的关联信息,在与实体词组交互之后输出不同的单词级段信息。在CCKS2017和CMeEE中文临床NER数据集上的实验结果表明,WL-SIE方法较对比方法在F1值上提升了3%~5%,特别是在实体样本不均衡场景下和长实体识别任务上表现出了优异的性能。 展开更多
关键词 命名实体识别 深度神经网络 词级信息 段级信息 中文医疗信息处理
下载PDF
基于统计方法的中文姓名识别 被引量:48
2
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
下载PDF
基于多知识源的中文词法分析系统 被引量:29
3
作者 姜维 王晓龙 +1 位作者 关毅 赵健 《计算机学报》 EI CSCD 北大核心 2007年第1期137-145,共9页
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法... 汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%. 展开更多
关键词 词法分析 汉语分词 词性标注 命名实体识别 语言模型
下载PDF
基于统计的中文姓名识别方法研究 被引量:23
4
作者 张锋 樊孝忠 许云 《计算机工程与应用》 CSCD 北大核心 2004年第10期53-54,77,共3页
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。
关键词 自动分词 未登录词 中文姓名识别
下载PDF
基于语料库的中文姓名识别方法研究 被引量:43
5
作者 郑家恒 李鑫 谭红叶 《中文信息学报》 CSCD 北大核心 2000年第1期7-12,共6页
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 ... 本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95 .23 % ;精确率为87 .31 % 。 展开更多
关键词 中文 姓名识别 姓氏使用频率 自动分词
下载PDF
基于统计的中文地名识别 被引量:49
6
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
下载PDF
汉语自动分词中中文地名识别 被引量:10
7
作者 高红 黄德根 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第4期576-581,共6页
以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句... 以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. 展开更多
关键词 中文地名识别 汉语自动分词 未登录词识别
下载PDF
一种基于可信度的人名识别方法 被引量:20
8
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
中文地名的自动识别 被引量:10
9
作者 黄德根 孙迎红 《计算机工程》 CAS CSCD 北大核心 2006年第3期220-222,共3页
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放... 以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。 展开更多
关键词 地名识别 规则量化 自动分词 中文信息处理
下载PDF
汉语智能接口的自动分词研究 被引量:2
10
作者 王力红 杨剑 +2 位作者 李洪 李云波 孙亚萍 《计算机工程》 CAS CSCD 北大核心 2001年第8期43-44,118,共3页
讨论了在旅游信息库汉语接口中的自动分词问题。基于系统的情况提出了模糊切分及形式分词与语法分析辅助分词相结合解决歧义切分、未登录词切分的方法。实验表明,该方法是可行的和令人满意的。
关键词 汉语分词 汉语接口 歧义切分 中文姓名识别 自动分词 汉字信息处理
下载PDF
基于多源信息融合的中文农作物病虫害命名实体识别 被引量:14
11
作者 李林 周晗 +3 位作者 郭旭超 刘成启 苏洁 唐詹 《农业机械学报》 EI CAS CSCD 北大核心 2021年第12期253-263,共11页
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针... 随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction,Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。 展开更多
关键词 命名实体识别 农作物病虫害 农业自然语言处理 中文分词 停等算法
下载PDF
字标注汉语词法分析中上文和下文孰重孰轻 被引量:3
12
作者 于江德 王希杰 樊孝忠 《计算机科学》 CSCD 北大核心 2012年第11期201-203,236,共4页
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基... 汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢?为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测Bakeoff多种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分析性能的贡献比上文的贡献高出6个百分点以上。 展开更多
关键词 汉语词法分析 字标注 上下文 分词 词性标注 命名实体识别
下载PDF
一种与分词一体化的中文人名识别方法 被引量:2
13
作者 高红 黄德根 杨元生 《计算机工程》 CAS CSCD 北大核心 2006年第19期9-10,13,共3页
提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有向图的节点。利用Bigram和Trigram给有向边赋值,使有向图的最短路径对应句子的正确切分,确定了句子的切... 提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有向图的节点。利用Bigram和Trigram给有向边赋值,使有向图的最短路径对应句子的正确切分,确定了句子的切分路径即可识别出句子中的人名。实验结果表明,该方法取得了较好的人名识别正确率。 展开更多
关键词 中文人名识别 未登录词识别 汉语自动分词 最短路径
下载PDF
中文文本中外国人名与中国人名同步识别方法 被引量:1
14
作者 高红 黄德根 杨元生 《小型微型计算机系统》 CSCD 北大核心 2006年第4期715-719,共5页
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值,使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国... 根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值,使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名.该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%. 展开更多
关键词 汉语自动分词 人名识别 未登录词识别
下载PDF
HENU汉语分词系统中的中文人名识别算法
15
作者 毋琳 郑逢斌 +1 位作者 乔保军 汤赛丽 《计算机工程与应用》 CSCD 北大核心 2006年第14期180-182,232,共4页
论文介绍在HENU汉语自动分词系统中对中文人名的自动识别算法。该算法在常用的规则和统计相结合方法基础之上,采用了局部回溯分词的思想,较好地解决了同姓异名对的冲突问题。在开放测试中,该方法取得了90.9%的准确率和95.9%的召回率。
关键词 中文人名识别 同姓异名对 自动分词
下载PDF
交通管理领域的中文分词算法及应用研究
16
作者 熊桂喜 姚丽 《微计算机信息》 2009年第30期135-136,215,共3页
在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法... 在分析智能交通管理(ITMS)领域特点的基础上,提出了适于ITMS的分词算法。使用特征词处理规则、专有词典和专有地名库切分出特征词、专有词和地名,应用N-最短路径法和基于一阶马尔可夫模型最小交叉熵方法做歧义处理,基于角色标注的方法识别人名,从N个最有潜力的候选结果中选优得到切分结果。在ITMS领域的测试集下分词系统的准确率和召回率分别达到96.3%和95.0%。 展开更多
关键词 智能交通管理 中文分词 人名识别 地名识别 专有词
下载PDF
基于关联规则的中文姓名识别方法
17
作者 辛浩 《宿州学院学报》 2011年第5期50-52,共3页
从中文姓名识别技术是中文分词领域的重要分支的角度,分析了传统统计中文切词方法正确率低的缺失,表现为基于机器学习方法的中文姓名识别技术对词典规模和语料库容量依赖性大的缺陷,以至于不能够有效地发现未登录词,降低了中文姓名识别... 从中文姓名识别技术是中文分词领域的重要分支的角度,分析了传统统计中文切词方法正确率低的缺失,表现为基于机器学习方法的中文姓名识别技术对词典规模和语料库容量依赖性大的缺陷,以至于不能够有效地发现未登录词,降低了中文姓名识别的正确率;以中文姓氏用字为线索,提出了一种改善的无监督的中文姓名识别方法,在统计法的基础上,利用关联规则算法挖掘出与姓氏相关的强规则进行姓名识别。实验结果表明:此方法对词典规模和语料库依赖性较小,能够自动消除歧义,有效地发现未登录词,提高了中文姓名识别的正确率。 展开更多
关键词 姓名识别 关联规则 自动分词
下载PDF
基于可信度的中文完整词自动识别 被引量:3
18
作者 王芳 万常选 《中文信息学报》 CSCD 北大核心 2009年第3期17-23,共7页
中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的... 中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。 展开更多
关键词 计算机应用 中文信息处理 中文分词 互信息 可信度 自动识别
下载PDF
基于图注意力网络字词融合的中文命名实体识别 被引量:6
19
作者 宋旭晖 于洪涛 李邵梅 《计算机工程》 CAS CSCD 北大核心 2022年第10期298-305,共8页
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用... 命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。 展开更多
关键词 自然语言处理 中文命名实体识别 图注意力网络 字词融合 分词信息
下载PDF
浅谈针对明清小说文本的知识抽取方法
20
作者 顾磊 《科技视界》 2020年第10期11-13,共3页
明清小说历经数百的流传,已成为中华民族的文化瑰宝,而针对明清小说文本的知识抽取则是信息社会时代下古籍数字化研究的重要方式。本文首先介绍了文本知识抽取方法的研究现状,其次就当前明清小说文本知识抽取方法研究中存在的问题进行... 明清小说历经数百的流传,已成为中华民族的文化瑰宝,而针对明清小说文本的知识抽取则是信息社会时代下古籍数字化研究的重要方式。本文首先介绍了文本知识抽取方法的研究现状,其次就当前明清小说文本知识抽取方法研究中存在的问题进行了探讨。 展开更多
关键词 小说文本 知识抽取 中文分词 命名实体识别
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部