期刊文献+
共找到110篇文章
< 1 2 6 >
每页显示 20 50 100
Design and Implementation of a New Chinese Word Segmentation Dictionary for the Personalized Mobile Search
1
作者 Zhongmin Wang Jingna Qi Yan He 《Communications and Network》 2013年第1期81-85,共5页
Chinese word segmentation is the basis of natural language processing. The dictionary mechanism significantly influences the efficiency of word segmentation and the understanding of the user’s intention which is impl... Chinese word segmentation is the basis of natural language processing. The dictionary mechanism significantly influences the efficiency of word segmentation and the understanding of the user’s intention which is implied in the user’s query. As the traditional dictionary mechanisms can't meet the present situation of personalized mobile search, this paper presents a new dictionary mechanism which contains the word classification information. This paper, furthermore, puts forward an approach for improving the traditional word bank structure, and proposes an improved FMM segmentation algorithm. The results show that the new dictionary mechanism has made a significant increase on the query efficiency and met the user’s individual requirements better. 展开更多
关键词 chinese WORD Segmentation DICTIONARY Mechanism Natural language processing PERSONALIZED SEARCH WORD Classification Information
下载PDF
Standardization of Robot Instruction Elements Based on Conditional Random Fields and Word Embeddin
2
作者 Hengsheng Wang Zhengang Zhang +1 位作者 Jin Ren Tong Liu 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2019年第5期32-40,共9页
Natural language processing has got great progress recently. Controlling robots with spoken natural language has become expectable. With the reliability problem of this kind of control in mind a confirmation process o... Natural language processing has got great progress recently. Controlling robots with spoken natural language has become expectable. With the reliability problem of this kind of control in mind a confirmation process of natural language instruction should be included before carried out by the robot autonomously and the prototype dialog system was designed thus the standardization problem was raised for the natural and understandable language interaction. In the application background of remotely navigating a mobile robot inside a building with Chinese natural spoken language considering that as an important navigation element in instructions a place name can be expressed with different lexical terms in spoken language this paper proposes a model for substituting different alternatives of a place name with a standard one (called standardization). First a CRF (Conditional Random Fields) model is trained to label the term required be standardized then a trained word embedding model is to represent lexical terms as digital vectors. In the vector space similarity of lexical terms is defined and used to find out the most similar one to the term picked out to be standardized. Experiments show that the method proposed works well and the dialog system responses to confirm the instructions are natural and understandable. 展开更多
关键词 WORD embedding Conditional Random Fields ( CRFs ) STANDARDIZATION interaction chinese NATURAL Spoken language (CNSL) NATURAL language processing (NLP) human-robot
下载PDF
基于深度学习的中文命名实体识别技术研究
3
作者 武文静 岳杰 +1 位作者 王佳丽 刘枫 《河北建筑工程学院学报》 CAS 2024年第3期210-215,共6页
命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相... 命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相关的公开数据集对文本数据特征提取、识别实体之外还融合了人工标注的地名和组织机构实体的额外数据集来增强模型的词义理解准确度。实验结果表明,模型的实体识别能力有所提高。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 中文分词
下载PDF
基于自然语言处理的学生评教情绪分析
4
作者 高云 刘寰 +1 位作者 周建慧 郭艳萍 《山西大同大学学报(自然科学版)》 2024年第5期49-55,共7页
对学生评教信息中蕴含的情绪分析对于课堂教学的改进起着至关重要的作用,使用了“中文分词+token+LSTM模型”的自然语言处理方式对学生评教信息进行了情绪分析.设置词表和停用词,对数据集进行中文分词.将得到的中文分词列表训练得出数... 对学生评教信息中蕴含的情绪分析对于课堂教学的改进起着至关重要的作用,使用了“中文分词+token+LSTM模型”的自然语言处理方式对学生评教信息进行了情绪分析.设置词表和停用词,对数据集进行中文分词.将得到的中文分词列表训练得出数字字典,将分词列表转换成数字列表,最后将数字列表转成空间向量形成数据集.建立LSTM模型,使用建立好的训练集进行训练,对训练后的模型进行评估,评估结果证明该模型是可靠的,对选取的典型的和复杂的数据进行预测,得出情绪分析结果.实验证明,该模式对于典型和复杂评教信息的分析结果均是正确的。 展开更多
关键词 自然语言处理 评教信息 情绪分析 中文分词 LSTM模型
下载PDF
面向Internet的中文新词语检测 被引量:59
5
作者 邹纲 刘洋 +4 位作者 刘群 孟遥 于浩 西野文人 亢世勇 《中文信息学报》 CSCD 北大核心 2004年第6期1-9,共9页
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ... 随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。 展开更多
关键词 计算机应用 中文信息处理 新词语 自动检测
下载PDF
利用上下文信息解决汉语自动分词中的组合型歧义 被引量:24
6
作者 肖云 孙茂松 邹嘉彦 《计算机工程与应用》 CSCD 北大核心 2001年第19期87-89,106,共4页
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分... 组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。 展开更多
关键词 自然语言处理 中文计算 汉语自动分词 组合型歧义切分字段 中文信息处理
下载PDF
基于两字词簇的汉语快速自动分词算法 被引量:18
7
作者 郭祥昊 钟义信 杨丽 《情报学报》 CSSCI 北大核心 1998年第5期352-357,共6页
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提... 本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快。 展开更多
关键词 自然语言处理 汉语 分词算法 自分分词 两字词族
下载PDF
现代汉语虚词知识库的研究 被引量:27
8
作者 昝红英 张坤丽 +1 位作者 柴玉梅 俞士汶 《中文信息学报》 CSCD 北大核心 2007年第5期107-111,共5页
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚... 现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。 展开更多
关键词 计算机应用 中文信息处理 虚词 语言知识库 用法属性 规则库
下载PDF
中国手语信息处理述评 被引量:7
9
作者 姚登峰 江铭虎 +3 位作者 阿布都克力木.阿布力孜 李晗静 哈里旦木.阿布都克里木 夏娣娜 《中文信息学报》 CSCD 北大核心 2015年第5期216-227,共12页
为了能够有效地对中国手语进行信息处理,需要针对中国手语的特性提出相应的信息处理方案。该文根据国内外的研究进展情况,从基于规则和基于语料库的角度,讨论了中国手语信息处理过程中遇到的有关问题,并提出可借鉴的中国手语信息处理技... 为了能够有效地对中国手语进行信息处理,需要针对中国手语的特性提出相应的信息处理方案。该文根据国内外的研究进展情况,从基于规则和基于语料库的角度,讨论了中国手语信息处理过程中遇到的有关问题,并提出可借鉴的中国手语信息处理技术,同时从中国手语自身的词法、句法出发,参考国外手语语言学的最新研究成果,讨论了中国手语信息处理中有关信息表征、理解、生成等问题。最后指出未来手语的信息处理将会更多地建立在跨学科、多模式的基础之上,该项研究将有力地促进信息无障碍技术的发展。 展开更多
关键词 中国手语 信息处理 书写系统
下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:6
10
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 曲维光 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
下载PDF
一种基于信息熵的中文高频词抽取算法 被引量:22
11
作者 任禾 曾隽芳 《中文信息学报》 CSCD 北大核心 2006年第5期40-43,90,共5页
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分... 为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。 展开更多
关键词 人工智能 自然语言处理 分词 中文抽词 信息熵 高频词
下载PDF
基于门循环单元神经网络的中文分词法 被引量:22
12
作者 李雪莲 段鸿 许牧 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期237-243,共7页
目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任... 目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升. 展开更多
关键词 自然语言处理 中文分词 门循环单元 字嵌入 循环神经网络
下载PDF
编码方式与指拼特征在聋生手语词加工中的作用研究 被引量:3
13
作者 贾玲 雷江华 +2 位作者 宫慧娜 张奋 陈影 《心理科学》 CSSCI CSCD 北大核心 2018年第5期1077-1083,共7页
实验1采用指拼类手语词和手势类手语词考察了指拼有、无对手语词编码方式的影响。实验2以不同特征的指拼类手语词为实验材料,深入考察指拼位置、指拼形式对手语词编码方式的影响。研究发现聋生较语音编码更擅长使用指拼编码加工手语词;... 实验1采用指拼类手语词和手势类手语词考察了指拼有、无对手语词编码方式的影响。实验2以不同特征的指拼类手语词为实验材料,深入考察指拼位置、指拼形式对手语词编码方式的影响。研究发现聋生较语音编码更擅长使用指拼编码加工手语词;指拼与手势的加工存在显著差异,指拼在聋生手语词加工中起到了促进作用;指拼位置与指拼形式共同作用于手语词的加工过程。这表明指拼影响手语词的加工,其作用程度与指拼特征相关。 展开更多
关键词 聋生 手语词加工 编码方式 指拼特征
下载PDF
盲人用计算机软件系统中的语音和自然语言处理技术 被引量:9
14
作者 庄丽 包塔 朱小燕 《中文信息学报》 CSCD 北大核心 2004年第4期72-78,共7页
本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息 ,通过语音合成平台将其内容朗读出来 ,对用户进行语音提示 ;与汉语自动分词、语言... 本文介绍了智能技术与系统国家重点实验室开发的“北极光”盲人用计算机软件系统中涉及的语音和语言处理技术。该系统能够获取和分析需要反馈的屏幕信息 ,通过语音合成平台将其内容朗读出来 ,对用户进行语音提示 ;与汉语自动分词、语言模型等自然语言处理技术的结合 ,使系统能够进行汉字和盲文的转换 ,反馈信息可以通过盲文点显器输出 ,使用户能够摸读盲文点字来获取所需要的信息 ,用户也可以采用盲文输入法进行输入 。 展开更多
关键词 计算机应用 中文信息处理 语音合成 文本分析 汉语自动分词 语言模型
下载PDF
语言符号的象似性对手语具体名词语义加工的影响 被引量:9
15
作者 张积家 陈磊 陈穗清 《语言文字应用》 CSSCI 北大核心 2013年第1期89-98,共10页
本文采用手语词—图片确认任务,通过2个实验,考察象似性在手语词语义加工中的作用。实验1以聋生为被试,发现在手语词语义加工中存在象似性效应和熟悉性效应。实验2以聋生和健听口语—手语学生为被试,进一步证实在手语词语义加工中存在... 本文采用手语词—图片确认任务,通过2个实验,考察象似性在手语词语义加工中的作用。实验1以聋生为被试,发现在手语词语义加工中存在象似性效应和熟悉性效应。实验2以聋生和健听口语—手语学生为被试,进一步证实在手语词语义加工中存在象似性效应,聋生的象似性效应大于健听口语—手语双语学生。整个研究表明,象似性在手语词语义加工中具有重要作用。 展开更多
关键词 聋生 手语词的象似性 语义加工
下载PDF
基于词典信息的先秦汉语全文词义标注方法研究 被引量:5
16
作者 张颖杰 李斌 +1 位作者 陈家骏 陈小荷 《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的... 词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。 展开更多
关键词 词义消歧 义项标注 古汉语 自然语言处理
下载PDF
基于k-近似的汉语词类自动判定 被引量:9
17
作者 孙茂松 左正平 邹嘉彦 《计算机学报》 EI CSCD 北大核心 2000年第2期166-170,共5页
生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字... 生词处理在面向大规模真实文本的自然语言处理各项应用中占有重要位置 .词类自动判定就是对词类未知的生词由机器自动赋予一个合适的词类标记 .文中提出了一种基于 k-近似的词类自动判定算法 ,并在一个 1亿字汉语语料库及一个 6 0万字经过人工分词和词类标注的汉语熟语料库的支持下 ,构造了相应实验 .实验结果初步显示 ,本算法对汉语开放词类——名词、动词、形容词的词类自动判定平均正确率分别为 99.2 1%、84.73%、70 .6 7% 。 展开更多
关键词 词类自动判定 生词处理 自然语言处理 汉语
下载PDF
几何命题处理中的中文分词技术 被引量:4
18
作者 佘莉 符红光 方海光 《计算机工程》 EI CAS CSCD 北大核心 2005年第18期180-182,共3页
如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点。而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作。该文通过对几何范围内的受限语言的研... 如何将自然语言表述的初等几何命题自动转化为计算机可理解的作图语言是自然语言处理中的空白,也是实现教育软件人机交互的难点。而中文分词是自然语言处理的第1步,分词结果直接影响后期的处理工作。该文通过对几何范围内的受限语言的研究,建立了有效可行的语言理解模型,完成了词素的切分和词性标注,并在程序上得以实现。 展开更多
关键词 自然语言处理 初等几何命题 词典 中文分词
下载PDF
自动分词技术及其在信息检索中应用的研究 被引量:24
19
作者 黄崑 符绍宏 《现代图书情报技术》 CSSCI 北大核心 2001年第3期26-29,共4页
首先分析了自动分词与自然语言处理、自动分词与信息检索之间的关系 ,在此基础上 ,介绍了近年来自动分词系统实现的技术原理 。
关键词 中文自动分词 自然语言处理 信息检索 自然语言检索 人工智能
下载PDF
HMM模型和句法分析相结合的事件属性信息抽取 被引量:10
20
作者 吴家皋 周凡坤 张雪英 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期30-34,共5页
自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相... 自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率. 展开更多
关键词 自然语言处理 中文文本信息抽取 隐马尔科夫模型 句法分析 触发词
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部