期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Research on Retrieval Technique of Electronic Thesaurus
1
作者 HU QI HE HUANCAN 《微计算机信息》 北大核心 2007年第33期215-216,171,共3页
Thesaurus retrieval is fundamental in Chinese information processing.After a brief review of the current technique,this pa-per made a deep analysis to the design of Chinese thesaurus Hash function based on chain addre... Thesaurus retrieval is fundamental in Chinese information processing.After a brief review of the current technique,this pa-per made a deep analysis to the design of Chinese thesaurus Hash function based on chain address conflict dissolving method,and several criteria,as well as the theoretic expectation of these criteria,were proposed to evaluate different Hash functions.According these values,some experimental Hash functions were proposed which had high efficiency in our test. 展开更多
关键词 中文信息处理 电子词表 哈希函数 泊松分布
下载PDF
综合型语言知识库的建设与利用 被引量:29
2
作者 俞士汶 段慧明 +1 位作者 朱学锋 张化瑞 《中文信息学报》 CSCD 北大核心 2004年第5期1-10,共10页
语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词... 语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的。 展开更多
关键词 计算机应用 中文信息处理 语言处理 语言知识库 语言数据资源 电子词典 语料库
下载PDF
词表的自动丰富——从元数据中提取关键词及其定位 被引量:40
3
作者 王军 《中文信息学报》 CSCD 北大核心 2005年第6期36-43,共8页
词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据... 词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。 展开更多
关键词 计算机应用 中文信息处理 词表 元数据 关键词提取
下载PDF
《元朝秘史》电子文本检索系统的研制 被引量:3
4
作者 江荻 严海林 +2 位作者 孙伯君 斯钦朝克图 孟达来 《中文信息学报》 CSCD 北大核心 2006年第3期36-42,共7页
本文概要地介绍了13世纪《元朝秘史》的文献背景及原文所独有的复杂文本形式,通过对文本的内涵分析和版面分析,设计了关于《元朝秘史》电子检索系统的研制方案。其中主要解决了原文三行一体显示格式的还原问题,而且系统可以分别对原文... 本文概要地介绍了13世纪《元朝秘史》的文献背景及原文所独有的复杂文本形式,通过对文本的内涵分析和版面分析,设计了关于《元朝秘史》电子检索系统的研制方案。其中主要解决了原文三行一体显示格式的还原问题,而且系统可以分别对原文汉字音写、汉语译文、汉字旁译、语音语法标注等不同部分进行检索和统计。检索输出结果包括研究者最重视的传统学术章节号、卷页码、在电子文本出现的具体位置。另外,系统对检索词采用了上下文检索技术,输出文本包括检索词的部分上下文内容。本系统基本满足历史、文学和语言研究的应用需求。 展开更多
关键词 计算机应用 中文信息处理 元朝秘史 复杂文本 电子检索系统
下载PDF
中文词表检索技术研究 被引量:2
5
作者 胡麒 何华灿 《微计算机信息》 北大核心 2007年第33期212-214,共3页
词表检索技术是中文信息处理中的基础性工作,本文在分析现有技术优缺点的基础上,对基于链地址法的中文词表哈希函数的设计作了深入分析,提出了评价不同的哈希函数的性能指标,并给出了这些性能指标在理论上的期望值。以这些性能指标为根... 词表检索技术是中文信息处理中的基础性工作,本文在分析现有技术优缺点的基础上,对基于链地址法的中文词表哈希函数的设计作了深入分析,提出了评价不同的哈希函数的性能指标,并给出了这些性能指标在理论上的期望值。以这些性能指标为根据,本文给出了一些具体的中文词表哈希函数。实践表明,这些函数有较高的效率。 展开更多
关键词 中文信息处理 电子词表 哈希函数 泊松分布
下载PDF
蒙古语语言-文字的自动化处理 被引量:6
6
作者 伊.达瓦 张玉洁 +4 位作者 上园一知 大川茂树 章森 井佐原均 白井克彦 《中文信息学报》 CSCD 北大核心 2006年第4期56-62,93,共8页
本文首先叙述了蒙文电子化的意义以及蒙文电子化数据的现状。然后重点讨论了在不同地区和国家使用的蒙文书面语以及口语的不同和蒙文在计算机处理时所面临的问题。最后,介绍了我们在日本建设的针对蒙古语语言信息处理的两种语言资源:蒙... 本文首先叙述了蒙文电子化的意义以及蒙文电子化数据的现状。然后重点讨论了在不同地区和国家使用的蒙文书面语以及口语的不同和蒙文在计算机处理时所面临的问题。最后,介绍了我们在日本建设的针对蒙古语语言信息处理的两种语言资源:蒙古语多方言口语语料库和蒙文多文种-多语言并行语法标注电子词典,后者得到了2005年中日蒙韩国际合作课题“蒙文自然语言处理技术的研究”的资助。 展开更多
关键词 计算机应用 中文信息处理 蒙文语言文字信息处理 文本-口语语料库 多文种-多语言电子词典
下载PDF
中文电子病历命名实体识别的研究与进展 被引量:15
7
作者 杜晋华 尹浩 冯嵩 《电子学报》 EI CAS CSCD 北大核心 2022年第12期3030-3053,共24页
海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition... 海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition,NER)成为对电子病历进行自动化信息抽取的核心技术,但鉴于中文电子病历(Chinese Electronic Medical Record,CEMR)具有包括病历文本的非规范性与专业性、医疗实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战.本文对中文电子病历命名实体识别的研究与进展进行了综述,系统梳理了命名实体识别的概念、相关理论模型以及制约中文电子病历命名实体识别准确率和识别效率的主要原因;从技术发展角度详细分析了中文电子病历命名实体识别方法的变革历程;并对中文电子病历命名实体识别效果做了实验验证与深入分析,指出了现有模型的不足与改进方向.鉴于国内近年来与中文信息学处理相关的测评会议CCKS持续关注中文电子病历命名实体识别,本文特别对CCKS在该领域五年来的全部代表性测评论文做了纵横对比分析,并通过在主流模型上的深入实验与研究,为后续该领域的继续推进寻求了思路. 展开更多
关键词 中文电子病历 命名实体识别 深度学习 预训练模型 自然语言处理 医疗信息化
下载PDF
藏文政府办公系统的研究与实现 被引量:1
8
作者 陈明平 林振天 常福良 《信息技术与标准化》 2007年第8期55-59,共5页
介绍了"藏文政府办公系统研发"项目的研制情况,以及系统的目标定位、体系结构、功能特点、技术路线和藏文化关键技术实现原理等内容。
关键词 电子政务 办公自动化 中文信息处理 藏文字符集 藏文信息处理
下载PDF
结合依存关联分析和规则统计分析的情感词库构建方法 被引量:3
9
作者 李勇敢 周学广 +1 位作者 孙艳 张焕国 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2013年第5期491-498,共8页
为了夯实自媒体时代的信息内容安全基础,本文把依存分析方法和传统的规则统计方法结合起来,构建了一个新型情感词库———钮库,与国内同行的情感新词识别公开评测结果比较,使用钮库辅助的本文方法表现优良,主要技术指标:微平均的准确率... 为了夯实自媒体时代的信息内容安全基础,本文把依存分析方法和传统的规则统计方法结合起来,构建了一个新型情感词库———钮库,与国内同行的情感新词识别公开评测结果比较,使用钮库辅助的本文方法表现优良,主要技术指标:微平均的准确率、召回率和F值,都在作者原有方法基础上提高了44%以上. 展开更多
关键词 中文信息处理 信息内容安全 依存分析 钮库 新词识别方法
原文传递
《中国分类主题词表》的自动扩充研究——从元数据中提取关键词并定位 被引量:3
10
作者 吕美香 《情报科学》 CSSCI 北大核心 2012年第8期1160-1166,共7页
词表是图书馆和信息检索领域最重要的知识组织工具,《中国分类主题词表》是传统词表的一种,它的更新和维护一直依靠手工进行,这制约了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并... 词表是图书馆和信息检索领域最重要的知识组织工具,《中国分类主题词表》是传统词表的一种,它的更新和维护一直依靠手工进行,这制约了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。大致包括三个步骤:从标题中提取关键词;确定抽取出的关键词的专指度;将专指度高的专业词汇定位在词表中。在《中国分类主题词表》和上海图书馆提供的计算机科技领域的元数据上所进行实验,结果证明该方法是可行的。这一方法可以应用到自动标引或编目中,有一定的实用性和广阔的应用前景。 展开更多
关键词 中国分类主题词表 元数据 关键词提取 中文信息处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部