期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于知网的汉语语义实例库的建设与应用
1
作者 苗雪雷 蔡东风 苗洪霞 《沈阳航空工业学院学报》 2007年第1期32-34,共3页
为了解决有指导词义消歧任务中的知识源问题,提出并构建了一个基于知网的汉语词义实例库(CSIC),同时开发了一个语义标注平台(SenseTag)。该平台通过方便快捷的人机交互方式显著提高了实例库的建设效率和质量。利用条件随机场模型,从实... 为了解决有指导词义消歧任务中的知识源问题,提出并构建了一个基于知网的汉语词义实例库(CSIC),同时开发了一个语义标注平台(SenseTag)。该平台通过方便快捷的人机交互方式显著提高了实例库的建设效率和质量。利用条件随机场模型,从实例库中自动学习消歧知识,进行自动标准在随机选取的部分汉语高频多义词的词义消歧开放测试中,取得了平均正确率85%的较好效果。 展开更多
关键词 汉语词义实例库 知网 词义消歧 条件随机场
下载PDF
基于语音的奥运信息智能查询系统
2
作者 苗雪雷 蔡东风 郭家清 《沈阳航空工业学院学报》 2006年第2期36-38,54,共4页
提出了一个基于语音交互的奥运信息查询系统。该系统综合应用语音识别、智能人机交互等先进技术,实现了通过语音对历届奥运会的相关信息的查询。在语音识别和问句理解方面,将统计方法与规则方法相结合,利用领域相关知识和受限语言文法,... 提出了一个基于语音交互的奥运信息查询系统。该系统综合应用语音识别、智能人机交互等先进技术,实现了通过语音对历届奥运会的相关信息的查询。在语音识别和问句理解方面,将统计方法与规则方法相结合,利用领域相关知识和受限语言文法,显著地提高了语音识别和问句理解的正确率。实验结果表明,提出和采用的各种技术方法是有效的。 展开更多
关键词 奥运信息智能查询系统 自然语言理解 语音交互
下载PDF
面向专利文献的中文分词技术的研究 被引量:16
3
作者 张桂平 刘东生 +2 位作者 尹宝生 徐立军 苗雪雷 《中文信息学报》 CSCD 北大核心 2010年第3期112-116,共5页
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局... 针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。 展开更多
关键词 计算机应用 中文信息处理 中文分词 专利文献 上下文信息
下载PDF
基于网络的中文问答系统及信息抽取算法研究 被引量:46
4
作者 崔桓 蔡东风 苗雪雷 《中文信息学报》 CSCD 北大核心 2004年第3期24-31,共8页
问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实... 问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍 ,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法 ,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源 ,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著 ,对测试问题集的MRR值达到 0 5 1。 展开更多
关键词 计算机应用 中文信息处理 问答系统 句子相似度 信息抽取
下载PDF
基于共享最近邻的专利自动分类技术研究 被引量:6
5
作者 季铎 蔡云雷 +1 位作者 蔡东风 苗雪雷 《沈阳航空工业学院学报》 2010年第4期41-46,共6页
专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法... 专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法和样本邻域信息提出一种基于共享最近邻的KNN专利自动分类方法。本方法的有效性在NTCIR-8专利分类评测任务中得到充分验证。 展开更多
关键词 专利分类 BM25 KNN 共享最近邻
下载PDF
大规模无参考译文质量自动评测技术的研究 被引量:3
6
作者 尹宝生 苗雪雷 +2 位作者 季铎 蔡东风 张桂平 《沈阳航空航天大学学报》 2012年第1期70-74,共5页
传统的译文质量自动评测方法主要针对机器自动翻译结果并通过与参考译文的对比实现译文质量的评估。提出一种大规模无参考译文质量自动评测方法,该方法可以在无参考译文的情况下,从正确性、流畅性和忠实度等方面对人工译文进行质量检查... 传统的译文质量自动评测方法主要针对机器自动翻译结果并通过与参考译文的对比实现译文质量的评估。提出一种大规模无参考译文质量自动评测方法,该方法可以在无参考译文的情况下,从正确性、流畅性和忠实度等方面对人工译文进行质量检查并标注可能的错误点,即利用语言规则实现正确性的判断,利用语言模型实现流畅性的判断,利用词对齐结果和词典信息实现忠实度的判断。基于该方法实现的译文质量辅助检查系统在国家知识产权局百万专利翻译项目中的应用效果表明,使用该系统的测试组较未使用该系统的测试组的平均译文质量和终稿完成效率均有明显提升。 展开更多
关键词 译文质量自动评测 语言模型 错误标注
下载PDF
知识聚类技术
7
作者 季铎 苗雪雷 《沈阳航空工业学院学报》 2008年第5期58-62,共5页
随着知识管理的不断深入,知识库所包容的知识内容越来越多,如何建立知识的分类体系,构建合理的知识关联显得尤为重要。知识聚类是一种无指导的自动分类方法,在知识的组织和管理中发挥着重要作用,不仅可以有效地节约知识库优化的人力资源... 随着知识管理的不断深入,知识库所包容的知识内容越来越多,如何建立知识的分类体系,构建合理的知识关联显得尤为重要。知识聚类是一种无指导的自动分类方法,在知识的组织和管理中发挥着重要作用,不仅可以有效地节约知识库优化的人力资源,而且还可以更有效的反映知识间的本质联系。为此主要探讨了知识聚类的基本过程,包括知识特征的选取、相似度的计算和聚类算法,最后介绍了作者的一些相关工作。 展开更多
关键词 知识管理 知识聚类 知识库
下载PDF
基于条件随机场的冠词选择研究 被引量:1
8
作者 宁伟 蔡东风 +2 位作者 张桂平 季铎 苗雪雷 《中文信息学报》 CSCD 北大核心 2008年第6期116-122,共7页
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于... 冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。 展开更多
关键词 人工智能 机器翻译 冠词选择 条件随机场 序列标注 互信息
下载PDF
英汉专利语料中长句的分割 被引量:2
9
作者 张西龙 季铎 +1 位作者 王岩 苗雪雷 《沈阳航空航天大学学报》 2011年第5期67-70,共4页
平行语是基于语料机器翻译方法的重要资源。专利语料中存在大量长句,这给机器翻译系统学习翻译模型带来了复杂性。因此,对专利语料中长句的分割将是十分有必要的。提出了一种基于统计词对齐的专利语料中长句分割方法,将标点的对应位置... 平行语是基于语料机器翻译方法的重要资源。专利语料中存在大量长句,这给机器翻译系统学习翻译模型带来了复杂性。因此,对专利语料中长句的分割将是十分有必要的。提出了一种基于统计词对齐的专利语料中长句分割方法,将标点的对应位置作为候选分割位置有效的保留了句子的句法结构,并且使用改进后的IBM翻译模型1对分割片段进行评分,进一步保证了长句分割的正确性。翻译实验证明该方法有效地提高了翻译系统的质量。 展开更多
关键词 句子分割 专利语料 统计对齐 翻译模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部