-
题名基于知网的汉语语义实例库的建设与应用
- 1
-
-
作者
苗雪雷
蔡东风
苗洪霞
-
机构
沈阳航空工业学院自然语言处理研究室
-
出处
《沈阳航空工业学院学报》
2007年第1期32-34,共3页
-
文摘
为了解决有指导词义消歧任务中的知识源问题,提出并构建了一个基于知网的汉语词义实例库(CSIC),同时开发了一个语义标注平台(SenseTag)。该平台通过方便快捷的人机交互方式显著提高了实例库的建设效率和质量。利用条件随机场模型,从实例库中自动学习消歧知识,进行自动标准在随机选取的部分汉语高频多义词的词义消歧开放测试中,取得了平均正确率85%的较好效果。
-
关键词
汉语词义实例库
知网
词义消歧
条件随机场
-
Keywords
Chinese sense instance corpus
HowNet
word sense disambiguation
conditional random fields
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语音的奥运信息智能查询系统
- 2
-
-
作者
苗雪雷
蔡东风
郭家清
-
机构
沈阳航空工业学院自然语言处理研究室
-
出处
《沈阳航空工业学院学报》
2006年第2期36-38,54,共4页
-
文摘
提出了一个基于语音交互的奥运信息查询系统。该系统综合应用语音识别、智能人机交互等先进技术,实现了通过语音对历届奥运会的相关信息的查询。在语音识别和问句理解方面,将统计方法与规则方法相结合,利用领域相关知识和受限语言文法,显著地提高了语音识别和问句理解的正确率。实验结果表明,提出和采用的各种技术方法是有效的。
-
关键词
奥运信息智能查询系统
自然语言理解
语音交互
-
Keywords
Intelligent Inquiry System for Olympic Information, speech recognition, natural language understanding, speech interaction
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向专利文献的中文分词技术的研究
被引量:16
- 3
-
-
作者
张桂平
刘东生
尹宝生
徐立军
苗雪雷
-
机构
沈阳航空工业学院知识工程中心
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期112-116,共5页
-
基金
国家自然科学基金资助项目(60842005)
辽宁省教育厅科技研究资助项目(2007T139)
-
文摘
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。
-
关键词
计算机应用
中文信息处理
中文分词
专利文献
上下文信息
-
Keywords
computer application
Chinese information processing
Chinese word segmentation
patent document
context information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络的中文问答系统及信息抽取算法研究
被引量:46
- 4
-
-
作者
崔桓
蔡东风
苗雪雷
-
机构
沈阳航空工业学院自然语言处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2004年第3期24-31,共8页
-
文摘
问答系统 (QuestionAnsweringSystem)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库 ,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源 ,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍 ,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法 ,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源 ,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著 ,对测试问题集的MRR值达到 0 5 1。
-
关键词
计算机应用
中文信息处理
问答系统
句子相似度
信息抽取
-
Keywords
computer application
Chinese information processing
question answering system
sentence similarity
information extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于共享最近邻的专利自动分类技术研究
被引量:6
- 5
-
-
作者
季铎
蔡云雷
蔡东风
苗雪雷
-
机构
沈阳航空航天大学知识工程研究中心
-
出处
《沈阳航空工业学院学报》
2010年第4期41-46,共6页
-
文摘
专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的归纳和分析,融合BM25相似度计算方法和样本邻域信息提出一种基于共享最近邻的KNN专利自动分类方法。本方法的有效性在NTCIR-8专利分类评测任务中得到充分验证。
-
关键词
专利分类
BM25
KNN
共享最近邻
-
Keywords
patent classification
BM25
KNN
SNN
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名大规模无参考译文质量自动评测技术的研究
被引量:3
- 6
-
-
作者
尹宝生
苗雪雷
季铎
蔡东风
张桂平
-
机构
沈阳航空航天大学人机智能研究中心
-
出处
《沈阳航空航天大学学报》
2012年第1期70-74,共5页
-
基金
辽宁省教育厅创新团队项目(项目编号:2008T153)
-
文摘
传统的译文质量自动评测方法主要针对机器自动翻译结果并通过与参考译文的对比实现译文质量的评估。提出一种大规模无参考译文质量自动评测方法,该方法可以在无参考译文的情况下,从正确性、流畅性和忠实度等方面对人工译文进行质量检查并标注可能的错误点,即利用语言规则实现正确性的判断,利用语言模型实现流畅性的判断,利用词对齐结果和词典信息实现忠实度的判断。基于该方法实现的译文质量辅助检查系统在国家知识产权局百万专利翻译项目中的应用效果表明,使用该系统的测试组较未使用该系统的测试组的平均译文质量和终稿完成效率均有明显提升。
-
关键词
译文质量自动评测
语言模型
错误标注
-
Keywords
automatic translation quality evaluation
language model
error identification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名知识聚类技术
- 7
-
-
作者
季铎
苗雪雷
-
机构
沈阳航空工业学院知识工程中心
-
出处
《沈阳航空工业学院学报》
2008年第5期58-62,共5页
-
文摘
随着知识管理的不断深入,知识库所包容的知识内容越来越多,如何建立知识的分类体系,构建合理的知识关联显得尤为重要。知识聚类是一种无指导的自动分类方法,在知识的组织和管理中发挥着重要作用,不仅可以有效地节约知识库优化的人力资源,而且还可以更有效的反映知识间的本质联系。为此主要探讨了知识聚类的基本过程,包括知识特征的选取、相似度的计算和聚类算法,最后介绍了作者的一些相关工作。
-
关键词
知识管理
知识聚类
知识库
-
Keywords
knowledge management
knowledge clustering
knowledge base
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于条件随机场的冠词选择研究
被引量:1
- 8
-
-
作者
宁伟
蔡东风
张桂平
季铎
苗雪雷
-
机构
沈阳航空工业学院知识工程中心
-
出处
《中文信息学报》
CSCD
北大核心
2008年第6期116-122,共7页
-
基金
国家863计划资助项目(2006AA01Z148)
沈阳市人才资金资助项目(07syrc02)
-
文摘
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。针对传统的基于规则和机器学习的方法,只考虑名词短语前冠词选择的问题,该文将冠词看作一种标记,将该问题形式化地描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91 106个冠词的专利摘要做测试语料,F值达到80%。
-
关键词
人工智能
机器翻译
冠词选择
条件随机场
序列标注
互信息
-
Keywords
artificial intelligence
machine translation
article choice
conditional random fields
sequence labeling
mutual information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名英汉专利语料中长句的分割
被引量:2
- 9
-
-
作者
张西龙
季铎
王岩
苗雪雷
-
机构
沈阳航空航天大学知识工程中心
-
出处
《沈阳航空航天大学学报》
2011年第5期67-70,共4页
-
文摘
平行语是基于语料机器翻译方法的重要资源。专利语料中存在大量长句,这给机器翻译系统学习翻译模型带来了复杂性。因此,对专利语料中长句的分割将是十分有必要的。提出了一种基于统计词对齐的专利语料中长句分割方法,将标点的对应位置作为候选分割位置有效的保留了句子的句法结构,并且使用改进后的IBM翻译模型1对分割片段进行评分,进一步保证了长句分割的正确性。翻译实验证明该方法有效地提高了翻译系统的质量。
-
关键词
句子分割
专利语料
统计对齐
翻译模型
-
Keywords
sentence segmentation
patent corpus
statistical alignment
translation model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-