期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
27
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
生物特征识别技术综述
被引量:
45
1
作者
郑方
艾斯卡尔.肉孜
+1 位作者
王仁宇
李蓝天
《信息安全研究》
2016年第1期12-26,共15页
基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术.为此,介绍了生物特征识别技术的基本原理、性能指标、关键技术、研究现状和技术应用等.全面调研了指纹、掌纹、虹膜、人脸、指...
基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术.为此,介绍了生物特征识别技术的基本原理、性能指标、关键技术、研究现状和技术应用等.全面调研了指纹、掌纹、虹膜、人脸、指静脉、声纹等不同的生物特征识别技术的研究现状,比较了各种生物特征识别技术在错误率、稳定性、实用性、处理速度和仿冒程度等方面的差异.此外,针对辨认和确认2种场景分别介绍了它们在各方面的应用情况,分析讨论了生物特征融合技术、生物特征安全性问题,介绍了该领域现有的行业和国家标准.最后对生物特征识别技术的发展前景给予展望.
展开更多
关键词
生物特征识别
身份认证
指纹
声纹
人脸
掌纹
虹膜
指静脉
下载PDF
职称材料
声纹识别技术及其应用现状
被引量:
48
2
作者
郑方
李蓝天
+1 位作者
张慧
艾斯卡尔.肉孜
《信息安全研究》
2016年第1期44-57,共14页
随着信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题.与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、...
随着信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题.与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、可靠.声纹识别作为当前最热门的生物特征识别技术之一,在远程认证等应用领域中具有独特优势,受到了越来越多的关注.以声纹识别技术及其应用现状为主线,将依次介绍声纹识别的基本概念、发展历程、应用现状及其行业标准化现状;综述声纹识别所面临的各类问题及其解决方案;最后对声纹识别技术以及应用的发展前景进行展望.
展开更多
关键词
生物特征识别
身份认证
声纹识别
发展历程
技术应用
下载PDF
职称材料
从认知假设到计算分析和程序实现——一种认知语言学研究的计算范式与技术路线
被引量:
5
3
作者
袁毓林
陈振宇
+3 位作者
张秀松
李湘
周强
高嵩
《当代语言学》
CSSCI
北大核心
2010年第2期97-114,共18页
本文展示一种认知语言学研究的计算范式与技术路线:首先基于语言使用是一种以知识为基础的认知过程的假设,以计算机模拟人类理解自然语言的意义为技术背景,用情境网络对特定领域的有关语言表达及其意义进行认知建模;再用逻辑表达式刻画...
本文展示一种认知语言学研究的计算范式与技术路线:首先基于语言使用是一种以知识为基础的认知过程的假设,以计算机模拟人类理解自然语言的意义为技术背景,用情境网络对特定领域的有关语言表达及其意义进行认知建模;再用逻辑表达式刻画关键性的情境要素之间的语义关系,并用语义公理来表示有关逻辑表达式之间的推导关系,从而形成概念层面的知识推理和语义计算的知识单元;然后,为有关语言现象建立词汇句法知识库,从词汇、语义和句法分布等方面对跟有关情境相对应的词汇和句式进行详细的描写,并且在情境网络、词汇—句法知识库和真实文本中的有关描述实例之间建立双向联系;最后,形成完整的词汇语义计算的知识平台,再应用到有关的自然语言处理系统中。文章还通过"领属转移"这个实例,对情境网络和词汇句法知识库的开发过程进行简要的说明;通过"亲属关系的自动推理"这个专家系统的研究和开发过程,对认知模型和情境网络、逻辑表示和语义公理、词汇—语义—句法知识库的建立、乃至算法设计和程序实现的全过程进行例示。
展开更多
关键词
认知(假设)
计算(分析)
情境(网络)
程序实现
原文传递
基于无线传输的语音采集系统设计
被引量:
4
4
作者
张国先
刘润生
张春
《电声技术》
2009年第11期29-33,共5页
利用低功耗ARM处理器LPC2368,USB2.0控制器CY7C68013和2.4GHz无线传输芯片NRF24L01开发了一种新的基于嵌入式技术和无线传输技术的语音信号采集系统。实现了语音数据的采集,无线传输,存储和USB2.0回传等功能。讨论了2.4GHz无线通信和USB...
利用低功耗ARM处理器LPC2368,USB2.0控制器CY7C68013和2.4GHz无线传输芯片NRF24L01开发了一种新的基于嵌入式技术和无线传输技术的语音信号采集系统。实现了语音数据的采集,无线传输,存储和USB2.0回传等功能。讨论了2.4GHz无线通信和USB2.0数据通信两个关键技术。本系统具有体积小、功耗低、扩展灵活、安全可靠性好的特点。
展开更多
关键词
语音采集
无线传输
USB2.0
下载PDF
职称材料
言语信息处理的进展
被引量:
3
5
作者
蔡莲红
贾珈
郑方
《中文信息学报》
CSCD
北大核心
2011年第6期137-141,共5页
该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人...
该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。
展开更多
关键词
言语识别
说话人识别
言语合成
言语知觉计算
下载PDF
职称材料
低功耗微型三传声器阵列语音采集系统设计
被引量:
2
6
作者
张国先
梁维谦
+1 位作者
袁坤
张春
《电声技术》
2009年第2期21-25,共5页
基于低功耗单片机MSP430F427和USB2.0控制器CY7C68013,开发了一种面向三传声器阵列的语音数据采集系统。讨论了如何实现3路语音数据的同步采集、存储,以及USB2.0数据回传及后处理等问题。本系统具有体积小、功耗低、可扩展性好的特点。
关键词
传声器阵列
低功耗
USB2.0
下载PDF
职称材料
汉语日常会话的对话行为分析标注研究
被引量:
4
7
作者
周强
《中文信息学报》
CSCD
北大核心
2017年第6期75-82,共8页
对话行为分析是进行更深入的对话理解模型探索的合适切入点。该文综合前人研究成果,设计了一套针对汉语日常会话的对话行为标注体系。引入主客观阐述和正反向反应子类,加强对话行为依存对和连贯修辞对的结构描述,同时引入话题线索分析机...
对话行为分析是进行更深入的对话理解模型探索的合适切入点。该文综合前人研究成果,设计了一套针对汉语日常会话的对话行为标注体系。引入主客观阐述和正反向反应子类,加强对话行为依存对和连贯修辞对的结构描述,同时引入话题线索分析机制,有效组织会话中的话题变化趋势。基于500个日常会话片段进行的对话行为标注实验中显示出了90%左右的双人独立标注宏一致率,表明目前的对话行为标记集设计具有良好的可操作性,可以适应汉语日常会话的行为功能模式描述需求。
展开更多
关键词
会话分析
对话行为标注
话题线索
下载PDF
职称材料
汉语谓词组合范畴语法词库的自动构建研究
被引量:
3
8
作者
周强
《中文信息学报》
CSCD
北大核心
2016年第3期196-203,共8页
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)...
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
展开更多
关键词
组合范畴语法
汉语谓词词库
多资源融合
下载PDF
职称材料
异源语料融合研究
9
作者
吕学强
仵永栩
+1 位作者
周强
刘殷
《中文信息学报》
CSCD
北大核心
2016年第5期160-168,共9页
语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层...
语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。
展开更多
关键词
语料建设
语料融合
词类映射
词性消歧
下载PDF
职称材料
汉语语篇的连贯性标注困难度分析研究
被引量:
3
10
作者
魏天珂
吕学强
周强
《计算机应用研究》
CSCD
北大核心
2018年第10期2969-2974,共6页
在人工标注语篇句子连贯性时,句群的划分成为最大的难点,句群内部句间关系的复杂性也增加了篇章标注的困难度。为了识别语篇标注的困难度,从多角度总结了句群边界以及类别的分布特点,分析了句群内部句间的各种连接关系,提出了一种基于...
在人工标注语篇句子连贯性时,句群的划分成为最大的难点,句群内部句间关系的复杂性也增加了篇章标注的困难度。为了识别语篇标注的困难度,从多角度总结了句群边界以及类别的分布特点,分析了句群内部句间的各种连接关系,提出了一种基于人工标注的语篇困难度识别模型,并利用双人标注信息的差异性来验证语篇困难度识别方法的有效性与准确性。数据表明,该模型可以较好地区分不同体裁新闻类语篇的标注难度,为相关语篇内容的分析理解打下了良好的基础。
展开更多
关键词
句群识别
语篇连贯性
语篇标注困难度
下载PDF
职称材料
基于最大团的防骗贷算法研究
11
作者
梁宏宇
李通旭
《信息安全研究》
2017年第11期1017-1019,共3页
银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户...
银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户的电话录音中提取用户的声纹特征,建立用户的声纹模型库,发现具有高相似度的声纹模型集,鉴别出冒充不同用户身份的骗贷者.最后测试并比较了基于GMM-UBM和i-vector模型的最大团防骗贷算法性能.
展开更多
关键词
防骗贷算法
说话人识别
GMM-UBM算法
i-vector算法
最大团
下载PDF
职称材料
一种基于大知识库的亲属关系自动推理模型
被引量:
8
12
作者
陈振宇
袁毓林
+1 位作者
张秀松
周强
《中文信息学报》
CSCD
北大核心
2010年第3期117-123,共7页
我们采用"大知识库—小运算"的技术路线,提出一个汉语亲属关系的自动推理模型。首先,在充分研究汉语亲属关系的词汇—语法表达的基础上,给汉语常见的亲属关系及其情景语义建立认知模型。然后,据此构造大型的汉语亲属关系知识...
我们采用"大知识库—小运算"的技术路线,提出一个汉语亲属关系的自动推理模型。首先,在充分研究汉语亲属关系的词汇—语法表达的基础上,给汉语常见的亲属关系及其情景语义建立认知模型。然后,据此构造大型的汉语亲属关系知识库,包括外围知识库和核心知识库两种。前者详尽列举亲属名词和称呼动词所涉及的各种句式,并给出相应的语义表达式;后者包括三个子库:性质库(刻画亲属关系中的性别、长幼等属性)、逆判断库(刻画"父—子"等反对称关系对子)和传递库(刻画通过中介人把称呼人与被称呼人联系起来的各种路径,共计3 600余条)。在此基础上,形成了一个汉语亲属关系自动推理模型,可以在已知ABC三边关系的任意两边时快速地推导出未知的另一边关系。
展开更多
关键词
计算机应用
中文信息处理
亲属关系
自动推理
认知模型
知识库
逆判断
传递路径
下载PDF
职称材料
亲属关系的逻辑意义及其自动推理
被引量:
8
13
作者
陈振宇
袁毓林
+1 位作者
张秀松
周强
《计算机工程与应用》
CSCD
北大核心
2009年第16期43-47,共5页
用一阶谓词逻辑设计了一个亲属关系的自动推理模型。首先,把亲属关系(称谓)视为谓词,相关的人物视为变元,把亲属关系和有关性质用"或"、"与"及"逆"等运算符号联结成亲属关系表达式。然后,选取11种基本的...
用一阶谓词逻辑设计了一个亲属关系的自动推理模型。首先,把亲属关系(称谓)视为谓词,相关的人物视为变元,把亲属关系和有关性质用"或"、"与"及"逆"等运算符号联结成亲属关系表达式。然后,选取11种基本的亲属关系作为亲属基元,并构造亲属基元转换和化简的九大定理,用以描写和定义其他一百多种亲属关系,从而形成亲属关系转换的核心知识库。最后,给出一种简洁的亲属关系转换算法,主要包括连接、求逆、化简和组配等运算。
展开更多
关键词
一阶谓词逻辑
亲属关系
自动推理
亲属关系表达式
求逆
化简
下载PDF
职称材料
汉语块分析评测任务设计
被引量:
9
14
作者
周强
李玉梅
《中文信息学报》
CSCD
北大核心
2010年第1期123-128,共6页
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了...
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。
展开更多
关键词
计算机应用
中文信息处理
基本块
功能块
事件描述小句
块标注库
下载PDF
职称材料
构建大规模的汉语事件知识库
被引量:
2
15
作者
周强
王俊俊
陈丽欧
《中文信息学报》
CSCD
北大核心
2012年第3期86-91,103,共7页
该文提出了一种静态知识库和动态标注库相结合的汉语事件知识库构建方法。在统一的设计框架下,将相关事件知识拆分成五个相对独立的知识子库,并通过各子库之间的内在联系使之互相参照互为补充。经过有效拆分和信息联动,增强信息的丰富...
该文提出了一种静态知识库和动态标注库相结合的汉语事件知识库构建方法。在统一的设计框架下,将相关事件知识拆分成五个相对独立的知识子库,并通过各子库之间的内在联系使之互相参照互为补充。经过有效拆分和信息联动,增强信息的丰富性和可靠性,同时细化工作的粒度,具有较好的可操作性。以此为基础,开发完成一个汉语"存在拥有类"事件知识库,其中静态知识库覆盖72个情境和1 548个词语义项,动态标注库包含598个事件目标动词的10万句标注结果,取得了较好的实验效果。
展开更多
关键词
事件内容分析
事件语义标注资源
汉语事件知识库
下载PDF
职称材料
基于话题链的汉语语篇连贯性描述体系
被引量:
9
16
作者
周强
周骁聪
《中文信息学报》
CSCD
北大核心
2014年第5期102-110,共9页
汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因...
汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因果、转折四大类关系的汉语语篇连贯性描述体系。在清华句法树库TCT上进行的验证实验,发现话题链和关联词语分别覆盖了约76%和50%的汉语复句,并且两者经常同时使用,初步证明了这个体系在句子连贯性描述方面的可行性和有效性。
展开更多
关键词
话题链
话题评述关系
连贯性描述体系
汉语语篇分析
下载PDF
职称材料
《知网》语义关系图的自动构建
被引量:
4
17
作者
王宏显
周强
邬晓钧
《中文信息学报》
CSCD
北大核心
2008年第5期90-96,共7页
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库...
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。
展开更多
关键词
计算机应用
中文信息处理
语义关系图
概念树
《知网》
下载PDF
职称材料
基于词义类簇的文本聚类
被引量:
2
18
作者
唐国瑜
夏云庆
+1 位作者
张民
郑方
《中文信息学报》
CSCD
北大核心
2013年第3期113-119,共7页
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空...
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。
展开更多
关键词
文档聚类
文档表示
话题模型
下载PDF
职称材料
融合从底向上与自顶向下的中文复杂句人工标注方法
被引量:
1
19
作者
毛婷婷
吕学强
+1 位作者
周强
刘殷
《小型微型计算机系统》
CSCD
北大核心
2016年第4期716-721,共6页
大规模、高质量的中文树库的建立对中文句法分析的发展有着重要的意义,但是对于字数多、结构层次复杂的中文复杂句的标注仍费时费力并且标注质量不高.这严重影响了中文树库的建立速度,阻碍了中文句法分析的发展.因此,该文提出一种融合...
大规模、高质量的中文树库的建立对中文句法分析的发展有着重要的意义,但是对于字数多、结构层次复杂的中文复杂句的标注仍费时费力并且标注质量不高.这严重影响了中文树库的建立速度,阻碍了中文句法分析的发展.因此,该文提出一种融合了从底向上和自顶向下的中文复杂句标注方法,该方法将复杂句切分成结构较简单的块进行分析.实验表明,与传统的从底向上的标注方法相比,该文中的方法的校对速度快于传统方法,且整体差异率和分阶段的差异率降低了约20%,说明该文中的方法在对中文复杂度的标注是有效的且实用的.
展开更多
关键词
概念复合块
从底向上语料标注方法
从底向上和自顶向下语料标注方法
下载PDF
职称材料
基于词嵌入的书面语篇多层次差异探究
被引量:
2
20
作者
张学敬
吕学强
周强
《计算机工程与应用》
CSCD
北大核心
2019年第23期142-149,共8页
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异...
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。
展开更多
关键词
独白语篇
对话语篇
词嵌入
多层次差异分析
下载PDF
职称材料
题名
生物特征识别技术综述
被引量:
45
1
作者
郑方
艾斯卡尔.肉孜
王仁宇
李蓝天
机构
清华
信息
科学
技术
国家实验室
技术
创新和开发部
语音
和
语言
技术
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
清华大学
计算机科学与
技术
系
江苏师范
大学
语言
科学院
出处
《信息安全研究》
2016年第1期12-26,共15页
基金
国家自然科学基金项目(61271389
61371136)
国家"九七三"重点基础研究发展计划基金项目(2013CB329302)
文摘
基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术.为此,介绍了生物特征识别技术的基本原理、性能指标、关键技术、研究现状和技术应用等.全面调研了指纹、掌纹、虹膜、人脸、指静脉、声纹等不同的生物特征识别技术的研究现状,比较了各种生物特征识别技术在错误率、稳定性、实用性、处理速度和仿冒程度等方面的差异.此外,针对辨认和确认2种场景分别介绍了它们在各方面的应用情况,分析讨论了生物特征融合技术、生物特征安全性问题,介绍了该领域现有的行业和国家标准.最后对生物特征识别技术的发展前景给予展望.
关键词
生物特征识别
身份认证
指纹
声纹
人脸
掌纹
虹膜
指静脉
Keywords
biometric recognition
identity authentication
fingerprint
voiceprint
face
palmprint
iris
finger vein
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
声纹识别技术及其应用现状
被引量:
48
2
作者
郑方
李蓝天
张慧
艾斯卡尔.肉孜
机构
清华
信息
科学
技术
国家实验室
技术
创新和开发部
语音
和
语言
技术
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
清华大学
计算机科学与
技术
系
贵州
大学
科技学院
出处
《信息安全研究》
2016年第1期44-57,共14页
基金
国家自然科学基金项目(61271389
61371136)
国家"九七三"重点基础研究发展计划基金项目(2013CB329302)
文摘
随着信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题.与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、可靠.声纹识别作为当前最热门的生物特征识别技术之一,在远程认证等应用领域中具有独特优势,受到了越来越多的关注.以声纹识别技术及其应用现状为主线,将依次介绍声纹识别的基本概念、发展历程、应用现状及其行业标准化现状;综述声纹识别所面临的各类问题及其解决方案;最后对声纹识别技术以及应用的发展前景进行展望.
关键词
生物特征识别
身份认证
声纹识别
发展历程
技术应用
Keywords
biometric recognition
identity authentication
voiceprint recognition
development history
technology applications
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
从认知假设到计算分析和程序实现——一种认知语言学研究的计算范式与技术路线
被引量:
5
3
作者
袁毓林
陈振宇
张秀松
李湘
周强
高嵩
机构
北京
大学
中文系
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《当代语言学》
CSSCI
北大核心
2010年第2期97-114,共18页
基金
国家社会科学基金项目"面向内容计算的汉语语义角色知识库的研究和建设"(批准号:07AYY004)
国家自然科学基金项目"基于情境的汉语基本事件内容分析研究"(批准号:60573185)
+1 种基金
2007年度国家高技术研究发展计划(863计划)项目"基于人类认知的语义知识融合
学习与计算技术"(课题编号:2007AA01Z173)的资助
文摘
本文展示一种认知语言学研究的计算范式与技术路线:首先基于语言使用是一种以知识为基础的认知过程的假设,以计算机模拟人类理解自然语言的意义为技术背景,用情境网络对特定领域的有关语言表达及其意义进行认知建模;再用逻辑表达式刻画关键性的情境要素之间的语义关系,并用语义公理来表示有关逻辑表达式之间的推导关系,从而形成概念层面的知识推理和语义计算的知识单元;然后,为有关语言现象建立词汇句法知识库,从词汇、语义和句法分布等方面对跟有关情境相对应的词汇和句式进行详细的描写,并且在情境网络、词汇—句法知识库和真实文本中的有关描述实例之间建立双向联系;最后,形成完整的词汇语义计算的知识平台,再应用到有关的自然语言处理系统中。文章还通过"领属转移"这个实例,对情境网络和词汇句法知识库的开发过程进行简要的说明;通过"亲属关系的自动推理"这个专家系统的研究和开发过程,对认知模型和情境网络、逻辑表示和语义公理、词汇—语义—句法知识库的建立、乃至算法设计和程序实现的全过程进行例示。
关键词
认知(假设)
计算(分析)
情境(网络)
程序实现
Keywords
cognitive assumption
computational analysis
situation networks
分类号
B842 [哲学宗教—基础心理学]
原文传递
题名
基于无线传输的语音采集系统设计
被引量:
4
4
作者
张国先
刘润生
张春
机构
清华大学
微电子学
研究
所
清华大学信息技术研究院语音语言技术中心
清华大学
电子工程系
出处
《电声技术》
2009年第11期29-33,共5页
文摘
利用低功耗ARM处理器LPC2368,USB2.0控制器CY7C68013和2.4GHz无线传输芯片NRF24L01开发了一种新的基于嵌入式技术和无线传输技术的语音信号采集系统。实现了语音数据的采集,无线传输,存储和USB2.0回传等功能。讨论了2.4GHz无线通信和USB2.0数据通信两个关键技术。本系统具有体积小、功耗低、扩展灵活、安全可靠性好的特点。
关键词
语音采集
无线传输
USB2.0
Keywords
audio acquisition
wireless communication
USB2.0
分类号
TN912 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
言语信息处理的进展
被引量:
3
5
作者
蔡莲红
贾珈
郑方
机构
清华大学
计算机科学与
技术
系
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2011年第6期137-141,共5页
基金
国家自然科学基金资助项目(61003094,60928005,60805008)
文摘
该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。
关键词
言语识别
说话人识别
言语合成
言语知觉计算
Keywords
speech recognition
speaker recognition
speech synthesis
computational speech perception
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
低功耗微型三传声器阵列语音采集系统设计
被引量:
2
6
作者
张国先
梁维谦
袁坤
张春
机构
清华大学
微电子学
研究
所
清华大学信息技术研究院语音语言技术中心
清华大学
电子工程系
出处
《电声技术》
2009年第2期21-25,共5页
基金
北京市科技计划项目(Y0105008040111)
文摘
基于低功耗单片机MSP430F427和USB2.0控制器CY7C68013,开发了一种面向三传声器阵列的语音数据采集系统。讨论了如何实现3路语音数据的同步采集、存储,以及USB2.0数据回传及后处理等问题。本系统具有体积小、功耗低、可扩展性好的特点。
关键词
传声器阵列
低功耗
USB2.0
Keywords
microphone array
low power consumption
USB2.0
分类号
TN912 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
汉语日常会话的对话行为分析标注研究
被引量:
4
7
作者
周强
机构
清华大学信息技术研究院语音语言技术中心
清华
信息
科学与
技术
国家实验室
出处
《中文信息学报》
CSCD
北大核心
2017年第6期75-82,共8页
基金
国家自然科学基金(61433018
61373075)
文摘
对话行为分析是进行更深入的对话理解模型探索的合适切入点。该文综合前人研究成果,设计了一套针对汉语日常会话的对话行为标注体系。引入主客观阐述和正反向反应子类,加强对话行为依存对和连贯修辞对的结构描述,同时引入话题线索分析机制,有效组织会话中的话题变化趋势。基于500个日常会话片段进行的对话行为标注实验中显示出了90%左右的双人独立标注宏一致率,表明目前的对话行为标记集设计具有良好的可操作性,可以适应汉语日常会话的行为功能模式描述需求。
关键词
会话分析
对话行为标注
话题线索
Keywords
conversation analysis
dialog act annotation
topic thread
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语谓词组合范畴语法词库的自动构建研究
被引量:
3
8
作者
周强
机构
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2016年第3期196-203,共8页
基金
国家重点基础研究发展计划(2013CB329304)
国家自然科学基金(61373075)
文摘
谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
关键词
组合范畴语法
汉语谓词词库
多资源融合
Keywords
combinatory category grammar
Chinese predicate lexicon
multi-resources integration
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
异源语料融合研究
9
作者
吕学强
仵永栩
周强
刘殷
机构
北京
信息
科技
大学
网络文化与数字传播北京市重点实验室
清华
信息
科学与
技术
国家实验室(筹)
出处
《中文信息学报》
CSCD
北大核心
2016年第5期160-168,共9页
基金
国家自然科学基金(61271304,61671070)
北京成像技术高精尖创新中心项目(BAICIT-2016003)
国家社会科学基金(14@ZH036)
文摘
语料资源与自然语言处理领域的各项研究息息相关,具有很大的应用价值。由于不同的研究机构对于语料标注的规则和标记的类型不尽相同,使得不同的语料库很难组合为一个更大的语料库来进行使用。针对该问题,该文从不同标注库及词类映射层面考虑,对其产生的词性歧义问题进行了研究,提出了一种将异源语料融合到一种体系下的方法,对词类信息进行映射和消歧,并进行了实验验证,融合后的词性信息准确率可达87%,实验结果表明该方法具有一定的有效性和可扩展性。
关键词
语料建设
语料融合
词类映射
词性消歧
Keywords
corpus .construction
data fusion
word mapping
POS disambiguation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语语篇的连贯性标注困难度分析研究
被引量:
3
10
作者
魏天珂
吕学强
周强
机构
北京
信息
科技
大学
网络文化与数字传播北京市重点实验室
清华大学
信息
技术
研究院
语音
与
语言
技术
中心
清华
信息
科学与
技术
国家实验室(筹)
出处
《计算机应用研究》
CSCD
北大核心
2018年第10期2969-2974,共6页
基金
国家"973"计划资助项目(2013CB329304)
国家自然科学基金资助项目(61433018
+7 种基金
61373075
61411130162
61271304
61671070)
北京成像技术高精尖创新中心资助项目(BAICIT-2016003)
国家社会科学基金重大资助项目(14@ZH036
15ZDB017)
国家语委重大课题资助项目(ZDA125-26)
文摘
在人工标注语篇句子连贯性时,句群的划分成为最大的难点,句群内部句间关系的复杂性也增加了篇章标注的困难度。为了识别语篇标注的困难度,从多角度总结了句群边界以及类别的分布特点,分析了句群内部句间的各种连接关系,提出了一种基于人工标注的语篇困难度识别模型,并利用双人标注信息的差异性来验证语篇困难度识别方法的有效性与准确性。数据表明,该模型可以较好地区分不同体裁新闻类语篇的标注难度,为相关语篇内容的分析理解打下了良好的基础。
关键词
句群识别
语篇连贯性
语篇标注困难度
Keywords
sentence group recognition
text coherence
text annotation difficulty
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于最大团的防骗贷算法研究
11
作者
梁宏宇
李通旭
机构
北京得意音通
技术
有限责任公司
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《信息安全研究》
2017年第11期1017-1019,共3页
文摘
银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户的电话录音中提取用户的声纹特征,建立用户的声纹模型库,发现具有高相似度的声纹模型集,鉴别出冒充不同用户身份的骗贷者.最后测试并比较了基于GMM-UBM和i-vector模型的最大团防骗贷算法性能.
关键词
防骗贷算法
说话人识别
GMM-UBM算法
i-vector算法
最大团
Keywords
loan fraud algorithm
speaker recognition
GMM-UBM algorithm
i-vector algorithm
maximum clique
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于大知识库的亲属关系自动推理模型
被引量:
8
12
作者
陈振宇
袁毓林
张秀松
周强
机构
北京
大学
中文系汉语
语言
学
研究
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2010年第3期117-123,共7页
基金
国家社会科学基金资助项目(07AYY004)
国家高技术研究发展计划863计划资助项目(2007AA01Z173)
国家自然科学基金资助项目(60573185)
文摘
我们采用"大知识库—小运算"的技术路线,提出一个汉语亲属关系的自动推理模型。首先,在充分研究汉语亲属关系的词汇—语法表达的基础上,给汉语常见的亲属关系及其情景语义建立认知模型。然后,据此构造大型的汉语亲属关系知识库,包括外围知识库和核心知识库两种。前者详尽列举亲属名词和称呼动词所涉及的各种句式,并给出相应的语义表达式;后者包括三个子库:性质库(刻画亲属关系中的性别、长幼等属性)、逆判断库(刻画"父—子"等反对称关系对子)和传递库(刻画通过中介人把称呼人与被称呼人联系起来的各种路径,共计3 600余条)。在此基础上,形成了一个汉语亲属关系自动推理模型,可以在已知ABC三边关系的任意两边时快速地推导出未知的另一边关系。
关键词
计算机应用
中文信息处理
亲属关系
自动推理
认知模型
知识库
逆判断
传递路径
Keywords
computer application
Chinese information processing
kinship
automatic reasoning
cognitive model knowledge base
reverse expression
transfer path
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
亲属关系的逻辑意义及其自动推理
被引量:
8
13
作者
陈振宇
袁毓林
张秀松
周强
机构
复旦
大学
中国
语言
文学系
北京
大学
中文系/汉语
语言
学
研究
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《计算机工程与应用》
CSCD
北大核心
2009年第16期43-47,共5页
基金
国家高技术研究发展计划(863)(No.2007AA01Z173)
国家自然科学基金(No.60573185)~~
文摘
用一阶谓词逻辑设计了一个亲属关系的自动推理模型。首先,把亲属关系(称谓)视为谓词,相关的人物视为变元,把亲属关系和有关性质用"或"、"与"及"逆"等运算符号联结成亲属关系表达式。然后,选取11种基本的亲属关系作为亲属基元,并构造亲属基元转换和化简的九大定理,用以描写和定义其他一百多种亲属关系,从而形成亲属关系转换的核心知识库。最后,给出一种简洁的亲属关系转换算法,主要包括连接、求逆、化简和组配等运算。
关键词
一阶谓词逻辑
亲属关系
自动推理
亲属关系表达式
求逆
化简
Keywords
one-order predicate logic
kinship relations
automatic reasoning
expressions of kinship relation
converse
simplification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语块分析评测任务设计
被引量:
9
14
作者
周强
李玉梅
机构
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2010年第1期123-128,共6页
基金
国家自然科学基金资助项目(60573185,60873173)
国家863计划资助课题(2007AA01Z173)
文摘
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。
关键词
计算机应用
中文信息处理
基本块
功能块
事件描述小句
块标注库
Keywords
computer application
Chinese information processing
base chunk
functional chunk
event description clause
chunk banks
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
构建大规模的汉语事件知识库
被引量:
2
15
作者
周强
王俊俊
陈丽欧
机构
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
清华
信息
科学与
技术
国家实验室
清华大学
计算机科学与
技术
系
出处
《中文信息学报》
CSCD
北大核心
2012年第3期86-91,103,共7页
基金
国家自然科学基金资助项目(60873173)
国家高技术研究发展计划资助项目(2007AA01Z173)
Tsinghua-Intel合作研究项目
文摘
该文提出了一种静态知识库和动态标注库相结合的汉语事件知识库构建方法。在统一的设计框架下,将相关事件知识拆分成五个相对独立的知识子库,并通过各子库之间的内在联系使之互相参照互为补充。经过有效拆分和信息联动,增强信息的丰富性和可靠性,同时细化工作的粒度,具有较好的可操作性。以此为基础,开发完成一个汉语"存在拥有类"事件知识库,其中静态知识库覆盖72个情境和1 548个词语义项,动态标注库包含598个事件目标动词的10万句标注结果,取得了较好的实验效果。
关键词
事件内容分析
事件语义标注资源
汉语事件知识库
Keywords
event analysis
event annotation
event knowledge base
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于话题链的汉语语篇连贯性描述体系
被引量:
9
16
作者
周强
周骁聪
机构
清华
信息
科学与
技术
国家实验室(筹)
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2014年第5期102-110,共9页
基金
国家973计划(2013CB329304)
国家自然科学基金(61373075)
文摘
汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因果、转折四大类关系的汉语语篇连贯性描述体系。在清华句法树库TCT上进行的验证实验,发现话题链和关联词语分别覆盖了约76%和50%的汉语复句,并且两者经常同时使用,初步证明了这个体系在句子连贯性描述方面的可行性和有效性。
关键词
话题链
话题评述关系
连贯性描述体系
汉语语篇分析
Keywords
topic chain
topic-comment relation
coherence annotation scheme
Chinese text analysis
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
《知网》语义关系图的自动构建
被引量:
4
17
作者
王宏显
周强
邬晓钧
机构
清华大学
电子工程系
清华
信息
科学
技术
国家实验室
技术
创新与开发部
语音
和
语言
技术
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《中文信息学报》
CSCD
北大核心
2008年第5期90-96,共7页
基金
国家自然科学基金资助项目(60573185)
国家高科技研究发展计划资助项目(2007AA01Z173)
文摘
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。
关键词
计算机应用
中文信息处理
语义关系图
概念树
《知网》
Keywords
computer application
Chinese information processing
lexical semantic relationship graph
concept tree
HowNet
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词义类簇的文本聚类
被引量:
2
18
作者
唐国瑜
夏云庆
张民
郑方
机构
清华
信息
科学
技术
国家实验室
技术
创新和开发部
语音
和
语言
技术
中心
资讯通信
研究院
出处
《中文信息学报》
CSCD
北大核心
2013年第3期113-119,共7页
基金
国家自然科学基金资助项目(61272233)
文摘
文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。
关键词
文档聚类
文档表示
话题模型
Keywords
word sense
document representation
topic model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合从底向上与自顶向下的中文复杂句人工标注方法
被引量:
1
19
作者
毛婷婷
吕学强
周强
刘殷
机构
北京
信息
科技
大学
网络文化与数字传播北京市重点实验室
清华
信息
科学与
技术
国家实验室(筹)
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第4期716-721,共6页
基金
国家自然科学基金项目(61271304,61373075)资助
北京市教委科技发展计划重点项目标暨北京市自然科学基金B类重点项目(KZ2013112307)资助
文摘
大规模、高质量的中文树库的建立对中文句法分析的发展有着重要的意义,但是对于字数多、结构层次复杂的中文复杂句的标注仍费时费力并且标注质量不高.这严重影响了中文树库的建立速度,阻碍了中文句法分析的发展.因此,该文提出一种融合了从底向上和自顶向下的中文复杂句标注方法,该方法将复杂句切分成结构较简单的块进行分析.实验表明,与传统的从底向上的标注方法相比,该文中的方法的校对速度快于传统方法,且整体差异率和分阶段的差异率降低了约20%,说明该文中的方法在对中文复杂度的标注是有效的且实用的.
关键词
概念复合块
从底向上语料标注方法
从底向上和自顶向下语料标注方法
Keywords
concept compound chunk
bottom-up method of corpus annotation
bottom-up and top-down method of corpus annotation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词嵌入的书面语篇多层次差异探究
被引量:
2
20
作者
张学敬
吕学强
周强
机构
北京
信息
科技
大学
网络文化与数字传播北京市重点实验室
北京
信息
科学与
技术
国家
研究
中心
清华大学
信息
技术
研究院
语音
和
语言
技术
中心
出处
《计算机工程与应用》
CSCD
北大核心
2019年第23期142-149,共8页
基金
国家自然科学基金(No.61433018,No.61373075,No.61671070)
国家语委重点项目(No.ZDI135-53)
文摘
书面语篇包含有独白语篇和对话语篇两种类型,而独白语篇和对话语篇具有不同的描述功能和用词特点,这对基于这些语篇的不同分析任务计算建模提出了新的挑战。基于现有两种语篇标注库,采用统计分析方法,对两类语篇的不同层次功能结构差异性进行了定量分析。基于三种不同类型语料文本中自动训练得到的不同词嵌入向量,以字向量的角度初步分析了两类语篇在用词方面的不同分布特点。在此基础上针对两类语篇的4个典型分析任务,研究了不同词嵌入对深度学习模型分析性能的影响效果。实验结果表明,不同的词嵌入在不同语篇分析任务的表现能力存在明显差异,从而验证了独白语篇和对话语篇的多层次差异。
关键词
独白语篇
对话语篇
词嵌入
多层次差异分析
Keywords
monologue text
dialogue text
word embedding
multi-level difference analysis
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
生物特征识别技术综述
郑方
艾斯卡尔.肉孜
王仁宇
李蓝天
《信息安全研究》
2016
45
下载PDF
职称材料
2
声纹识别技术及其应用现状
郑方
李蓝天
张慧
艾斯卡尔.肉孜
《信息安全研究》
2016
48
下载PDF
职称材料
3
从认知假设到计算分析和程序实现——一种认知语言学研究的计算范式与技术路线
袁毓林
陈振宇
张秀松
李湘
周强
高嵩
《当代语言学》
CSSCI
北大核心
2010
5
原文传递
4
基于无线传输的语音采集系统设计
张国先
刘润生
张春
《电声技术》
2009
4
下载PDF
职称材料
5
言语信息处理的进展
蔡莲红
贾珈
郑方
《中文信息学报》
CSCD
北大核心
2011
3
下载PDF
职称材料
6
低功耗微型三传声器阵列语音采集系统设计
张国先
梁维谦
袁坤
张春
《电声技术》
2009
2
下载PDF
职称材料
7
汉语日常会话的对话行为分析标注研究
周强
《中文信息学报》
CSCD
北大核心
2017
4
下载PDF
职称材料
8
汉语谓词组合范畴语法词库的自动构建研究
周强
《中文信息学报》
CSCD
北大核心
2016
3
下载PDF
职称材料
9
异源语料融合研究
吕学强
仵永栩
周强
刘殷
《中文信息学报》
CSCD
北大核心
2016
0
下载PDF
职称材料
10
汉语语篇的连贯性标注困难度分析研究
魏天珂
吕学强
周强
《计算机应用研究》
CSCD
北大核心
2018
3
下载PDF
职称材料
11
基于最大团的防骗贷算法研究
梁宏宇
李通旭
《信息安全研究》
2017
0
下载PDF
职称材料
12
一种基于大知识库的亲属关系自动推理模型
陈振宇
袁毓林
张秀松
周强
《中文信息学报》
CSCD
北大核心
2010
8
下载PDF
职称材料
13
亲属关系的逻辑意义及其自动推理
陈振宇
袁毓林
张秀松
周强
《计算机工程与应用》
CSCD
北大核心
2009
8
下载PDF
职称材料
14
汉语块分析评测任务设计
周强
李玉梅
《中文信息学报》
CSCD
北大核心
2010
9
下载PDF
职称材料
15
构建大规模的汉语事件知识库
周强
王俊俊
陈丽欧
《中文信息学报》
CSCD
北大核心
2012
2
下载PDF
职称材料
16
基于话题链的汉语语篇连贯性描述体系
周强
周骁聪
《中文信息学报》
CSCD
北大核心
2014
9
下载PDF
职称材料
17
《知网》语义关系图的自动构建
王宏显
周强
邬晓钧
《中文信息学报》
CSCD
北大核心
2008
4
下载PDF
职称材料
18
基于词义类簇的文本聚类
唐国瑜
夏云庆
张民
郑方
《中文信息学报》
CSCD
北大核心
2013
2
下载PDF
职称材料
19
融合从底向上与自顶向下的中文复杂句人工标注方法
毛婷婷
吕学强
周强
刘殷
《小型微型计算机系统》
CSCD
北大核心
2016
1
下载PDF
职称材料
20
基于词嵌入的书面语篇多层次差异探究
张学敬
吕学强
周强
《计算机工程与应用》
CSCD
北大核心
2019
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部