期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
内容丰富多彩,阐述深入浅出——评《统计自然语言处理》(第2版)
1
作者 俞士汶 《中文信息学报》 CSCD 北大核心 2014年第1期125-126,共2页
宗成庆博士著《统计自然语言处理》一书自2008年问世以来,已在计算语言学与自然语言处理学界产生了广泛影响,被很多大学、研究所指定为硕士生、博士生的必读参考书。该书第1版很快售罄。参照读者反馈的意见,作者对该书进行了增删、... 宗成庆博士著《统计自然语言处理》一书自2008年问世以来,已在计算语言学与自然语言处理学界产生了广泛影响,被很多大学、研究所指定为硕士生、博士生的必读参考书。该书第1版很快售罄。参照读者反馈的意见,作者对该书进行了增删、修改和磨砺,于2013年8月推出了第2版。在清华大学出版社组织出版的《中文信息处理丛书》中,这种情况是不多见的。 展开更多
关键词 自然语言处理 统计 清华大学出版社 多彩 中文信息处理 计算语言学 读者反馈 博士生
下载PDF
基于图的同义词集自动获取方法 被引量:13
2
作者 吴云芳 石静 金澎 《计算机研究与发展》 EI CSCD 北大核心 2011年第4期610-616,共7页
同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在New... 同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点. 展开更多
关键词 相似词 同义词集 图模型 并列结构 Newman算法 边权值
下载PDF
基于句式结构的汉语图解析句法设计 被引量:7
3
作者 彭炜明 宋继华 王宁 《计算机工程与应用》 CSCD 2014年第6期11-18,共8页
梳理了汉语语法学界对"句式"这一术语的认识分歧;从中文信息处理角度分析了当前本领域句法分析和树库构建缺乏句式结构的现状;对黎氏语法形式化研究作了一个最新的综述,指出其在句式结构方面的优势和仍存在的不足;以黎氏语法... 梳理了汉语语法学界对"句式"这一术语的认识分歧;从中文信息处理角度分析了当前本领域句法分析和树库构建缺乏句式结构的现状;对黎氏语法形式化研究作了一个最新的综述,指出其在句式结构方面的优势和仍存在的不足;以黎氏语法图解法为原型改造设计出一种新型的汉语图解析句法,具体包括图形化的句法结构表示和结构化的XML存储格式。 展开更多
关键词 句式结构 图解析句 析句方法 句本位语法
下载PDF
基于马尔可夫逻辑的中文零指代消解 被引量:5
4
作者 宋洋 王厚峰 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期2114-2122,共9页
中文零指代消解问题包括零指代项的识别和零指代项的消解2个相互关联的子任务.传统的方法在解决该问题时,往往不考虑2个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束.基于马尔可夫逻辑网络模... 中文零指代消解问题包括零指代项的识别和零指代项的消解2个相互关联的子任务.传统的方法在解决该问题时,往往不考虑2个子任务间的关联关系,比如识别出的零指代项必须被消解以及发生消解的必须是零指代项等约束.基于马尔可夫逻辑网络模型可以将零指代项的识别和零指代项的消解2个子任务融合在统一的机器学习框架下进行联合推断与联合学习,采用局部规则分别针对零指代项的识别和消解进行预测,采用全局规则描述这2个子任务间的关联关系.基于OntoNotes3.0的中文数据集上的实验结果显示,基于马尔可夫逻辑网络的联合学习模型相比于独立学习模型以及多个baseline方法能够获得更好的实验效果. 展开更多
关键词 马尔可夫逻辑网络 中文零指代消解 零指代项识别 联合学习 全局规则 局部规则
下载PDF
汉语篇章级小句关系的标注体系 被引量:3
5
作者 吴云芳 徐艺峰 王恺然 《中文信息学报》 CSCD 北大核心 2015年第3期71-81,共11页
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同... 句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8 000个句子的小句关系标注。抽取出其中1 000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。 展开更多
关键词 句际关系 小句关系 语料库标注
下载PDF
采用无标注语料的动词和形容词主观性评级
6
作者 徐戈 蒙新泛 王厚峰 《软件学报》 EI CSCD 北大核心 2013年第5期1036-1050,共15页
为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主... 为了自动区分中文主观词和客观词,采用主观性线索和汉字的主观性两种手段对动词和形容词进行主观性度量.主观性的线索进一步被分成级差(gradability)线索和主体(subject)线索;根据这些线索,使用基于图的算法进行评级(ranking).在汉语主观性词表构建中,提出使用主体线索和汉字主观性.5个标注人员对随机选择的500个单词进行主观性标注,据此构建主客观标准集,并将其用于各种设置下的实验结果评估.实验结果显示,当被标注的单词出现频率较高时,所提出的方法能够超过或者匹配人工标注.此外,尽管文中只使用了无标注的数据,但还有更多的先验知识(如语义词典等)可以被引入到该方法中. 展开更多
关键词 主观性 无标注语料 级差线索 主体线索 评级 汉字主观性
下载PDF
《红楼梦》中社会权势关系的提取及网络构建 被引量:11
7
作者 陈蕾 胡亦旻 +1 位作者 艾苇 胡俊峰 《中文信息学报》 CSCD 北大核心 2015年第5期185-193,203,共10页
社会地位与权势的研究一直是社会语言学领域的一个热点话题。该文借助数据挖掘中的关系提取方案雪球算法(Snowball Algorithm),实现了《红楼梦》文本中候选的特征语言模式(pattern)和人物关系对之间的相互定位与赋权,对小说中频繁同现... 社会地位与权势的研究一直是社会语言学领域的一个热点话题。该文借助数据挖掘中的关系提取方案雪球算法(Snowball Algorithm),实现了《红楼梦》文本中候选的特征语言模式(pattern)和人物关系对之间的相互定位与赋权,对小说中频繁同现的人物对之间的社会等级关系进行挖掘,以此建立了能反映人物等级关系的有向加权人际关系网络。进一步应用最小树形图算法,生成了涵盖192个《红楼梦》主要人物的单向联通的树状社会关系图。通过这种方法生成的社会关系图不但能有效反映人际交往亲密度与社区影响力,同时还透视了人与人之间的社会等级差异。相较于单纯基于人际交往亲密程度的无向关系网络,能更加客观地表达出社会交往中人际关系网络的真实图景。 展开更多
关键词 关系提取 权势关系 社会关系网络 最小树形图
下载PDF
基于SVM融合多特征的介词结构自动识别 被引量:4
8
作者 温苗苗 吴云芳 《中文信息学报》 CSCD 北大核心 2009年第5期19-24,共6页
介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确... 介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确的后边界。探讨了不同的特征选择,并尝试加入语义信息等不同特征组合以提高识别准确率。对常用的68个介词进行边界识别实验,5折交叉验证的准确率达到90.95%,优于前人的识别结果。 展开更多
关键词 计算机应用 中文信息处理 介词结构识别 支持向量机 语义类
下载PDF
基于事件语义距离的V1-V2述结式判别研究 被引量:1
9
作者 马腾 詹卫东 《计算机工程与应用》 CSCD 北大核心 2015年第17期107-112,共6页
"现代汉语述补结构用法词典"是人工建立、用于描述述补结构相关信息的语言知识资源。经过人工对词条的收集、释义等编写工作,词典已形成一定规模。在此基础上,尝试借助计算机技术,依据事件语义学的理论,利用现有语言知识资源... "现代汉语述补结构用法词典"是人工建立、用于描述述补结构相关信息的语言知识资源。经过人工对词条的收集、释义等编写工作,词典已形成一定规模。在此基础上,尝试借助计算机技术,依据事件语义学的理论,利用现有语言知识资源以及大规模语料数据,寻找述结式复合事件语义距离计算的方法,对述结式进行定量描写,以帮助扩大词典规模,同时有助于深化对特有语言现象——述补结构的认识。实验结果表明该方法具有较高的准确率和识别率。 展开更多
关键词 述结式 复合事件 语义距离
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部