期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于树状语料库的中文短语相似度计算 被引量:4
1
作者 费洪晓 莫天池 +3 位作者 林青 杨艳群 谭叶清 严星俊 《计算机应用与软件》 CSCD 北大核心 2013年第8期18-20,42,共4页
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在... 在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。 展开更多
关键词 自然语言处理 文件摘要 中文短语相似度计算 树状语料库 关键词序列
下载PDF
基于条件随机场的中文时间短语识别 被引量:16
2
作者 朱莎莎 刘宗田 +1 位作者 付剑锋 朱芳 《计算机工程》 CAS CSCD 北大核心 2011年第15期164-167,共4页
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学... 传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。 展开更多
关键词 中文时间短语 时间短语识别 条件随机场 时间信息处理
下载PDF
中文复杂名词短语依存句法分析 被引量:3
3
作者 陈永波 汤昂昂 姬东鸿 《计算机应用研究》 CSCD 北大核心 2015年第6期1617-1620,共4页
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得... 针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2logn)。 展开更多
关键词 中文复杂名词短语 依存句法分析 决策式算法 支持向量机 特征
下载PDF
结合统计特征和图模型的半监督式中文关键短语抽取方法 被引量:2
4
作者 谢海华 陈雪飞 +2 位作者 都仪敏 吕肖庆 汤帜 《中文信息学报》 CSCD 北大核心 2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型... 关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。 展开更多
关键词 中文关键短语抽取 半监督式方法 图模型 统计特征
下载PDF
《面向中文信息处理的现代汉语短语结构规则研究》序 被引量:4
5
作者 陆俭明 《汉语学习》 2000年第5期70-72,共3页
关键词 《面向中文信息处理的现代汉语短语结构规则研究》 中文信息处理 机器翻译系统 句处理 汉语学习
下载PDF
一种基于聚类与分类结合的汉语隐喻短语识别方法
6
作者 符建辉 王石 曹存根 《中文信息学报》 CSCD 北大核心 2018年第2期22-28,49,共8页
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源... 隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。 展开更多
关键词 隐喻短语识别 中文隐喻短语 短语聚类
下载PDF
交通信息基础数据元中文名称短语相似度算法 被引量:1
7
作者 张绍阳 关胜超 +1 位作者 张恒 李欣 《长安大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期117-122,共6页
交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算... 交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算算法。该算法将用户数据项名称短语的省略情况按照中文语言习惯进行总结,采用数学中干扰修正的思想,分别按照语素和词素对相似度值进行计算,并利用相同语素的个数对相似度进行修正,综合得出词语的相似度。最后利用交通运输部实际工程数据进行了验证。研究结果表明:本算法较文献[1]中算法的'有改善'率提升了91.20%,'明显改善'率提升了9.62%;较文献[2]中的'有改善'率提升了88.40%,'明显改善'率提升了66.80%。 展开更多
关键词 交通工程 交通信息数据元 中文短语 相似度算法
原文传递
融合句法信息的双语词对齐方法研究
8
作者 张贯虹 《电脑知识与技术》 2014年第3期1519-1523,共5页
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词... 词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。 展开更多
关键词 句子对齐 短语翻译 中文短语
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部