期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于树状语料库的中文短语相似度计算
被引量:
4
1
作者
费洪晓
莫天池
+3 位作者
林青
杨艳群
谭叶清
严星俊
《计算机应用与软件》
CSCD
北大核心
2013年第8期18-20,42,共4页
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在...
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。
展开更多
关键词
自然语言处理
文件摘要
中文短语
相似度计算
树状语料库
关键词序列
下载PDF
职称材料
基于条件随机场的中文时间短语识别
被引量:
16
2
作者
朱莎莎
刘宗田
+1 位作者
付剑锋
朱芳
《计算机工程》
CAS
CSCD
北大核心
2011年第15期164-167,共4页
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学...
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。
展开更多
关键词
中文
时间
短语
时间
短语
识别
条件随机场
时间信息处理
下载PDF
职称材料
中文复杂名词短语依存句法分析
被引量:
3
3
作者
陈永波
汤昂昂
姬东鸿
《计算机应用研究》
CSCD
北大核心
2015年第6期1617-1620,共4页
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得...
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2logn)。
展开更多
关键词
中文
复杂名词
短语
依存句法分析
决策式算法
支持向量机
特征
下载PDF
职称材料
结合统计特征和图模型的半监督式中文关键短语抽取方法
被引量:
2
4
作者
谢海华
陈雪飞
+2 位作者
都仪敏
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型...
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。
展开更多
关键词
中文
关键
短语
抽取
半监督式方法
图模型
统计特征
下载PDF
职称材料
《面向中文信息处理的现代汉语短语结构规则研究》序
被引量:
4
5
作者
陆俭明
《汉语学习》
2000年第5期70-72,共3页
关键词
《面向
中文
信息处理的现代汉语
短语
结构规则研究》
中文
信息处理
机器翻译系统
句处理
汉语学习
下载PDF
职称材料
一种基于聚类与分类结合的汉语隐喻短语识别方法
6
作者
符建辉
王石
曹存根
《中文信息学报》
CSCD
北大核心
2018年第2期22-28,49,共8页
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源...
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。
展开更多
关键词
隐喻
短语
识别
中文
隐喻
短语
短语
聚类
下载PDF
职称材料
交通信息基础数据元中文名称短语相似度算法
被引量:
1
7
作者
张绍阳
关胜超
+1 位作者
张恒
李欣
《长安大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第5期117-122,共6页
交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算...
交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算算法。该算法将用户数据项名称短语的省略情况按照中文语言习惯进行总结,采用数学中干扰修正的思想,分别按照语素和词素对相似度值进行计算,并利用相同语素的个数对相似度进行修正,综合得出词语的相似度。最后利用交通运输部实际工程数据进行了验证。研究结果表明:本算法较文献[1]中算法的'有改善'率提升了91.20%,'明显改善'率提升了9.62%;较文献[2]中的'有改善'率提升了88.40%,'明显改善'率提升了66.80%。
展开更多
关键词
交通工程
交通信息数据元
中文短语
相似度算法
原文传递
融合句法信息的双语词对齐方法研究
8
作者
张贯虹
《电脑知识与技术》
2014年第3期1519-1523,共5页
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词...
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。
展开更多
关键词
句子对齐
短语
翻译
中文短语
下载PDF
职称材料
题名
基于树状语料库的中文短语相似度计算
被引量:
4
1
作者
费洪晓
莫天池
林青
杨艳群
谭叶清
严星俊
机构
中南大学软件学院
出处
《计算机应用与软件》
CSCD
北大核心
2013年第8期18-20,42,共4页
基金
国家自然科学基金项目(61073186)
中南大学米塔尔学生创新创业项目(11MX07)
文摘
在诸如文件摘要、个性化搜索、学术诚信检测、常见问题自动解答、自动翻译等领域,短语相似度计算是核心算法。通过引入树状语料库,精确定义、计算词汇相似度,对基于抽取关键词序列的中文短语相似度算法做进一步改进。实验证明,该方法在提高中文短语相似度计算的准确率上达到了预期效果,更符合人的直观感觉。
关键词
自然语言处理
文件摘要
中文短语
相似度计算
树状语料库
关键词序列
Keywords
Natural language processing Document summarisation Chinese short sentence similarity calculation Tree-structure corpus Keywords sequence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于条件随机场的中文时间短语识别
被引量:
16
2
作者
朱莎莎
刘宗田
付剑锋
朱芳
机构
上海大学计算机工程与科学学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第15期164-167,共4页
基金
国家自然科学基金资助项目(60975033)
上海市重点学科建设基金资助项目(J50103)
+1 种基金
上海大学研究生创新基金资助项目(SHUCX091041
SHUCX102174)
文摘
传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。
关键词
中文
时间
短语
时间
短语
识别
条件随机场
时间信息处理
Keywords
Chinese temporal phrase
temporal phrase recognition
Conditional Random Fields(CRFs)
temporal information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文复杂名词短语依存句法分析
被引量:
3
3
作者
陈永波
汤昂昂
姬东鸿
机构
武汉大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2015年第6期1617-1620,共4页
基金
国家自然科学基金资助项目(61173095)
国家自然科学基金重点项目(61133012)
文摘
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2logn)。
关键词
中文
复杂名词
短语
依存句法分析
决策式算法
支持向量机
特征
Keywords
Chinese complex nominal phrase
dependency parsing
deterministic algorithm
SVM
feature
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
结合统计特征和图模型的半监督式中文关键短语抽取方法
被引量:
2
4
作者
谢海华
陈雪飞
都仪敏
吕肖庆
汤帜
机构
北大方正信息产业集团有限公司数字出版技术国家重点实验室
北京大学王选计算机研究所
北京雁栖湖应用数学研究院
出处
《中文信息学报》
CSCD
北大核心
2022年第4期57-65,共9页
基金
国家重点研发计划(2019YFB1406302)
国家自然科学基金(61472014,61573028,61432020)
+1 种基金
北京市自然科学基金(4142023,L192024)
北京新星计划项目(XX2015B010)。
文摘
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。
关键词
中文
关键
短语
抽取
半监督式方法
图模型
统计特征
Keywords
Chinese key phrase extraction
semi-supervised method
graph model
statistical features
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
《面向中文信息处理的现代汉语短语结构规则研究》序
被引量:
4
5
作者
陆俭明
机构
北京大学中文系
出处
《汉语学习》
2000年第5期70-72,共3页
关键词
《面向
中文
信息处理的现代汉语
短语
结构规则研究》
中文
信息处理
机器翻译系统
句处理
汉语学习
分类号
G256.4 [文化科学—图书馆学]
H085 [语言文字—语言学]
下载PDF
职称材料
题名
一种基于聚类与分类结合的汉语隐喻短语识别方法
6
作者
符建辉
王石
曹存根
机构
中国科学院计算技术研究所智能信息处理实验室
中国科学院大学
出处
《中文信息学报》
CSCD
北大核心
2018年第2期22-28,49,共8页
基金
国家自然科学基金(30973713
61035004
+4 种基金
61173063
61203284
91224006)
国家社科基金(10AYY003)
科技部项目(201303107)
文摘
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。
关键词
隐喻
短语
识别
中文
隐喻
短语
短语
聚类
Keywords
metaphor phrase recognition
Chinese metaphor phrase
phrases clustering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
交通信息基础数据元中文名称短语相似度算法
被引量:
1
7
作者
张绍阳
关胜超
张恒
李欣
机构
长安大学信息工程学院
出处
《长安大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第5期117-122,共6页
基金
交通运输部西部交通科技项目(2012 364 223 500)
文摘
交通信息基础数据元与用户数据项的中文名称短语的对应是数据元建立、标准符合性检测等工作的基础。为了提高名称对应的准确率,提出了一种利用数据元名称组成的特定结构进行数据项名称与数据元名称进行对应的方法,并给出了相似度的计算算法。该算法将用户数据项名称短语的省略情况按照中文语言习惯进行总结,采用数学中干扰修正的思想,分别按照语素和词素对相似度值进行计算,并利用相同语素的个数对相似度进行修正,综合得出词语的相似度。最后利用交通运输部实际工程数据进行了验证。研究结果表明:本算法较文献[1]中算法的'有改善'率提升了91.20%,'明显改善'率提升了9.62%;较文献[2]中的'有改善'率提升了88.40%,'明显改善'率提升了66.80%。
关键词
交通工程
交通信息数据元
中文短语
相似度算法
Keywords
traffic engineering
data element of transportation information
phrase of Chinese name
similarity algorithm
分类号
U411 [交通运输工程—道路与铁道工程]
原文传递
题名
融合句法信息的双语词对齐方法研究
8
作者
张贯虹
机构
合肥学院网络与智能信息处理重点实验室
出处
《电脑知识与技术》
2014年第3期1519-1523,共5页
基金
安徽省教育厅自然科学基金一般项目(KJ20128147)
安徽省高等学校省级优秀青年人才基金项目(2012SQRL171)
安徽省自然科学基金青年项目(1308085QF115)
文摘
词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。
关键词
句子对齐
短语
翻译
中文短语
Keywords
Sentence Alignment
Phrase Translation Probabilistic
Chinese Scripts
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于树状语料库的中文短语相似度计算
费洪晓
莫天池
林青
杨艳群
谭叶清
严星俊
《计算机应用与软件》
CSCD
北大核心
2013
4
下载PDF
职称材料
2
基于条件随机场的中文时间短语识别
朱莎莎
刘宗田
付剑锋
朱芳
《计算机工程》
CAS
CSCD
北大核心
2011
16
下载PDF
职称材料
3
中文复杂名词短语依存句法分析
陈永波
汤昂昂
姬东鸿
《计算机应用研究》
CSCD
北大核心
2015
3
下载PDF
职称材料
4
结合统计特征和图模型的半监督式中文关键短语抽取方法
谢海华
陈雪飞
都仪敏
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022
2
下载PDF
职称材料
5
《面向中文信息处理的现代汉语短语结构规则研究》序
陆俭明
《汉语学习》
2000
4
下载PDF
职称材料
6
一种基于聚类与分类结合的汉语隐喻短语识别方法
符建辉
王石
曹存根
《中文信息学报》
CSCD
北大核心
2018
0
下载PDF
职称材料
7
交通信息基础数据元中文名称短语相似度算法
张绍阳
关胜超
张恒
李欣
《长安大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
1
原文传递
8
融合句法信息的双语词对齐方法研究
张贯虹
《电脑知识与技术》
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部