期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
利用N-元模型构建甲骨卜辞词元库的研究
1
作者 开金宇 栗青生 《计算机应用与软件》 CSCD 2010年第9期26-27,36,共3页
准确识别甲骨卜辞词元是使用计算机技术正确切分与处理甲骨卜辞信息的关键。当前,在甲骨学研究领域没有专门的甲骨卜辞词元库,自动、高效、科学、动态地构建甲骨卜辞词元库非常重要。依据甲骨卜辞特点及拥有的大量甲骨卜辞资源,提出基... 准确识别甲骨卜辞词元是使用计算机技术正确切分与处理甲骨卜辞信息的关键。当前,在甲骨学研究领域没有专门的甲骨卜辞词元库,自动、高效、科学、动态地构建甲骨卜辞词元库非常重要。依据甲骨卜辞特点及拥有的大量甲骨卜辞资源,提出基于N-元模型的Bi-gram模型构建甲骨卜辞词元库的技术方法。实验表明,将统计计算语言模型用于甲骨卜辞的词元库的构建具有很强的实用性和可操作性。 展开更多
关键词 N-元模型 bi-gram模型 高频字串 甲骨卜辞词元
下载PDF
一种面向模糊测试的GUI程序空转状态实时检测方法 被引量:5
2
作者 张兴 冯超 +1 位作者 雷菁 唐朝京 《软件学报》 EI CSCD 北大核心 2018年第5期1288-1302,共15页
针对当前Windows下GUI软件模糊测试过程中,由于进入空转状态时刻判断不准确导致的测试效率降低的问题,利用自然语言处理的方法在函数执行迹的基础上来解决空转状态识别问题.首先分析了传统程序分析方法在空转状态判断上遇到的困难,提出... 针对当前Windows下GUI软件模糊测试过程中,由于进入空转状态时刻判断不准确导致的测试效率降低的问题,利用自然语言处理的方法在函数执行迹的基础上来解决空转状态识别问题.首先分析了传统程序分析方法在空转状态判断上遇到的困难,提出了基于Bi-Gram模型以及统计分析的空转状态识别方法.通过Bi-Gram算法,将程序函数执行迹转换为概率特征序列;利用空转状态在特征序列中的方差特征,将空转状态特征序列从程序特征序列中分离,在此基础上,进一步提取空转状态特征并实现空转状态实时检测算法.通过对典型源码与二进制软件程序的实验测试表明,该方法在效率和准确性上优于传统方法,能够支撑对GUI程序模糊测试的需求. 展开更多
关键词 模糊测试 bi-gram模型 GUI程序测试 空转状态测试
下载PDF
基于统计方法的中文姓名识别 被引量:34
3
作者 黄德根 杨元生 +2 位作者 王省 张艳丽 钟万勰 《中文信息学报》 CSCD 北大核心 2001年第2期31-37,44,共8页
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式... 专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文建立了有监督学习机制 ,提出了句子切分结果可信度等概念 ,并在此基础上建立了较好的统计模型 ,系统闭式精确率和召回率分别达 95 .97%和 95 .5 2 % ,开式精确率和召回率分别达 92 .37%和 88.6 2 % 展开更多
关键词 双词同现频度 单词频度 学习机制 中文姓名识别 自动分词 统计模型 召回率 可信度
下载PDF
基于概率统计技术和规则方法的新词发现 被引量:28
4
作者 贾自艳 史忠植 《计算机工程》 CAS CSCD 北大核心 2004年第20期19-21,83,共4页
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、... 新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。 展开更多
关键词 新词发现 短语抽取 二元语法 语料库
下载PDF
基于词性和语义知识的汉语句法规则学习 被引量:8
5
作者 苑春法 陈刚 黄昌宁 《中文信息学报》 CSCD 北大核心 2001年第3期1-8,共8页
本文提出了一种汉语句法规则学习的新方法。本方法的特点是 :在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则 ,而且还能自动发现词类搭配中的歧义结构 ,并利用语义和上下文相关信... 本文提出了一种汉语句法规则学习的新方法。本方法的特点是 :在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则 ,而且还能自动发现词类搭配中的歧义结构 ,并利用语义和上下文相关信息将歧义规则在句法分析之前进行排除。实验结果表明 ,该方法较好地解决了汉语句法规则的自动获取及排歧问题并极大地降低了句法分析的难度 ,显示了很好的应用前景。 展开更多
关键词 句法分析 二元语义规则 二元词性规则 禁止规则 汉语
下载PDF
基于统计和规则的未登录词识别方法研究 被引量:21
6
作者 周蕾 朱巧明 《计算机工程》 CAS CSCD 北大核心 2007年第8期196-198,共3页
介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未... 介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%。 展开更多
关键词 未登录词识别 贪心算法 二元模型 互信息
下载PDF
基于时空特征点的非监督姿态建模和行为识别的算法研究 被引量:8
7
作者 王传旭 刘云 厉万庆 《电子学报》 EI CAS CSCD 北大核心 2011年第8期1751-1756,共6页
姿态建模是行为描述和识别的关键环节,提出了基于时空特征点的姿态建模方法.提取样本库中姿态的时空特征点作为底层特征,一个姿态对应一个时空特征点集合;采用非监督分类方法对姿态样本归类,获得典型姿态的聚类结果,每个典型姿态类别采... 姿态建模是行为描述和识别的关键环节,提出了基于时空特征点的姿态建模方法.提取样本库中姿态的时空特征点作为底层特征,一个姿态对应一个时空特征点集合;采用非监督分类方法对姿态样本归类,获得典型姿态的聚类结果,每个典型姿态类别采用基于EM的高斯混合模型进行建模.计算各典型姿态间的转移概率,建立状态已知的描述人类多种行为的VMM模型,实现对行为的描述.针对行为识别问题,提出将汉字分词的二元语法模型应用于行为识别.实验证明该算法具有计算复杂度低、鲁棒性强等优点. 展开更多
关键词 行为识别 姿态建模 时空特征点 二元语法模型
下载PDF
一种基于新词发现的Web文本表示方法 被引量:4
8
作者 吴春颖 王士同 蔡崇超 《计算机应用》 CSCD 北大核心 2008年第3期764-767,共4页
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经... Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 展开更多
关键词 中文分词 二元语法 互信息 新词发现 Web文本表示
下载PDF
基于二元语法的N-最大概率中文粗分模型 被引量:12
9
作者 吴春颖 王士同 《计算机应用》 CSCD 北大核心 2007年第12期2902-2905,共4页
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有... 中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声—信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型的有效性。 展开更多
关键词 二元语法 N-最大概率 中文粗分模型
下载PDF
基于图像识别的电能表智能建档系统研究 被引量:6
10
作者 赵兴旺 叶剑斌 《电测与仪表》 北大核心 2020年第24期139-144,共6页
目前,省级计量检定中心正在向智能化、无人化、高可靠方向发展,但在电能计量设备到货建档环节仍采用人工维护方式。鉴于此,依据电能表主要建档参数均印刻在电能表表面、位置相对固定的特点,开展了基于图像识别的电能表智能建档技术研究... 目前,省级计量检定中心正在向智能化、无人化、高可靠方向发展,但在电能计量设备到货建档环节仍采用人工维护方式。鉴于此,依据电能表主要建档参数均印刻在电能表表面、位置相对固定的特点,开展了基于图像识别的电能表智能建档技术研究,提出了基于SIFT特征区匹配方法、基于大津法的改进垂直投影直方图方法以及基于Bi-gram语言模型的电能表参数串识别后处理方法。应用上述技术研制了电能表智能建档系统,实现了单相电能表参数、三相电能表参数的自动识别和建档等功能。通过实验,验证了电能表智能建档系统可准确定位、切分和识别建档参数,为计量设备智能建档的推广应用提供理论和实践指导。 展开更多
关键词 电能计量生产 电能表 智能建档 图像识别 识别后处理 bi-gram
下载PDF
基于N元语法的汉语自动分词系统研究 被引量:2
11
作者 石佳 蔡皖东 《微电子学与计算机》 CSCD 北大核心 2009年第7期98-101,共4页
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文&qu... 提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用. 展开更多
关键词 一元语法 二元语法 中文分词 词性标注
下载PDF
用基于词的二元模型消解交集型分词歧义 被引量:7
12
作者 陈小荷 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页
解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明... 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 展开更多
关键词 中文信息处理 基于词的二元模型 交集型分词歧义
下载PDF
词结合型未登录词识别方法研究
13
作者 周蕾 朱巧明 《常熟理工学院学报》 2012年第4期110-114,共5页
介绍一种基于词结合提取的未登录词识别方法.该方法对碎片分词后的文本建立二元模型,结合互信息和规则过滤提取由若干个词组合而成的未登录词(组).测试结果准确率为84.71%,召回率为72.13%.
关键词 未登录词 二元模型 互信息
下载PDF
多特征融合的Voting-SRM情感分类研究 被引量:10
14
作者 赵乐 麦范金 张兴旺 《小型微型计算机系统》 CSCD 北大核心 2019年第11期2269-2273,共5页
情感分类是自然语言处理领域的一个核心问题,其目的是判断评论文本的情感极性,并挖掘其蕴含的情感价值信息.为了提取评论文本中潜在的情感信息,提高分类精度,本文提出了多特征融合的Voting-SRM情感分类方法.结合词性特征,语法特征等,提... 情感分类是自然语言处理领域的一个核心问题,其目的是判断评论文本的情感极性,并挖掘其蕴含的情感价值信息.为了提取评论文本中潜在的情感信息,提高分类精度,本文提出了多特征融合的Voting-SRM情感分类方法.结合词性特征,语法特征等,提取名词,动词,形容词,副词等特征,然后运用软投票机制,结合随机梯度下降算法、随机森林、神经网络等算法,对已获取评论文本进行极性二分类.本文通过对比实验,验证了该方法的有效性. 展开更多
关键词 词性标注 二元语法 随机梯度下降 投票机制 情感分类
下载PDF
基于LightGBM的蛋白质类泛素化修饰位点预测
15
作者 陈焕超 魏志森 +2 位作者 於东军 杨敬民 杨静宇 《南京理工大学学报》 CAS CSCD 北大核心 2022年第2期156-163,共8页
蛋白质类泛素化修饰位点的准确识别对基础研究和药物开发都具有重要意义。该文提出了一种基于蛋白质序列特征的类泛素化修饰位点预测模型。该模型结合氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征,训练一种轻量型梯度提升... 蛋白质类泛素化修饰位点的准确识别对基础研究和药物开发都具有重要意义。该文提出了一种基于蛋白质序列特征的类泛素化修饰位点预测模型。该模型结合氨基酸的物理化学属性统计特征和氨基酸序列二元语法模式特征,训练一种轻量型梯度提升机(Light gradient boosting machine,LightGBM)分类器预测某个蛋白质序列的类泛素化修饰位点。该文对比了不同特征的鉴别性,以及不同分类模型的预测性能。在基准数据集上的试验结果证明了该文所提方法的有效性,相比于现有方法在性能上取得了明显的提升,马修斯相关系数为91.64%。 展开更多
关键词 蛋白质翻译后修饰 蛋白质类泛素化修饰位点 基于序列的预测 轻量型梯度提升机 二元语法模式
下载PDF
基于最短路径的二元语法中文词语粗分模型的研究 被引量:1
16
作者 甘秋云 《现代计算机》 2013年第17期7-10,共4页
词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,设计一种基于最短路径的二元语法中文词语粗分模型。实验结果表明,... 词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,设计一种基于最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。 展开更多
关键词 中文分词 最短路径 二元语法 词语粗分模型
下载PDF
非金属路易斯酸催化的双吲哚甲烷类生物碱合成工艺研究
17
作者 亓亮 林锐 《化学世界》 CAS 2021年第3期155-158,共4页
以吲哚(1)和芳香醛(2)类为原料,B(C_(6)F_(5))_(3)为催化剂,在二氯甲烷(DCM)中制备双吲哚甲烷类生物碱,对反应温度、溶剂、n(1)∶n(2)比等工艺参数进行优化,并进行了克级放大。结果表明,在最优条件下[DCM作溶剂, 40℃,4 h,n(1)∶n(2)=1.... 以吲哚(1)和芳香醛(2)类为原料,B(C_(6)F_(5))_(3)为催化剂,在二氯甲烷(DCM)中制备双吲哚甲烷类生物碱,对反应温度、溶剂、n(1)∶n(2)比等工艺参数进行优化,并进行了克级放大。结果表明,在最优条件下[DCM作溶剂, 40℃,4 h,n(1)∶n(2)=1.1∶0.5,x((B(C_(6)F_(5))_(3))=1%],双吲哚甲烷类生物碱3a~3d产率为79%~93%。 展开更多
关键词 双吲哚甲烷 B(C_(6)F_(5))_(3) 工艺参数 克级放大
下载PDF
航运联盟背景下船舶绿色燃料改造问题
18
作者 孙薇薇 梁承姬 +3 位作者 石健 王钰 张悦 鲁斌 《大连海事大学学报》 CAS CSCD 北大核心 2024年第2期159-167,共9页
在国际海事组织(IMO)的减排战略和政府减排政策推动下,航运公司开始改造船舶以使其使用绿色燃料。但船舶在改造期间无法完成运输任务,无形中阻碍了船舶改造计划。在该背景下,航运公司以船队联盟方式进行合作,通过协调运输任务,提高船舶... 在国际海事组织(IMO)的减排战略和政府减排政策推动下,航运公司开始改造船舶以使其使用绿色燃料。但船舶在改造期间无法完成运输任务,无形中阻碍了船舶改造计划。在该背景下,航运公司以船队联盟方式进行合作,通过协调运输任务,提高船舶改造率。针对上述问题,建立双层规划模型,其中,上层以联盟整体经济效益最大化为目标,下层以实现班轮运输利润最大化为目标。该模型为由三家联盟公司和班轮运输任务组成的多领导者-单跟随者博弈,形成具有均衡约束的均衡问题(EPEC),利用KKT条件将模型转化为多个均衡约束规划问题(MPEC),采用对角化算法(DM)求解,并对联盟效果进行了灵敏度分析。结果表明,该模型与求解方法具有可行性,可为航运脱碳提供新思路。 展开更多
关键词 绿色航运 航运联盟 双层模型 多个均衡约束规划问题(MPEC) 均衡约束的均衡问题(EPEC) 对角化算法(DM)
原文传递
基于N-gram的双向匹配中文分词方法 被引量:12
19
作者 凤丽洲 杨贵军 +1 位作者 徐雪 徐玉慧 《数理统计与管理》 CSSCI 北大核心 2020年第4期633-643,共11页
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型... 针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。 展开更多
关键词 N-GRAM模型 分词歧义 评测指标 双向匹配
原文传递
論“比”字差比句式的産生時代及其來源
20
作者 池明明 楊榮祥 《汉语史学报》 2020年第1期42-56,共15页
以往對"比"字差比句式的研究主要關注"X比YA"這一種形式。學界一般認爲此句式的形成時代不會早於唐代,其中的比較結果A受副詞修飾或者後面帶數量補語更是之後的發展。本文從表達差比意義這一點出發,通過調查大量漢... 以往對"比"字差比句式的研究主要關注"X比YA"這一種形式。學界一般認爲此句式的形成時代不會早於唐代,其中的比較結果A受副詞修飾或者後面帶數量補語更是之後的發展。本文從表達差比意義這一點出發,通過調查大量漢代至初唐的注疏、史書等文獻,認爲此一時期的"比"字差比句式有"X比於YA""X比於Y爲A""X比YA"和"X比Y爲A"四種。隨着介詞"於"的衰落,漢至初唐的差比句主要是"X比YA"和"X比Y爲A"。"X比YA"在東漢時期已經有不少用例,至晚在南北朝時期(6世紀早期)就已經很成熟。"X比Y爲A"是東漢以來常用的差比句式,它與"X比YA"句式意義相同,語法功能相似,在經濟原則的驅動下脱落準繫詞"爲",與前一句式合流。與"比"字差比句式平行的還有"X方YA""X方Y爲A"和"X對Y爲A"等句式,但這些句式的使用不如"比"字差比句式廣泛,最終在競争中消失。 展开更多
关键词 差比 “比”字差比句式 語法化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部