期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于CRF和多元规则的层次化句法分析 被引量:2
1
作者 杨陈菊 孙俊 +2 位作者 皮乾东 邵玉斌 龙华 《吉林大学学报(理学版)》 CAS 北大核心 2020年第6期1452-1460,共9页
针对句法分析中细粒度和粗粒度组块识别模型的冲突问题,为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响,提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型.先利用CRF算法识别细粒度语句的组块标记序列,然后结合... 针对句法分析中细粒度和粗粒度组块识别模型的冲突问题,为解决句法分析中词语搭配规则多、减少搭配优先级变动的影响,提出一种结合条件随机场(CRF)和多元规则的层次化句法分析模型.先利用CRF算法识别细粒度语句的组块标记序列,然后结合统计和多元规则识别粗粒度组块,在识别出的组块中层层引入不同优先级的二元、三元规则.该模型实现了同时进行细粒度和粗粒度组块的识别,可更好地服务于句法分析.在Chinese TreeBank8.0(CTB8.0)语料上采用5-折交叉验证,结果表明,相比于仅使用二元、三元规则及使用CRF+二元规则的句法分析,该模型的正确率分别约提高12%,3%,5%,验证了该模型有效性和稳定性. 展开更多
关键词 层次句法分析 条件随机场 多元规则 组块识别
下载PDF
结合BiLSTM+CRF和TextRank的句法边界分析
2
作者 杨陈菊 邵玉斌 +2 位作者 孙俊 龙华 皮乾东 《小型微型计算机系统》 CSCD 北大核心 2022年第7期1394-1400,共7页
通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-dire... 通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)结合的模型(BiLSTM+CRF)进行词块边界标记的识别,其中BiLSTM模型学习上下文特征,CRF模型学习输出标记序列结果的转移特征,达到预测标记序列联合解码的作用;在核心词提取模块,结合Word2vec词向量改进TextRank重要度排序算法,通过加入词语的相似度信息、位置信息、词性信息来提高识别准确度.实验对比了CRF、BiLSTM、BiLSTM+CRF词块识别分别与三种信息组合的TextRank核心词识别的句法边界分析效果,并对比了各句长下每种模型的识别情况.结果表明,使用BiLSTM+CRF联合改进的TextRank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性. 展开更多
关键词 词块识别 核心词提取 条件随机场 双向长短期记忆模型 TextRank
下载PDF
基于组块的核心词无监督提取方法
3
作者 杨陈菊 孙俊 +2 位作者 邵玉斌 龙华 皮乾东 《电子测量技术》 2020年第22期88-92,共5页
为了从中文组块中提取出核心词,结合组块核心词识别的3个有效因素,包括词语相似度信息、位置信息和词性信息,提出了一种基于TextRank的无监督的组块核心词提取方法。该方法分别给3个有效因素分配权值,从而改进TextRank关键词提取方法;... 为了从中文组块中提取出核心词,结合组块核心词识别的3个有效因素,包括词语相似度信息、位置信息和词性信息,提出了一种基于TextRank的无监督的组块核心词提取方法。该方法分别给3个有效因素分配权值,从而改进TextRank关键词提取方法;然后递归地计算图中的概率转移矩阵,并且求出组块中每个词对应的重要度的值;最后把最高的重要度值对应的词语作为最终的核心词。在宾州中文树库(CTB8.0)中采集的8 126个组块数据上进行了人工标记和实验。在实验中,对传统经典算法和所提方法进行了比较,结果表明同时考虑3个有效因素的方法稳定性好,总体识别率最高。所提方法对组块核心词的提取效果好,验证了模型的有效性。 展开更多
关键词 组块 核心词 无监督 TextRank
下载PDF
汉语语句算式化融合句法分析 被引量:3
4
作者 皮乾东 邵玉斌 +2 位作者 龙华 杜庆治 杨陈菊 《电子测量技术》 2020年第6期123-127,共5页
为了进一步提高自然语言处理中汉语句法分析的准确性和高效性,提出了一种汉语语句算式化融合的句法分析方法。首先将分词后具有词性的语句映射成类数学算式,结合汉语语序、语言二分等特征,将句法规则设定为不同优先级的语句运算符;再不... 为了进一步提高自然语言处理中汉语句法分析的准确性和高效性,提出了一种汉语语句算式化融合的句法分析方法。首先将分词后具有词性的语句映射成类数学算式,结合汉语语序、语言二分等特征,将句法规则设定为不同优先级的语句运算符;再不断进行语句逆向扫描,找出满足语句运算符的语句算元对;然后进行层次化融合,形成新的词序不变且具有词性的语块序列,在整个层次化融合过程中生成转换矩阵,直到只有一个语句算元或剩下的元素不能再进行融合为止,最后生成句法树。实验表明,在人民日报1~6月份中选取的语料中,该句法分析模型生成的句法树的精度达到73.97%。 展开更多
关键词 自然语言处理 句法分析 数学算式 句法规则
下载PDF
改进LR算法的汉语层次化句法分析器设计
5
作者 皮乾东 邵玉斌 +1 位作者 龙华 杨陈菊 《控制工程》 CSCD 北大核心 2021年第12期2318-2322,共5页
为改进传统的汉语句法分析算法,采用自顶向下、逆向扫描的分析方法,结合汉语语序的重要特性,提出了一种改进自左向右(left to right,LR)分析算法的汉语层次化句法分析器设计方法。该分析器仅基于当前经验得出十几条汉语语序特征,不断逆... 为改进传统的汉语句法分析算法,采用自顶向下、逆向扫描的分析方法,结合汉语语序的重要特性,提出了一种改进自左向右(left to right,LR)分析算法的汉语层次化句法分析器设计方法。该分析器仅基于当前经验得出十几条汉语语序特征,不断逆向扫描语句,结合上下文无关文法和汉语语序规则进行"移进-归约"处理,进而得到汉语层次化分析结果。采用北京大学标记的1998年1~6月份《人民日报》语料进行实验。实验结果显示,能够正确分解的语料达到49.98%,表明改进的分析算法对句法分析具有一定的成效,提高了分析的准确率。 展开更多
关键词 句法分析 LR算法 汉语语序 移进-归约 层次化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部