通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-dire...通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)结合的模型(BiLSTM+CRF)进行词块边界标记的识别,其中BiLSTM模型学习上下文特征,CRF模型学习输出标记序列结果的转移特征,达到预测标记序列联合解码的作用;在核心词提取模块,结合Word2vec词向量改进TextRank重要度排序算法,通过加入词语的相似度信息、位置信息、词性信息来提高识别准确度.实验对比了CRF、BiLSTM、BiLSTM+CRF词块识别分别与三种信息组合的TextRank核心词识别的句法边界分析效果,并对比了各句长下每种模型的识别情况.结果表明,使用BiLSTM+CRF联合改进的TextRank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性.展开更多
为改进传统的汉语句法分析算法,采用自顶向下、逆向扫描的分析方法,结合汉语语序的重要特性,提出了一种改进自左向右(left to right,LR)分析算法的汉语层次化句法分析器设计方法。该分析器仅基于当前经验得出十几条汉语语序特征,不断逆...为改进传统的汉语句法分析算法,采用自顶向下、逆向扫描的分析方法,结合汉语语序的重要特性,提出了一种改进自左向右(left to right,LR)分析算法的汉语层次化句法分析器设计方法。该分析器仅基于当前经验得出十几条汉语语序特征,不断逆向扫描语句,结合上下文无关文法和汉语语序规则进行"移进-归约"处理,进而得到汉语层次化分析结果。采用北京大学标记的1998年1~6月份《人民日报》语料进行实验。实验结果显示,能够正确分解的语料达到49.98%,表明改进的分析算法对句法分析具有一定的成效,提高了分析的准确率。展开更多
文摘通过剖析短语结构层次句法分析的层次性和汉语结构特点,提出了一种把核心词作为词块的形式替换、层层进行词块组合的句法结构树.在句法边界分析的过程中,将词块识别和核心词提取分开进行.在词块识别模块,使用双向长短期记忆模型(Bi-directional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)结合的模型(BiLSTM+CRF)进行词块边界标记的识别,其中BiLSTM模型学习上下文特征,CRF模型学习输出标记序列结果的转移特征,达到预测标记序列联合解码的作用;在核心词提取模块,结合Word2vec词向量改进TextRank重要度排序算法,通过加入词语的相似度信息、位置信息、词性信息来提高识别准确度.实验对比了CRF、BiLSTM、BiLSTM+CRF词块识别分别与三种信息组合的TextRank核心词识别的句法边界分析效果,并对比了各句长下每种模型的识别情况.结果表明,使用BiLSTM+CRF联合改进的TextRank识别效果最好,相比于基线LR方法F1值提升了6.58个百分点,整句正确率提升了3.68个百分点,验证了模型的有效性和稳定性.
文摘为改进传统的汉语句法分析算法,采用自顶向下、逆向扫描的分析方法,结合汉语语序的重要特性,提出了一种改进自左向右(left to right,LR)分析算法的汉语层次化句法分析器设计方法。该分析器仅基于当前经验得出十几条汉语语序特征,不断逆向扫描语句,结合上下文无关文法和汉语语序规则进行"移进-归约"处理,进而得到汉语层次化分析结果。采用北京大学标记的1998年1~6月份《人民日报》语料进行实验。实验结果显示,能够正确分解的语料达到49.98%,表明改进的分析算法对句法分析具有一定的成效,提高了分析的准确率。