期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
泰语人名、地名、机构名实体识别研究 被引量:6
1
作者 王红斌 郜洪奎 +1 位作者 沈强 线岩团 《系统仿真学报》 CAS CSCD 北大核心 2019年第5期1010-1018,共9页
泰语命名实体识别是把泰语文本中的人名、地名、机构名等识别出来。由于泰语构词方法和语法规则复杂,针对这一问题,将泰语命名实体识别任务转化为对泰语句子中的词汇序列进行标记。结合泰语语言特点,选择合适的泰语上下文特征,分别使用... 泰语命名实体识别是把泰语文本中的人名、地名、机构名等识别出来。由于泰语构词方法和语法规则复杂,针对这一问题,将泰语命名实体识别任务转化为对泰语句子中的词汇序列进行标记。结合泰语语言特点,选择合适的泰语上下文特征,分别使用隐马尔科夫模型和条件随机场模型在泰语实体识别训练语料上进行了模型构建,并在测试语料上对所构建的序列标注模型进行了实验验证。实验结果表明使用隐马尔科夫模型和条件随机场模型进行泰语人名、地名、机构名实体识别是可行的,并取得了较好的效果。 展开更多
关键词 命名实体识别 隐马尔科夫统计模型 条件随机场统计模型 序列标注
下载PDF
基于word2vec和依存分析的事件识别研究 被引量:5
2
作者 王红斌 郜洪奎 《软件》 2017年第6期62-65,共4页
如何从大量信息中获取事件已成为关注的焦点,因此事件识别也就越来越重要。传统对于事件抽取采用字典和机器学习方法,字典包含触发词数量有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了基于词向量和依存分析的方法。... 如何从大量信息中获取事件已成为关注的焦点,因此事件识别也就越来越重要。传统对于事件抽取采用字典和机器学习方法,字典包含触发词数量有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了基于词向量和依存分析的方法。该方法利用word2vec模型找到触发词的大量同义词来进行对触发词的扩展,利用依存分析可以发现词与词间的依赖性从而为分类提供特征。最后通过实验进行验证,实验结果表明,该方法是可行的,并且在事件识别和事件要素抽取方面取得了较好结果。 展开更多
关键词 事件识别 事件要素抽取 句间关系 依存分析
下载PDF
触发词扩展、神经网络及依存分析相结合的事件研究 被引量:2
3
作者 王红斌 郜洪奎 《软件导刊》 2018年第1期19-21,40,共4页
事件抽取包括两大任务:识别事件和事件要素抽取。对于事件抽取的传统方法是模式匹配和机器学习。模式匹配包含规则有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了结合触发词扩展、神经网络及依存分析相结合的方法。... 事件抽取包括两大任务:识别事件和事件要素抽取。对于事件抽取的传统方法是模式匹配和机器学习。模式匹配包含规则有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了结合触发词扩展、神经网络及依存分析相结合的方法。该方法利用触发词扩展增加触发词数量,利用神经网络选择特征进行事件分类,利用依存分析挖掘词之间关系。实验证明该方法可行,在事件识别和事件要素抽取方面得到了较好结果。 展开更多
关键词 机器学习 事件识别 事件要素抽取 依存分析 神经网络
下载PDF
ATWebshell:基于对抗学习和长短语义感知的Webshell检测方法
4
作者 郜洪奎 安通鉴 +2 位作者 税雪飞 王欣 范渊 《数据与计算发展前沿》 CSCD 2022年第5期68-76,共9页
【目的】Webshell是一类基于网页脚本的Web攻击程序。黑客攻击者可以通过Webshell获取服务器相关权限来窃取有价值的信息和篡改网页内容等。Webshell种类繁多,现有的检测技术手段无法应对复杂灵活的Webshell,导致Webshell检测效果差,泛... 【目的】Webshell是一类基于网页脚本的Web攻击程序。黑客攻击者可以通过Webshell获取服务器相关权限来窃取有价值的信息和篡改网页内容等。Webshell种类繁多,现有的检测技术手段无法应对复杂灵活的Webshell,导致Webshell检测效果差,泛化能力弱等问题。【方法】针对目前存在问题,本文提出了ATWebshell,一种融合对抗学习和长短语义感知的Webshell检测模型。该模型一方面在词向量层主动引入对抗扰动来模拟攻击者对Webshell检测的对抗攻击,另一方面通过TextCNN和GRU双塔模型联合学习句内和句间的恶意行为。【结果】实验结果表明,本文的模型ATWebshell在提升召回率的同时也提升了精确率。【结论】通过结果证明本文ATWebshell模型的合理性和有效性,本文的研究方法为其它研究提供了思路。 展开更多
关键词 Webshell检测 对抗学习 GRU TextCNN
下载PDF
基于依存树与规则相结合的汉泰新闻事件要素抽取方法 被引量:8
5
作者 程良 郜洪奎 王红斌 《软件导刊》 2018年第7期49-56,63,共9页
针对汉泰新闻事件要素抽取进行研究,首先分析汉泰语言特点,发现泰语的定语、状语和补语后置与中文语法结构类似,进一步分析发现汉泰依存结构相同。因此,通过平行句对构建汉泰依存树,再根据泰语语言特点定义若干规则,利用依存树与规则相... 针对汉泰新闻事件要素抽取进行研究,首先分析汉泰语言特点,发现泰语的定语、状语和补语后置与中文语法结构类似,进一步分析发现汉泰依存结构相同。因此,通过平行句对构建汉泰依存树,再根据泰语语言特点定义若干规则,利用依存树与规则相结合抽取泰语句子的主语、宾语和状语。实验验证,泰语主语名词短语、宾语名词短语和状语名词短语的事件要素抽取正确率分别为62.13%、64.18%和70.21%,说明基于依存树与规则相结合抽取泰语新闻事件元素是可行的。 展开更多
关键词 依存树 规则 泰语 要素抽取 自然语言处理
下载PDF
融合多特征的汉泰双语新闻主题句相似度计算
6
作者 孙帅强 郜洪奎 《软件》 2017年第9期18-22,共5页
句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语... 句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。 展开更多
关键词 汉泰双语 新闻主题句 相似度计算 多特征融合 权重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部