期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 被引量:2
1
作者 吴树芳 杨强 +1 位作者 侯晓舟 尹萌 《情报杂志》 CSSCI 北大核心 2023年第11期119-125,共7页
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提... [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。 展开更多
关键词 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 GuidedLDA word2Vec
下载PDF
基于情感信息预处理和Bi-GRU的虚假评论识别模型 被引量:2
2
作者 张玉莹 朱广丽 +2 位作者 张友强 孙争艳 张顺香 《广西科学》 CAS 北大核心 2023年第1期169-176,共8页
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元... 虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)和K均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR SG提高了虚假评论识别的准确率。 展开更多
关键词 虚假评论识别 情感信息预处理 情感种子词 Bi-GRU 目标优化函数
下载PDF
中文基础情感词词典构建方法研究 被引量:86
3
作者 柳位平 朱艳辉 +2 位作者 栗春亮 向华政 文志强 《计算机应用》 CSCD 北大核心 2009年第10期2875-2877,共3页
词语的情感倾向判别是文章语义情感倾向研究的基础工作。利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果。在中文词语相似度计算方法的基础上,提出... 词语的情感倾向判别是文章语义情感倾向研究的基础工作。利用中文情感词建立一个基础情感词典,为专一领域情感词识别提供一个核心子集,能够有效地在语料库中识别及扩展情感词集,并提高分类效果。在中文词语相似度计算方法的基础上,提出了一种中文情感词语的情感权值的计算方法,并以HOWNET情感词语集为基准,构建了中文基础情感词典。利用该词典结合TF-IDF特征权值计算方法,对中文文本情感倾向进行判别,实验结果表明,该方法取得了不错的分类效果。 展开更多
关键词 基础情感词词典 倾向性分析 情感权值 种子词
下载PDF
基于种子词的微博表情符情感倾向判定方法 被引量:5
4
作者 王伟 周咏梅 +3 位作者 阳爱民 林江豪 陈昱宏 曾文俊 《数据采集与处理》 CSCD 北大核心 2017年第1期198-204,共7页
情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情... 情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情符,生成表情符标注集;对于情感倾向不明显的表情符,利用种子情感词和已得到的表情符标注集构建模型,实现其情感倾向的自动判定。实验结果表明,本文方法在微博表情符情感倾向的自动判定上有很好的效果。 展开更多
关键词 情感分类 机器学习 微博表情符 种子词 自动标注
下载PDF
基于Web数据的特定领域双语词典抽取 被引量:11
5
作者 张永臣 孙乐 +4 位作者 李飞 李文波 西野文人 于浩 方高林 《中文信息学报》 CSCD 北大核心 2006年第2期16-23,共8页
双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语... 双语词典是跨语言检索以及机器翻译等自然语言处理应用的基础资源。本文提出了一种从非平行语料中抽取特定领域双语词典的算法。首先给出了算法的基本假设并回顾了相关的研究方法,然后详细给出了利用词间关系矩阵法从特定领域非平行语料中抽取双语词典的过程,最后通过大量实验分析了种子词选择对词典抽取结果的影响,实验结果表明种子词的数量和频率对词典抽取结果有积极作用。 展开更多
关键词 计算机应用 中文信息处理 双语词典 词间关系矩阵 非平行语料 种子词
下载PDF
一种基于词聚类的中文文本主题抽取方法 被引量:17
6
作者 陈炯 张永奎 《计算机应用》 CSCD 北大核心 2005年第4期754-756,共3页
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按... 提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。 展开更多
关键词 主题抽取 词聚类 种子词 主题因子 信息论 词同现 CHI统计
下载PDF
基于Boot Strapping的中文实体关系自动生成 被引量:3
7
作者 张素香 李蕾 +1 位作者 秦颖 钟义信 《微电子学与计算机》 CSCD 北大核心 2006年第12期15-18,共4页
针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关... 针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关系的特征词。在此基础上,利用最近邻居的原则,进而生成更多的抽取模板。丰富了知识库,为分析二元实体关系奠定基础,使得生成复杂的消息模板成为可能,同时极大地减轻手工建立模板的复杂度,有利于系统进行移植。 展开更多
关键词 BOOT Strapping 种子词 种子模板 标量聚类
下载PDF
一种基于词聚类的文本特征描述方法 被引量:4
8
作者 陈炯 张永奎 《计算机系统应用》 2011年第2期211-215,共5页
针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中... 针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seed words)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项。实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet中概念信息的局限性,提高了文本分类的精确度。 展开更多
关键词 文本特征描述 词共现 词聚类 种子词
下载PDF
晶种法合成ZSM-5分子筛规律的研究 被引量:11
9
作者 陈艳红 李春义 杨朝合 《石油炼制与化工》 CAS CSCD 北大核心 2013年第11期24-28,共5页
摘要:以水玻璃为硅源,采用晶种替代有机模板剂在水热条件下合成ZSM-5分子筛。考察晶化温度、晶化时间、水硅比及合成凝胶pH值对ZSM-5分子筛相对结晶度的影响。结果表明,在无机体系中,当水硅摩尔比En(H2O)/n(SiO2)]为18时,合成... 摘要:以水玻璃为硅源,采用晶种替代有机模板剂在水热条件下合成ZSM-5分子筛。考察晶化温度、晶化时间、水硅比及合成凝胶pH值对ZSM-5分子筛相对结晶度的影响。结果表明,在无机体系中,当水硅摩尔比En(H2O)/n(SiO2)]为18时,合成ZSM-5分子筛的最佳条件为:晶化时间10~13h,晶化温度180℃,凝胶pH控制在9左右。采用XRD、SEM等方法对采用晶种和引入有机模板剂正丁胺两种方法合成的ZSM-5分子筛样品进行表征,并以大庆VG0为原料,在重油微反装置上对分子筛进行催化性能评价,结果表明:在原料配比相同的情况下,两种方法合成的ZSM-5分子筛样品的结晶度、晶体形貌都相差不大,且具有较高的结晶度;两种方法合成的ZSM-5分子筛的催化性能差别不大。 展开更多
关键词 ZSM-5 晶种 结晶度 水玻璃
下载PDF
中国大鲵子二代制种技术的研究 被引量:5
10
作者 刘鉴毅 谭永安 +5 位作者 庄平 李长松 谭启森 刘明国 陈溢安 卢兴孙 《经济动物学报》 CAS 2004年第3期167-170,共4页
为了推动中国大鲵人工生态繁殖和迁地保护的成功 ,系统介绍了中国大鲵子二代制种的技术路线 ,首先收集野生中国大鲵经人工驯养成为亲本种鲵 ,种鲵进行人工催产获得卵子、精子 ,经人工授精产生受精卵 ,再经人工孵化获得子一代幼苗 ,子一... 为了推动中国大鲵人工生态繁殖和迁地保护的成功 ,系统介绍了中国大鲵子二代制种的技术路线 ,首先收集野生中国大鲵经人工驯养成为亲本种鲵 ,种鲵进行人工催产获得卵子、精子 ,经人工授精产生受精卵 ,再经人工孵化获得子一代幼苗 ,子一代经人工培育 2~ 3年产生子一代后备种鲵 ,再通过生理生态人工强化培育获得 1998年、1999年子一代亲本 ,然后经人工繁殖产生子二代大鲵 ,子二代大鲵可以放归自然保护区或供科研、观赏、商品鲵等利用。从 1998~ 2 0 0 3年共生产子一代 1 5万余尾 ,2 0 0 2年生产子二代 12 6 0尾 ,2 0 0 3年 4 80 6尾 (2年合计子二代 6 6 0 6尾 ) ,种群数量从最初的 1996年的 10 0尾增加到 2 0 0 3年的 2 31万尾 ,增长2 31倍 ,实践证明 ,此技术路线正确、可行。 展开更多
关键词 中国大鲵 子二代 制种 人工繁殖
下载PDF
基于表情符号的情感词典的构建研究 被引量:12
11
作者 林江豪 顾也力 +2 位作者 周咏梅 阳爱民 陈锦 《计算机技术与发展》 2019年第6期181-185,共5页
情感词典是文本情感分析的基础资源。利用表情符号明显的情感表达作用,提出一种基于种子表情符和SO-PMI算法结合的情感词典构建方法。选择44个情感明显、内容丰富的表情符号词作为种子情感集合。构建过程融合了TF-IDF值在词汇重要程度... 情感词典是文本情感分析的基础资源。利用表情符号明显的情感表达作用,提出一种基于种子表情符和SO-PMI算法结合的情感词典构建方法。选择44个情感明显、内容丰富的表情符号词作为种子情感集合。构建过程融合了TF-IDF值在词汇重要程度的度量作用,有效选择候选情感词集。基于SO-PMI算法,在大量语料中计算候选情感词汇与种子表情符号之间的情感共现信息,进而确定词汇的情感权值和极性。在500万条微博语料中,计算并构建情感词典SentiNet,共有情感词汇13814个,其中正向词汇6885个,负向词汇6929个。将SentiNet应用于微博文本情感分析任务中,实验结果表明,SentiNet能实现情感词的情感表示,并可应用于大规模的微博语料情感分析任务。该方法融合了情感词的重要度衡量优势和种子表情符号集的情感表达优势,证明了获得的情感权值有效。 展开更多
关键词 情感词典 情感词 情感权值 种子表情符号 SO-PMI TF-IDF
下载PDF
4种油茶籽油中多酚类物质的抗氧化活性比较研究 被引量:28
12
作者 周晴芬 徐洲 +2 位作者 魏岚 李倩倩 丁春邦 《中国油脂》 CAS CSCD 北大核心 2014年第1期35-38,共4页
采用80%乙醇溶液分别提取雅安当地的白花和红花油茶籽毛油与精炼油中的多酚类物质,比较研究这4种油茶籽油中多酚类物质的抗氧化活性。结果表明:多酚类物质的含量分别为1.41(白花油茶籽毛油)、1.04(白花油茶籽精炼油)、0.75(红花油茶籽毛... 采用80%乙醇溶液分别提取雅安当地的白花和红花油茶籽毛油与精炼油中的多酚类物质,比较研究这4种油茶籽油中多酚类物质的抗氧化活性。结果表明:多酚类物质的含量分别为1.41(白花油茶籽毛油)、1.04(白花油茶籽精炼油)、0.75(红花油茶籽毛油)、0.68μg/mL(红花油茶籽精炼油);4种油茶籽油多酚类物质均表现出较强的抗氧化活性,并随多酚含量的增加而增强;白花油茶籽油中多酚类物质的抗氧化能力均强于红花油茶籽油中的;毛油相对于精炼油均具有更强的抗氧化作用;白花油茶籽毛油中多酚类物质的抗氧化活性不稳定。 展开更多
关键词 白花油茶籽油 红花油茶籽油 多酚类物质 抗氧化活性
下载PDF
在线评论文本特征表示方法研究 被引量:1
13
作者 王倩倩 陈康 《金陵科技学院学报(社会科学版)》 2019年第1期56-60,共5页
随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势。针对大数据环境下网络评论文本空间高维的现象,提出借助商品标题和商品描述进行二重筛选的网络评论文本特征表示方法。该方法借助种子词而... 随着新兴技术与新的商业交易模式不断涌现,网络交易激增,网络交易评论也呈现出爆发式增长态势。针对大数据环境下网络评论文本空间高维的现象,提出借助商品标题和商品描述进行二重筛选的网络评论文本特征表示方法。该方法借助种子词而不是主题词典描述文本特征,降低了文档维度,减少了迭代次数,提高了在线评论文本分类的速度;同时,在文本映射时经过直接映射和间接映射二重筛选,减少了文本分类的疏漏,提高了文本分类的精度。 展开更多
关键词 文本表示 种子词 词聚类 文本分类 降维 在线评论 文本特征
下载PDF
从搭配知识获取最优种子的词义消歧方法 被引量:13
14
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 刘辉 《中文信息学报》 CSCD 北大核心 2005年第1期30-35,共6页
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出... 基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出了通过机器学习初始搭配实例获取最优种子 ,再由最优种子扩增更多指示词 ,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对 8个多义词进行消歧的测试实验中取得了 87 7%的平均正确率。 展开更多
关键词 人工智能 自然语言处理 自然语言处理 词义消歧 搭配 种子优选
下载PDF
种子乳液聚合复合微粒形态的研究进展 被引量:4
15
作者 庞兴收 成国祥 陆书来 《胶体与聚合物》 2002年第1期30-34,共5页
摘 要 对加料方式、单体亲水性、引发剂等因素对复合微粒形态形成的影响作了介绍;总结了复合微粒形态的热力学预测方法,尤其对界面自由能量的变化最小原则进了评述。同时,讨论了复合微粒形态动力学和复合微粒形态设计及功能的研究进展。
关键词 复合微粒 形态 种子乳液聚合 研究进展 加料方式 单体亲水性 引发剂
下载PDF
盐胁迫对油菜种子萌发的影响 被引量:21
16
作者 李春龙 《安徽农业科学》 CAS 北大核心 2008年第26期11198-11199,共2页
[目的]研究油菜品种的耐盐性。[方法]以5个油菜品种为材料,用不同浓度的NaCl溶液(0.2%、0.4%、0.6%、0.8%和1.0%)对其进行处理,清水处理为对照,测种子发芽率、幼苗根长和苗高。[结果]NaCl浓度为1.0%时,蓉油11号和油研10号的发芽率受到... [目的]研究油菜品种的耐盐性。[方法]以5个油菜品种为材料,用不同浓度的NaCl溶液(0.2%、0.4%、0.6%、0.8%和1.0%)对其进行处理,清水处理为对照,测种子发芽率、幼苗根长和苗高。[结果]NaCl浓度为1.0%时,蓉油11号和油研10号的发芽率受到显著抑制,较CK下降6.9%;NaCl浓度为0.4%时,杂双2号的发芽率受到显著抑制,较CK降低22.6%。NaCl浓度为1.0%时,杂交种2号、杂双2号和蓉油11号的根长明显受到抑制,分别较CK缩短25.4%、35.3%和33.3%。杂交种2号、杂双2号、蓉油11号、绵油11号和油研10号的苗高受到显著抑制时的NaCl浓度分别为0.2%、0.6%、0.6%、0.2%和0.6%,其苗高分别较CK降低11.8%,28.8%、13.5%、8.1%和27.8%。[结论]蓉油11号和油研10号较耐盐。 展开更多
关键词 盐胁迫 油菜 种子萌发 耐盐性
下载PDF
我国牧草种子整理工作方法论浅议
17
作者 任继周 《草业科学》 CAS CSCD 北大核心 1989年第3期7-9,共3页
提要牧草种子工作,种子科学和种子生产是草业科学的重要支柱。牧草种子科学又是现代草业科学的四大构成部分之一,因此,牧草种子工作方法论的研究应当提上议事日程。牧草品种形态学鉴定、生态学鉴定、细胞学鉴定、种子化学鉴定、计算机... 提要牧草种子工作,种子科学和种子生产是草业科学的重要支柱。牧草种子科学又是现代草业科学的四大构成部分之一,因此,牧草种子工作方法论的研究应当提上议事日程。牧草品种形态学鉴定、生态学鉴定、细胞学鉴定、种子化学鉴定、计算机分析处理等已成为牧草种子整理的必要程序。牧草种子区城试验是综合评价种子优劣不可缺少的手段,符合国家以至国际检验标准的牧草种子,只有在申请登记并注册以后才能投放市场。 展开更多
关键词 中国 牧草 种子 工作法 管理
下载PDF
基于种子词汇的话题标签抽取研究 被引量:7
18
作者 寇宛秋 李芳 《中文信息学报》 CSCD 北大核心 2013年第5期114-121,143,共9页
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapp... 传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。 展开更多
关键词 话题标签 种子词抽取 bootstrapping算法
下载PDF
基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建 被引量:3
19
作者 汪舸 吴方君 《计算机工程与科学》 CSCD 北大核心 2020年第7期1302-1308,共7页
随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1... 随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1类方法主要采用Google的自然语言处理工具word2vec和PMI,寻找与种子词相似性较大或共现次数较多的词添加到屏蔽词典中去;第2类方法主要采用TF-IDF、LDA主题模型和信息增益IG的方法,从垃圾弹幕数据集中提取关键词来构建屏蔽词典。最后,对所构建的屏蔽词典进行评测,实验结果表明,词典规模在400~500时,弹幕屏蔽效果最好。同时,还考察了LDA主题数和数据集规模等因素对弹幕屏蔽效果的影响。 展开更多
关键词 弹幕 关键词屏蔽 屏蔽词典 种子词
下载PDF
基于条件随机场和词向量的能源政策领域新词发现 被引量:5
20
作者 张一帆 张军莲 +3 位作者 汪鸣泉 吕正 黄永健 顾倩荣 《南京理工大学学报》 EI CAS CSCD 北大核心 2021年第1期37-45,共9页
随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于... 随着气候变化成为全球议题,对能源政策文件进行量化分析与研究,具有非常重要的意义。现有的中文分词技术应用在能源政策这一特定领域时,由于无法正确识别领域新词,往往很难取得令人满意的效果。针对新词发现这一问题,该文提出一种基于条件随机场(Conditional random field,CRF)和词向量的能源政策新词发现方法。利用无监督方法,在无需人工标注的情况下,提升CRF模型在特定领域的适应性。提出了种子词典的概念,通过关键词提取并辅以少量人工筛选和补充的方式,构建能源政策领域的种子词典。将种子词典和CRF模型标注结果相结合,并利用词向量筛选,完成领域新词的发现。在真实能源政策文本数据上的试验结果表明,该方法能够在较低人工成本的前提下,有效地实现能源政策领域的新词发现,进而提高中文分词在能源政策文本的表现。 展开更多
关键词 能源政策 新词发现 条件随机场 种子词典 词向量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部