期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
使用机器学习方法进行新闻的情感自动分类 被引量:107
1
作者 徐军 丁宇新 王晓龙 《中文信息学报》 CSCD 北大核心 2007年第6期95-100,共6页
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率... 本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。 展开更多
关键词 计算机应用 中文信息处理 文本分类 情感分析 贝叶斯 最大熵
下载PDF
基于最大熵的依存句法分析 被引量:11
2
作者 辛霄 范士喜 +1 位作者 王轩 王晓龙 《中文信息学报》 CSCD 北大核心 2009年第2期18-22,共5页
该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型... 该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型获得。训练和测试数据来源于CoNLL2008 Share Task的公用语料。预测的F1值在WSJ和Brown两个测试集上分别达到87.42%和80.8%,在参加评测单位中排名第6。 展开更多
关键词 计算机应用 中文信息处理 句法分析 最大生成树 最大熵
下载PDF
基于最大频繁项集的搜索引擎查询结果聚类算法 被引量:5
3
作者 苏冲 陈清才 +1 位作者 王晓龙 孟宪军 《中文信息学报》 CSCD 北大核心 2010年第2期58-67,共10页
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类... 现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。 展开更多
关键词 计算机应用 中文信息处理 搜索引擎 网页聚类 频繁项集
下载PDF
一类非完备信息博弈的信息模型 被引量:5
4
作者 马骁 王轩 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2100-2109,共10页
近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获... 近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获取方法,引入Markov模型进行信息处理.通过在四国军棋上的实验验证了通用信息模型在获取、管理非完备信息上的有效性,并证明了Markov网络在非完备信息处理中的有效性. 展开更多
关键词 非完备信息博弈 信息空间 MARKOV网络 二分图 四国军棋
下载PDF
面向小型移动设备的中文语句输入 被引量:1
5
作者 余衍炳 王轩 +2 位作者 刘秉权 遇慧君 孙建国 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2008年第9期1416-1420,共5页
为了满足小型移动设备的普及特别是短信业务的增长对中文文本输入技术提出的新的需求.以音字转换模型为基础,以自适应学习算法为手段,研究了一种以整句为输入单位的中文输入技术,具有易学性好、输入速度快、智能水平高等特性.系统基于Sy... 为了满足小型移动设备的普及特别是短信业务的增长对中文文本输入技术提出的新的需求.以音字转换模型为基础,以自适应学习算法为手段,研究了一种以整句为输入单位的中文输入技术,具有易学性好、输入速度快、智能水平高等特性.系统基于Symb ian S60和W indows Mob ile 5平台进行构建,通过结合全拼、双拼和英文数字3种输入方式,为用户提供了各种情况下的汉字、字母、数字、标点的录入.系统内存占用量不到150 K,已被广泛应用于手机、PDA、遥控器等设备上. 展开更多
关键词 语句输入 语言模型 文本输入
下载PDF
网购客服对话标注与分析
6
作者 侯永帅 王晓龙 +3 位作者 陈俊杰 周小强 徐军 陈清财 《山东大学学报(理学版)》 CAS CSCD 北大核心 2016年第7期66-73,共8页
在当前交互式问答的研究中,面向真实应用环境的交互式问答语料比较缺乏。首先收集大量网购客服对话日志作为交互式问答研究的语料数据,对网购对话日志进行统计分析,然后从对话日志中抽取174组会话,对会话中的非规范语言现象、问句相关... 在当前交互式问答的研究中,面向真实应用环境的交互式问答语料比较缺乏。首先收集大量网购客服对话日志作为交互式问答研究的语料数据,对网购对话日志进行统计分析,然后从对话日志中抽取174组会话,对会话中的非规范语言现象、问句相关现象、问句答案匹配现象等交互式语言现象进行了标注和统计。基于标注统计结果发现:高频语句在网购对话中占较大比例,15%的语句的使用量占客服应答语句总量的45%以上;非规范语言现象出现比例占到会话语句的50%;问句相关现象中指代相关、省略相关、公共词序列相关是最重要的3个相关特征;问句答案匹配现象中交叉匹配的情形占到会话的60%以上;匹配的问答对中问句与答案具有显性匹配特征的占50%以上。 展开更多
关键词 客服对话 语料分析 语料标注 交互式问答
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部