期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
中文停用词表的自动选取 被引量:35
1
作者 顾益军 樊孝忠 +2 位作者 王建华 汪涛 黄维金 《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第4期337-340,共4页
通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传... 通过对现有基于统计的停用词选取方法的考察,提出了一种新的停用词选取方法.用该方法分别计算词条在语料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础上计算它们的联合熵,依据联合熵选取停用词.将该方法与传统方法选取的停用词表进行了对比,并比较了将各种方法用于文本分类的预处理时对分类效果的影响.实验结果表明,该方法更好地避免了语料的行文格式对停用词选取的影响,比传统方法更适用于文本分类的预处理. 展开更多
关键词 停用词 中文停用词表 联合熵
下载PDF
文本自动分类系统文本预处理方法的研究 被引量:15
2
作者 周钦强 孙炳达 王义 《计算机应用研究》 CSCD 北大核心 2005年第2期85-86,共2页
在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了... 在没有建立起完善的中文停用词表的情况下,运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。这不仅明显降低了初始文本向量的维度,而且大大提高了文本向量中的特征信息含量。 展开更多
关键词 文本分类 文本预处理 停用词 中文分词
下载PDF
停用词表对基于SVM的中文文本情感分类的影响 被引量:6
3
作者 夏火松 陶敏 +1 位作者 王一 魏翔 《情报学报》 CSSCI 北大核心 2011年第4期347-352,共6页
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支... 运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。 展开更多
关键词 客户评论 情感分类 停用词表 特征选择 支持向量机
下载PDF
信息检索用户查询语句的停用词过滤 被引量:16
4
作者 熊文新 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选... 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 展开更多
关键词 用户查询 停用词 构造 识别
下载PDF
停用词表对中文文本情感分类的影响 被引量:22
5
作者 王素格 魏英 《情报学报》 CSSCI 北大核心 2008年第2期175-179,共5页
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究。实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副... 本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究。实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好。 展开更多
关键词 停用词 文本情感分类 特征选择 支持向量机
下载PDF
藏文停用词选取与自动处理方法研究 被引量:8
6
作者 珠杰 李天瑞 《中文信息学报》 CSCD 北大核心 2015年第2期125-132,共8页
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结... 停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。 展开更多
关键词 藏文停用词 词频统计 文档频数
下载PDF
蒙古文停用词和英文停用词比较研究 被引量:6
7
作者 巩政 关高娃 《中文信息学报》 CSCD 北大核心 2011年第4期35-38,共4页
该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用... 该文采用联合熵算法(Union Entropy,UE)初步确定了蒙古文停用词,接着从初步确定的蒙古文停用词中去掉蒙古文实体名词及同形异义词,再通过对英文停用词和蒙古文停用词的词性比较,确定了蒙古文停用词表。最后用蒙古文停用词表和英文停用词表进行了文档信息检索的对比实验。实验结果表明,用该文所述方法确定的蒙古文停用词表进行蒙古文文档检索,比用英文停用词翻译成蒙古文进行蒙古文文档检索的准确率更高。 展开更多
关键词 蒙古文停用词 蒙古文信息检索 英文停用词
下载PDF
知识抽取中的停用词处理技术 被引量:39
8
作者 化柏林 《现代图书情报技术》 CSSCI 北大核心 2007年第8期48-51,共4页
在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行... 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 展开更多
关键词 知识抽取 停用词 中文分词 自然语言处理 文本信息分析
下载PDF
基于多源信息融合的中文农作物病虫害命名实体识别 被引量:16
9
作者 李林 周晗 +3 位作者 郭旭超 刘成启 苏洁 唐詹 《农业机械学报》 EI CAS CSCD 北大核心 2021年第12期253-263,共11页
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针... 随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction,Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。 展开更多
关键词 命名实体识别 农作物病虫害 农业自然语言处理 中文分词 停等算法
下载PDF
日语汉语词汇读音中的促音变化研究 被引量:2
10
作者 张升余 《外语教学》 CSSCI 北大核心 2008年第2期35-38,共4页
根据日语原始的音韵结构,最先没有促音。随着汉字音的应用,受舌内入声字音的影响日语才产生了促音。室町末期,随着日语音韵的开音节化,舌内入声字声门闭锁音合并为促音。今天日语汉语词汇的读音中,只要发生促音读法的词,该促音的前字一... 根据日语原始的音韵结构,最先没有促音。随着汉字音的应用,受舌内入声字音的影响日语才产生了促音。室町末期,随着日语音韵的开音节化,舌内入声字声门闭锁音合并为促音。今天日语汉语词汇的读音中,只要发生促音读法的词,该促音的前字一定是入声字。 展开更多
关键词 日语 促音便 入声字
下载PDF
中文分词技术的研究 被引量:15
11
作者 刘红芝 《电脑开发与应用》 2010年第3期1-3,共3页
对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。
关键词 中文分词 算法 歧义 未登录词 停用词
下载PDF
停用词的选取对文本分类效果的影响研究 被引量:7
12
作者 崔彩霞 《太原师范学院学报(自然科学版)》 2008年第4期91-93,共3页
考察了2种常用的基于统计方法的停用词选取方法,结合语言学知识,提出了一种统计和语言学结合的停用词选取的方法,以支持向量机作为分类器在复旦语料上做了实验,结果表明该方法在保证文本分类的准确率的基础上,可以大大地降低特征词的维数.
关键词 文本分类 停用词 特征选择
下载PDF
基于v-flow视觉单词的交通行为分析
13
作者 柳恭 刘龙 《计算机工程与设计》 CSCD 北大核心 2013年第12期4252-4255,4303,共5页
为了在复杂交通场景分析中进行行为建模,传统的视觉单词通常只利用方向信息建立基础视觉单词,由于未对速度以及上下文状态进行特征提取,缺乏运动速度信息以及上下文信息,在行为分析过程中无法有效建模、鉴别运动目标运动轨迹细节信息相... 为了在复杂交通场景分析中进行行为建模,传统的视觉单词通常只利用方向信息建立基础视觉单词,由于未对速度以及上下文状态进行特征提取,缺乏运动速度信息以及上下文信息,在行为分析过程中无法有效建模、鉴别运动目标运动轨迹细节信息相同但运动过程各异的行为。针对上述问题,提出了一种新时空视觉单词,该单词模型加入了较丰富的速度信息以及运动目标暂停上下文信息。实验结果表明,该视觉单词生成算法能有效提高交通行为分析性能。 展开更多
关键词 视觉单词 行为分析 聚类 吉布斯采用 停词 主题建模
下载PDF
字母词中塞音的声学特征 被引量:2
14
作者 顾晓微 《北京第二外国语学院学报》 2017年第5期26-39,121,共14页
本研究采用实验的方法,对比分析了字母词塞音和普通话塞音两种样本的VOT并进行统计检验,发现字母词中英语本身的浊塞音变为不送气清塞音,具有普通话塞音的声学特征,同时两种样本的VOT无显著差异。由GAP和VOT平均值构建出塞音格局图,显... 本研究采用实验的方法,对比分析了字母词塞音和普通话塞音两种样本的VOT并进行统计检验,发现字母词中英语本身的浊塞音变为不送气清塞音,具有普通话塞音的声学特征,同时两种样本的VOT无显著差异。由GAP和VOT平均值构建出塞音格局图,显示两种样本声学格局一致,属同一类音。字母词塞音和普通话塞音一样,是清塞音,通过送气与否形成对立;字母词并未将浊塞音引入普通话,普通话塞音仍保留了送气这一重要区别特征,其塞音体系没有改变。 展开更多
关键词 字母词 普通话 塞音 VOT GAP 声学特征
下载PDF
急性肺动脉栓塞合并下肢静脉栓塞“一站式”杂交手术5例治疗效果观察 被引量:1
15
作者 张成鑫 葛圣林 +3 位作者 周汝元 张士兵 何维来 李峰 《安徽医药》 CAS 2013年第12期2087-2089,共3页
目的 探讨急性肺动脉栓塞合并下肢静脉栓塞的"一站式"杂交手术初步体会及治疗效果.方法回顾性分析安徽医科大学第一附属医院心脏血管外科2009 年 10 月-2013 年 8 月5 例急性肺动脉栓塞合并下肢静脉栓塞病人急诊外科手术治疗资料.5例... 目的 探讨急性肺动脉栓塞合并下肢静脉栓塞的"一站式"杂交手术初步体会及治疗效果.方法回顾性分析安徽医科大学第一附属医院心脏血管外科2009 年 10 月-2013 年 8 月5 例急性肺动脉栓塞合并下肢静脉栓塞病人急诊外科手术治疗资料.5例病人中女性1例,男性4例,年龄38~60岁;1例病人同时并发下腔静脉血栓形成.4例患者先经股静脉行下腔静脉滤器植入,1例病人同时并发下腔静脉血栓者行腹部正中探查切口,从下腔静脉中取出血栓,并从此入路置入下腔静脉滤器;下腔静脉滤器置入后,5例患者均在体外循环下行双肺动脉切开取栓术.术后常规抗凝治疗.手术后10 d复查心脏彩超及胸部大血管CTA.并随访 1~3 年.结果 5例患者皆痊愈出院,术后CTA显示 5 例肺动脉主干及1、2级分支完全开通,4 例3、4级分支部分开通.术后彩超示肺动脉压均有不同程度的下降.随访1~3 年,长期存活,未发生再栓塞,心功能均由手术前III或IV级改善为I级.结论 "一站式"杂交手术对于严重的急性肺动脉栓塞并发急性心肺功能不全、同时伴有下腔静脉或股静脉血栓的患者是安全有效的.适时而恰当的手术决策和多学科的合作是提高手术疗效的关键. 展开更多
关键词 肺动脉栓塞 下肢静脉栓塞 一站式杂交手术
下载PDF
基于Jieba分词的医疗设备信息查询一站式服务系统设计 被引量:5
16
作者 王清波 陈青青 王琳斌 《中国医学装备》 2020年第1期131-134,共4页
目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进... 目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进行消息处理,设计基于微信的聊天机器人,利用Python语句进行资料反馈和数据库查询。结果:基于微信的聊天机器人可提供设备管理相关资料的精准查询,能够在临床自然语言要求下,进行同质化答复管理。医疗设备资产库备有1万余条数据集,设定文件大小最大<10 M,查询设备资产的返回时间<2 s。结论:医疗设备信息查询一站式服务微信平台系统的设计,能够针对临床文字需求进行同质化答复,既可方便临床一线人员查询设备信息相关资料,还可有效提高医疗设备的管理效率。 展开更多
关键词 医疗设备信息查询系统 微信 自然语言处理 Jieba分词 数据库 一站式服务
下载PDF
改进的贝叶斯算法在商品分类中的应用研究 被引量:1
17
作者 邵欣欣 《软件工程》 2021年第7期28-30,27,共4页
针对采用贝叶斯分类器算法进行商品描述分类时,出现大量混淆性词汇从而无法保证特征间独立的问题,提出了采用停用词优化的贝叶斯分类器算法,通过词频统计和词性筛选的方式,过滤掉大部分混淆性词汇,从而保证特征独立。针对相似类别无法... 针对采用贝叶斯分类器算法进行商品描述分类时,出现大量混淆性词汇从而无法保证特征间独立的问题,提出了采用停用词优化的贝叶斯分类器算法,通过词频统计和词性筛选的方式,过滤掉大部分混淆性词汇,从而保证特征独立。针对相似类别无法准确区分的问题,提出了子模型训练的解决方案,对易混淆类别单独进行训练并记录训练过程,在测试阶段根据结果判断并使用子模型,从而实现细化区分。实验表明,优化方案确实可行,可以获得97.80%的准确率。 展开更多
关键词 朴素贝叶斯分类器 停用词 子模型训练 商品分类
下载PDF
基于词表和N-gram算法的新词识别实验 被引量:7
18
作者 曹艳 杜慧平 +1 位作者 刘竟 侯汉清 《情报科学》 CSSCI 北大核心 2007年第11期1687-1691,1695,共6页
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键... 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选的非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。 展开更多
关键词 N-gram算法 未登录词 新词识别 停用词典 过滤词典
下载PDF
一种面向中文敏感网页识别的文本分类方法 被引量:3
19
作者 陈欣 张菁 +1 位作者 李晓光 卓力 《测控技术》 CSCD 北大核心 2011年第5期27-31,40,共6页
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算... 提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类器进行了改进。考虑到不同的人群对敏感概念的主观理解差异较大,将待识别网页的敏感度值作为分类器的输出。实验结果表明,与现有的文本分类方法相比,所提出的文本分类方法可以获得更好的识别效果。 展开更多
关键词 中文敏感网页识别 新词识别 停用词表建立 CHI统计 朴素贝叶斯分类器
下载PDF
改进的维吾尔语Web文本后缀树聚类 被引量:1
20
作者 邹志华 田生伟 +1 位作者 禹龙 冯冠军 《中文信息学报》 CSCD 北大核心 2013年第2期118-126,共9页
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提... 该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 维吾尔语 后缀树 短语聚类 停用词表 文档频率
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部