期刊文献+
共找到117篇文章
< 1 2 6 >
每页显示 20 50 100
Orbit Weighting Scheme in the Context of Vector Space Information Retrieval
1
作者 Ahmad Ababneh Yousef Sanjalawe +2 位作者 Salam Fraihat Salam Al-E’mari Hamzah Alqudah 《Computers, Materials & Continua》 SCIE EI 2024年第7期1347-1379,共33页
This study introduces the Orbit Weighting Scheme(OWS),a novel approach aimed at enhancing the precision and efficiency of Vector Space information retrieval(IR)models,which have traditionally relied on weighting schem... This study introduces the Orbit Weighting Scheme(OWS),a novel approach aimed at enhancing the precision and efficiency of Vector Space information retrieval(IR)models,which have traditionally relied on weighting schemes like tf-idf and BM25.These conventional methods often struggle with accurately capturing document relevance,leading to inefficiencies in both retrieval performance and index size management.OWS proposes a dynamic weighting mechanism that evaluates the significance of terms based on their orbital position within the vector space,emphasizing term relationships and distribution patterns overlooked by existing models.Our research focuses on evaluating OWS’s impact on model accuracy using Information Retrieval metrics like Recall,Precision,InterpolatedAverage Precision(IAP),andMeanAverage Precision(MAP).Additionally,we assessOWS’s effectiveness in reducing the inverted index size,crucial for model efficiency.We compare OWS-based retrieval models against others using different schemes,including tf-idf variations and BM25Delta.Results reveal OWS’s superiority,achieving a 54%Recall and 81%MAP,and a notable 38%reduction in the inverted index size.This highlights OWS’s potential in optimizing retrieval processes and underscores the need for further research in this underrepresented area to fully leverage OWS’s capabilities in information retrieval methodologies. 展开更多
关键词 information retrieval orbit weighting scheme semantic text analysis Tf-Idf weighting scheme vector space model
下载PDF
基于关键实体和文本摘要多特征融合的话题匹配算法
2
作者 纪科 张秀 +3 位作者 马坤 孙润元 陈贞翔 邬俊 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期51-59,共9页
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实... 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。 展开更多
关键词 话题匹配 关键实体 文本摘要 文本匹配 信息检索
下载PDF
基于多粒度语义融合的信息检索方法
3
作者 赵征宇 罗景 涂新辉 《计算机应用》 CSCD 北大核心 2024年第6期1775-1780,共6页
信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间... 信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。 展开更多
关键词 语义融合 信息检索 稠密检索 预训练模型 文本检索
下载PDF
基于知识增强的文本语义匹配模型研究
4
作者 张贞港 余传明 《情报学报》 CSCD 北大核心 2024年第4期416-429,共14页
文本语义匹配模型在信息检索、文本挖掘等领域已经获得了广泛应用。为解决现有模型主要从文本自身角度判断文本之间的语义关系而忽略对外部知识有效利用的问题,本文提出一种新的基于知识增强的文本语义匹配模型,以知识图谱实体作为外部... 文本语义匹配模型在信息检索、文本挖掘等领域已经获得了广泛应用。为解决现有模型主要从文本自身角度判断文本之间的语义关系而忽略对外部知识有效利用的问题,本文提出一种新的基于知识增强的文本语义匹配模型,以知识图谱实体作为外部知识,有效建模文本的外部知识信息,并自适应地过滤外部知识中存在的噪声。针对自然语言推理和释义识别两个文本语义匹配任务,与基线方法相比,本文模型在大多数指标上取得了最优效果。研究结果表明,本文模型有助于揭示知识图谱在文本语义匹配任务中的作用,为将知识图谱应用到智能信息服务领域提供了参考。 展开更多
关键词 文本语义匹配 信息检索 知识图谱 知识增强
下载PDF
基于双分支特征融合的电力设备缺陷文本挖掘方法
5
作者 张中文 吐松江·卡日 +2 位作者 张紫薇 崔传世 邵罗 《高压电器》 CAS CSCD 北大核心 2024年第6期188-196,共9页
针对电力设备缺陷文本信息的知识挖掘与分析任务中存在缺陷文本特征信息提取不足、缺陷文本分类精度不够的问题,提出一种基于BERT(bidirectional encoder representations from transformers)的双分支特征融合的电力设备缺陷文本分类模... 针对电力设备缺陷文本信息的知识挖掘与分析任务中存在缺陷文本特征信息提取不足、缺陷文本分类精度不够的问题,提出一种基于BERT(bidirectional encoder representations from transformers)的双分支特征融合的电力设备缺陷文本分类模型。首先,对缺陷文本数据进行预处理,删除异常缺陷文本,并归纳了电力设备缺陷文本特点;然后,采用BERT模型作为文本编码器,将文本转化为向量后分别输入至BiLSTMAttention(attention-based bidirectional long short-term memory)模块和多分支CNN(multi-scale convolutional neural network,MCNN)模块,提取缺陷文本语义信息特征和局部关键信息特征;最后,将所提取出的语义特征和多维关键特征向量进行融合,并通过Softmax层实现对缺陷文本分类。与基准模型BERT-BiLSTMAttention相比,其准确率、召回率及F1值分别提高了2.76%、3.58%和4.39%,表明所建模型在缺陷文本分类任务中性能的优越性。 展开更多
关键词 预训练模型 多维特征提取 语义信息特征 缺陷文本分类
下载PDF
电力设备缺陷文本的双通道语义增强网络挖掘方法
6
作者 张宇波 王有元 +1 位作者 梁玄鸿 夏宇 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期1923-1932,共10页
电力设备运维环节积累的缺陷文本可指导设备的状态评价和检修工作。然而缺陷文本结构多样且背景噪声强,导致智能挖掘信息的难度大。针对该问题,提出了基于双通道语义增强网络的电力设备缺陷文本挖掘方法。首先,分析缺陷文本的内容,结合... 电力设备运维环节积累的缺陷文本可指导设备的状态评价和检修工作。然而缺陷文本结构多样且背景噪声强,导致智能挖掘信息的难度大。针对该问题,提出了基于双通道语义增强网络的电力设备缺陷文本挖掘方法。首先,分析缺陷文本的内容,结合自然语言处理方法预处理缺陷文本。利用Glove词向量嵌入模型将缺陷文本映射至数值空间表征语义。然后,基于词移距离构建缺陷文本的增强文本,通过含注意力机制的双向长短时记忆神经网络分别提取缺陷文本和增强文本的特征,进而在网络末端融合特征实现关键信息加强,提升模型分类性能。实例表明,所提双通道语义增强网络的分类Macro-F1指标相比于传统机器学习方法、单通道深度学习方法至少提高6.2%、5.2%,同时所提方法为实现图像、文本等多源运维数据的特征增强提供新思路。 展开更多
关键词 缺陷文本 信息智能挖掘 词移距离 双通道语义增强网络 特征融合
下载PDF
融合目标端句法的AMR-to-Text生成
7
作者 朱杰 李军辉 《中文信息学报》 CSCD 北大核心 2022年第1期31-38,共8页
抽象语义表示到文本(AMR-to-Text)生成的任务是给定AMR图,生成相同语义表示的文本。可以把此任务当作一个从源端AMR图到目标端句子的机器翻译任务。目前存在的一些方法都在探索如何更好地对图结构进行建模。然而,它们都存在一个未限定... 抽象语义表示到文本(AMR-to-Text)生成的任务是给定AMR图,生成相同语义表示的文本。可以把此任务当作一个从源端AMR图到目标端句子的机器翻译任务。目前存在的一些方法都在探索如何更好地对图结构进行建模。然而,它们都存在一个未限定的问题,因为在生成阶段许多句法的决策并不受语义图的约束,从而忽略了句子内部潜藏的句法信息。为了明确考虑这一不足,该文提出一种直接而有效的方法,显式地在AMR-to-Text生成的任务中融入句法信息,并在Transformer和目前该任务最优性能的模型上进行了实验。实验结果表明,在现存的两份标准英文数据集LDC2015E86和LDC2017T10上,该方法取得了显著的性能提升。 展开更多
关键词 AMR-to-text生成 句法决策 语义约束 融入句法信息
下载PDF
基于图像-文本语义一致性的文本生成图像方法 被引量:2
8
作者 薛志杭 许喆铭 +3 位作者 郎丛妍 冯松鹤 王涛 李浥东 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2180-2190,共11页
近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法... 近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性. 展开更多
关键词 文本生成图像 生成对抗网络 图像区域注意力 文本信息增强 语义一致性
下载PDF
基于多层语义融合的结构化深度文本聚类模型 被引量:1
9
作者 马胜位 黄瑞章 +1 位作者 任丽娜 林川 《计算机应用》 CSCD 北大核心 2023年第8期2364-2369,共6页
近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针... 近年来,由于图神经网络(GNN)的结构信息在机器学习中的优势,人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用,这导致在数据生成部分出现语义信息的缺失。针对以上问题,提出了一种基于多层语义融合的结构化深度文本聚类模型(SDCMS)。该模型利用GNN将结构信息集成到解码器中,通过逐层语义补充增强了文本数据的表示,并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract这5个真实数据集上进行实验的结果表明,与目前最优的注意力驱动的图形聚类网络(AGCN)模型相比,SDCMS在准确率、归一化互信息(NMI)和平均兰德指数(ARI)上分别最多提升了5.853%、9.922%和8.142%。 展开更多
关键词 深度文本聚类 逐层语义增强 文本语义信息 图神经网络 自监督学习
下载PDF
融合BERT、双向长短记忆网络和条件随机场的电力设备缺陷文本实体抽取 被引量:2
10
作者 陈鹏 邰彬 +3 位作者 石英 金杨 孔力 汪进锋 《电网技术》 EI CSCD 北大核心 2023年第10期4367-4375,共9页
随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整... 随着智能电网建设的全面展开,产生了大量与设备缺陷相关的电力设备缺陷文本,蕴含着故障类型、故障原因及设备消缺方法等关键信息,是电力领域的研究热点。但缺陷文本存在着体量大、多源异构和内容杂乱冗余的问题,目前缺乏对其进行高效整合利用的方法。针对以上问题,该文基于BERT(bidirectional encoder representation from transformers)模型对命名实体抽取技术展开研究。一方面,增加了双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)层进一步提取文本语义信息;另一方面,采用条件随机场(conditional random field,CRF)替换了BERT的输出层,克服了预测标签的局部最优问题。最后融合以上2种策略提出了改进BERT算法,即将BERT与双向长短记忆网络和条件随机场相结合,实现了缺陷文本的命名实体抽取。实验结果表明,改进BERT算法在7类实体上均取得了较高的F1值(精确率和召回率的加权调和平均值)。与BERT相比,实体抽取的总体精确率和召回率分别提升了0.94%和0.95%。 展开更多
关键词 电力设备缺陷文本 命名实体抽取 改进BERT算法 语义信息 输出层 局部最优
下载PDF
结合Bert与Bi-LSTM的英文文本分类模型 被引量:1
11
作者 张卫娜 《计算机测量与控制》 2023年第4期213-218,251,共7页
作为自然语言处理技术中的底层任务之一,文本分类任务对于上游任务有非常重要的辅助价值;最近几年,深度学习广泛应用于NLP中的上下游任务的趋势,深度学习在下游任务文本分类中性能不错;但是目前的基于深层学习网络的模型在捕捉文本序列... 作为自然语言处理技术中的底层任务之一,文本分类任务对于上游任务有非常重要的辅助价值;最近几年,深度学习广泛应用于NLP中的上下游任务的趋势,深度学习在下游任务文本分类中性能不错;但是目前的基于深层学习网络的模型在捕捉文本序列的长距离型上下文语义信息进行建模方面仍有不足,同时也没有引入语言信息来辅助分类器进行分类;针对这些问题,提出了一种新颖的结合Bert与Bi-LSTM的英文文本分类模;该模型不仅能够通过Bert预训练语言模型引入语言信息提升分类的准确性,还能基于Bi-LSTM网络去捕捉双向的上下文语义依赖信息对文本进行显示建模;具体而言,该模型主要有输入层、Bert预训练语言模型层、Bi-LSTM层以及分类器层搭建而成;实验结果表明,与现有的分类模型相比较,所提出的Bert-Bi-LSTM模型在MR数据集、SST-2数据集以及CoLA数据集测试中达到了最高的分类准确率,分别为86.2%、91.5%与83.2%,大大提升了英文文本分类模型的性能。 展开更多
关键词 文本分类 深度学习 上下文语义信息 Bert Bi-LSTM
下载PDF
基于语义理解的文本相似度算法 被引量:79
12
作者 金博 史彦军 滕弘飞 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第2期291-297,共7页
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包... 相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,在知网语义相似度的基础上,将基于语义理解的文本相似度计算推广到段落范围,进而可以将这种段落相似度推广到篇章相似度计算.给出了文本(包括词语、句子、段落)相似度的计算公式及算法,用于计算两文本之间的相似度.实例验证表明,该算法与现有典型的相似度计算方法相比,计算准确性得到提高. 展开更多
关键词 语义理解 相似度算法 相似度计算 计算方法 文本相似度 语义相似度 信息检索 实例验证 计算公式 准确性 文档 知网
下载PDF
文本信息隐藏检测算法研究 被引量:26
13
作者 周继军 杨著 +1 位作者 钮心忻 杨义先 《通信学报》 EI CSCD 北大核心 2004年第12期97-101,共5页
对当前流行的文本信息隐藏算法进行了分析,重点剖析了基于语义的文本信息隐藏算法存在的弱点,然后根据这些弱点借鉴概念图的思想设计了其通用检测算法--句间相关性度量判定法。实验测试结果表明该检测算法具有较高的检测可靠性。
关键词 信息隐藏 语义 文本 概念图
下载PDF
基于潜在语义索引的文本摘要方法 被引量:17
14
作者 林鸿飞 高仁璟 《大连理工大学学报》 CAS CSCD 北大核心 2001年第6期744-748,共5页
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读 .给出了基于潜在语义索引的文本摘要方法 .它采用向量空间模型作为文本表示方法 ,利用潜在语义索引来减少词汇间的“斜交”现象 ,在语义空间上进行项、句子、段落与文本之间的... 因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读 .给出了基于潜在语义索引的文本摘要方法 .它采用向量空间模型作为文本表示方法 ,利用潜在语义索引来减少词汇间的“斜交”现象 ,在语义空间上进行项、句子、段落与文本之间的相似度计算 ,而不是单纯地依赖于特征项的频率信息 .依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式 .此外 ,给出了文本摘要的评估方法 . 展开更多
关键词 人工智能 语义信息 文本摘要 潜在语义索引 微量空间模型 特征抽取 摘要评价 因特网
下载PDF
基于语义分析的网络不良信息过滤系统研究 被引量:7
15
作者 吕滨 雷国华 +2 位作者 于燕飞 杨泽雪 王亚东 《计算机应用与软件》 CSCD 2010年第2期283-285,共3页
设计一种基于语义分析的信息过滤模型。该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式,可以同时获得较高的处理效率和精度。样本实验表明,该过滤模型能够更好地满足不良信息过滤的实时性和准... 设计一种基于语义分析的信息过滤模型。该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式,可以同时获得较高的处理效率和精度。样本实验表明,该过滤模型能够更好地满足不良信息过滤的实时性和准确性要求。 展开更多
关键词 信息过滤 语义分析 文本过滤 不良信息
下载PDF
隐含语义索引及其在中文文本处理中的应用研究 被引量:41
16
作者 周水庚 关佶红 胡运发 《小型微型计算机系统》 CSCD 北大核心 2001年第2期239-243,共5页
信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得... 信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得文档之间的语义关系更为明晰 .实验和理论结果证实了隐含语义索引能够取得更好的检索效果 .本文论述了隐含语义索引的理论基础 ,研究了隐含语义索引在中文文本处理中的应用 ,包括中文文本检索、中文文本分类和中文文本聚类等 . 展开更多
关键词 信息检索 隐含语义索引 中文文本处理 中文信息处理
下载PDF
可视化中文文本挖掘模型 被引量:13
17
作者 林鸿飞 贡大跃 +1 位作者 张跃 姚天顺 《计算机科学》 CSCD 北大核心 2000年第4期37-41,共5页
面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。在... 面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。在这样的需求驱动下,文本挖掘得到了长足的发展,并取得了相当的成功。由于目前在因特网上大多数的信息表现形式为文本形式,只有通过文本挖掘才能充分地利用信息资源。 展开更多
关键词 可视化 文本挖掘模型 中文信息处理
下载PDF
基于知识语义权重特征的朴素贝叶斯情感分类算法 被引量:11
18
作者 冀俊忠 张玲玲 +1 位作者 吴晨生 吴金源 《北京工业大学学报》 CAS CSCD 北大核心 2014年第12期1884-1890,共7页
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相... 针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法. 展开更多
关键词 语义权重特征 朴素贝叶斯 文本情感分类 信息增益
下载PDF
基于示例的中文文本过滤模型 被引量:13
19
作者 林鸿飞 姚天顺 《大连理工大学学报》 CAS CSCD 北大核心 2000年第3期375-378,共4页
简要描述了文本过滤的背景 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模板 ,然后进行文本过滤 .在用户反馈的基础上 ,... 简要描述了文本过滤的背景 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模板 ,然后进行文本过滤 .在用户反馈的基础上 ,扩充示例文本数量 ,进而采用基于潜在语义标注的文本过滤方法 ,改进用户模板 ,提高过滤效率 . 展开更多
关键词 广西结构 潜在语义索引 中文文本过滤模型 TREC
下载PDF
基于虚词变换的自然语言信息隐藏算法研究 被引量:12
20
作者 赵敏之 孙星明 向华政 《计算机工程与应用》 CSCD 北大核心 2006年第3期158-160,共3页
简要分析了一般文本信息隐藏的方法,提出了一种利用汉语中的高频虚词来进行信息隐藏的思想。以助词“的”为例,总结出了若干可以在不影响文本语义的前提下修改“的”字结构的语法规则。以这些规则为基础给出了一个具体的基于虚词变换的... 简要分析了一般文本信息隐藏的方法,提出了一种利用汉语中的高频虚词来进行信息隐藏的思想。以助词“的”为例,总结出了若干可以在不影响文本语义的前提下修改“的”字结构的语法规则。以这些规则为基础给出了一个具体的基于虚词变换的文本信息隐藏算法,并对该算法的隐蔽性和隐藏容量、鲁棒性等进行了分析。 展开更多
关键词 文本隐藏 信息隐藏 中文文本 语义 语法规则 虚词
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部