期刊文献+
共找到274篇文章
< 1 2 14 >
每页显示 20 50 100
Improving the precision of the keyword-matching pornographic text filtering method using a hybrid model 被引量:3
1
作者 苏贵洋 李建华 +1 位作者 马颖华 李生红 《Journal of Zhejiang University Science》 EI CSCD 2004年第9期1106-1113,共8页
With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applica... With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applications which can block or filter such information are used. Approaches in those systems can be roughly classified into two kinds: metadata based and content based. With the development of distributed technologies, content based filtering technologies will play a more and more important role in filtering systems. Keyword matching is a content based method used widely in harmful text filtering. Experiments to evaluate the recall and precision of the method showed that the precision of the method is not satisfactory, though the recall of the method is rather high. According to the results, a new pornographic text filtering model based on reconfirming is put forward. Experiments showed that the model is practical, has less loss of recall than the single keyword matching method, and has higher precision. 展开更多
关键词 Pornographic text filtering Content based filtering Information filtering Network content security
下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
2
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
针对直播弹幕的TextCNN过滤模型 被引量:7
3
作者 明建华 胡创 +1 位作者 周建政 姚金良 《计算机工程与应用》 CSCD 北大核心 2021年第3期162-167,共6页
网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非... 网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题。提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法。通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率。 展开更多
关键词 直播弹幕 带噪短文本 文本过滤 卷积神经网络
下载PDF
基于IFilter的非文本文件中抽取文本的关键技术
4
作者 徐辉 《电脑知识与技术》 2011年第9X期6682-6683,共2页
文本抽取是信息检索的一个重要问题。设计并实现了一个利用IFilter接口的过滤器组件,抽取非文本文件的文本信息的程序。对这一设计过程论述了其主要的关键技术。
关键词 文本抽取 非文本文件 Ifilter接口 过滤器组件
下载PDF
结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法 被引量:4
5
作者 孙瑞安 张云华 《智能计算机与应用》 2021年第4期9-13,共5页
为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量... 为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。 展开更多
关键词 AdaBERT textCNN 弹幕 文本过滤
下载PDF
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究 被引量:3
6
作者 刘勇 杜建强 +3 位作者 罗计根 李清 于梦波 郑奇民 《现代信息科技》 2023年第19期123-128,共6页
针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输... 针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。 展开更多
关键词 多标签分类 中医文本 语义筛选 ALBERT textCNN
下载PDF
基于约束轨迹聚类的事件日志批量修复方法
7
作者 田银花 李昕燃 +3 位作者 武于皓 韩咚 杜玉越 王路 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2797-2808,共12页
企业业务运行过程中会产生大量的事件日志,事件日志是业务过程挖掘、监控和优化的基础和保障。然而,原始的事件日志由于缺乏结构及过于灵活导致难以直接应用于过程挖掘,对事件日志进行修复势在必行。现有日志修复方法需要结合过程模型... 企业业务运行过程中会产生大量的事件日志,事件日志是业务过程挖掘、监控和优化的基础和保障。然而,原始的事件日志由于缺乏结构及过于灵活导致难以直接应用于过程挖掘,对事件日志进行修复势在必行。现有日志修复方法需要结合过程模型逐条检查轨迹,并对各类异常行为采用不同策略进行修复,导致修复效率低下、适用性不强。针对上述问题,利用轨迹聚类方法,结合文本相似度指标,提出一种基于约束轨迹聚类的批量日志修复方法。该方法通过对轨迹聚类的每个步骤施加约束条件,使得单个簇包含作为簇中心的拟合轨迹以及与该拟合轨迹相似的异常轨迹,且中心轨迹即为异常轨迹的修复结果。该方法不但无需分析异常行为,直接获得修复后的拟合轨迹,而且实现了对于异常轨迹的批量修复。实验表明,该方法在脱离过程模型并保证高修复准确率的前提下,能够在噪音过滤之后,有效且高效地对事件日志进行批量修复。 展开更多
关键词 轨迹聚类 文本相似度 日志修复 事件日志 噪音过滤
下载PDF
基于Bi-LSTM神经网络的短文本敏感词识别方法 被引量:2
8
作者 周军芽 吴进伟 +1 位作者 吴广飞 张何为 《武汉理工大学学报(信息与管理工程版)》 CAS 2024年第2期312-316,共5页
为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉... 为了准确识别与处理敏感词,针对分词时延较高、识别精度较低的问题,提出基于双向长短期记忆(Bi-LSTM)神经网络的短文本敏感词识别方法。分析敏感词库,将敏感词库划分为两大类、三个等级,预处理短文本干扰信息(特殊字符、繁体字与拆分汉字),引入Bi-LSTM神经网络构建短文本分词模型,二次训练确定最佳参数,反复计算词语的敏感性数值,通过敏感性对比函数,提取短文本敏感词,并匹配敏感词库,确定敏感词的类别与等级,实现短文本敏感词识别。实验结果表明:在不同实验组别下,应用本文方法获得的短文本分词时延均低于给定最大限值,短文本敏感词识别精度高于84.42%,应用性能较佳。 展开更多
关键词 短文本 敏感词识别 文本过滤 编辑距离 双向长短期记忆神经网络
下载PDF
基于文本过滤技术的多来源高校财务数据智能聚合方法
9
作者 何秀楠 薛亚琴 陈晓红 《无线互联科技》 2024年第21期107-109,共3页
高校财务数据来源广泛且数量庞大,影响了财务数据的利用效率。针对这一问题,文章提出了基于文本过滤技术的多来源高校财务数据智能聚合方法,先爬取并预处理多来源高校财务文本数据,利用朴素贝叶斯分类器,结合类别阈值设计文本过滤技术,... 高校财务数据来源广泛且数量庞大,影响了财务数据的利用效率。针对这一问题,文章提出了基于文本过滤技术的多来源高校财务数据智能聚合方法,先爬取并预处理多来源高校财务文本数据,利用朴素贝叶斯分类器,结合类别阈值设计文本过滤技术,过滤多来源高校财务数据中的不良文本;然后通过Jaro-Winkler相似度匹配算法将过滤后文本聚合在一起,实现多来源高校财务数据智能聚合。实验结果表明,应用该方法后,多来源高校财务数据智能聚合结果的归一化互信息高达0.918,聚合效果优越。 展开更多
关键词 文本过滤技术 多来源数据 高校财务数据 数据聚合 智能聚合方法
下载PDF
大语言模型引导的文本摘要技术与系统
10
作者 黄君豪 朱锦文 +2 位作者 向宗元 李萌坚 毛瑞琛 《计算机应用》 CSCD 北大核心 2024年第S01期29-33,共5页
在实际业务中时,常面临文本与它对应的其他模态在时间响应上难以同步的问题。例如,数字人实时手语表演无法与新闻口播同步播放。为了解决长度可控问题,提出一种基于大语言模型(LLM)的文本摘要解决方案,旨在保持原文语义不变的前提下将... 在实际业务中时,常面临文本与它对应的其他模态在时间响应上难以同步的问题。例如,数字人实时手语表演无法与新闻口播同步播放。为了解决长度可控问题,提出一种基于大语言模型(LLM)的文本摘要解决方案,旨在保持原文语义不变的前提下将文本压缩至指定长度。首先通过模板调优和人工评估的方式,确定最适合长度可控文本摘要的LLM和模板;在此基础上,利用ChatGPT得到一定量优质的满足长度需求的文本摘要训练样本;其次,结合低秩自适应微调(LoRA)技术,利用生成的数据样本集对选定的大语言模型Baichuan-13B-Chat进行微调。在推理阶段,通过微调后的LLM生成多个结果和文本筛选模块打分,最终得到语义相对完整且长度满足要求的摘要文本。实验结果表明,所提方案在亚运手语新闻数据中指标显著提升,人工评估的平均满意度达到88.53%,整体压缩达标率达到73.7%,基本满足实际生产应用的需求。 展开更多
关键词 文本摘要 长度可控 大语言模型 低秩自适应微调 模板调优 文本筛选
下载PDF
基于LDA主题模型的协同过滤推荐算法
11
作者 张宇 吴静 《智能计算机与应用》 2024年第2期190-194,共5页
传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent... 传统的协同过滤推荐算法直接根据用户对物品的评分进行推荐,忽略了评论文本中隐含的重要信息,当用户对物品的评论较少时,由于数据的稀疏性会造成推荐效果的不准确和单一。本文提出了一种基于LDA主题模型的协同过滤推荐算法LDA-CF(Latent Dirichlet Allocation model-LDA-Collaborative Filtering),在传统的协同过滤算法基础上,通过LDA模型对评论文本中的主题进行分类,从各个主题层面挖掘用户的情感偏好,计算用户之间的相似度,进而向目标用户推荐商品。对京东平台牙膏的评论数据集的实验结果表明,该算法不仅可以缓解由于评分数据较少造成的稀疏性问题,推荐的精确度也有所提高。 展开更多
关键词 协同过滤 推荐算法 LDA 评论文本
下载PDF
融合“科学—技术—舆情”数据特征的技术筛选方法研究
12
作者 吕璐成 周健 +2 位作者 赵展一 赵亚娟 刘细文 《情报理论与实践》 CSSCI 北大核心 2024年第10期173-182,共10页
[目的/意义]利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文... [目的/意义]利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文献技术挖掘结果的筛选。[方法/过程]以技术术语表示技术,基于词法结构分析和修饰符匹配方法构建技术术语层次结构体系,利用表征技术基础研究热度的论文数据、表征技术研发热度的专利数据、表征技术市场关注度的舆情数据,构建重要性、成长性、新颖性和持久性4类特征,采用机器学习方法训练和确定技术筛选模型。[结果/结论]通过与人工筛选结果对比发现,本方法能够更有效地筛选技术。在各种模型中,同时采用3类数据和4类特征构建的技术筛选模型效果最优,该方法可以为开展技术识别预测工作,研发技术挖掘工具提供依据。[局限]该方法仅在技术术语层次结构的第一层进行了效果验证,其领域适用性与数据类型方面还有待进一步研究。 展开更多
关键词 技术筛选 技术挖掘 多源数据融合 文本挖掘 机器学习 技术识别与预测
下载PDF
基于协同过滤模型的健康诊疗系统的研究与设计
13
作者 张译铭 于胜卿 《软件》 2024年第2期9-13,共5页
研究紧密结合当前社会现状及人们普遍关注的健康问题,把研究理论与实践相结合,将云存储下的个人健康档案作为唯一可靠性数据来源,提出一种基于协同过滤的病例推荐模型,其主要包括两方面内容:病例推荐算法研究和软件可程序化推荐系统设... 研究紧密结合当前社会现状及人们普遍关注的健康问题,把研究理论与实践相结合,将云存储下的个人健康档案作为唯一可靠性数据来源,提出一种基于协同过滤的病例推荐模型,其主要包括两方面内容:病例推荐算法研究和软件可程序化推荐系统设计。创新性地提出利用数据挖掘、数据分析、云上交互、精准推送等一系列互联网技术,最终设计实现了基于协同过滤模型的健康诊疗系统,以期为社会创造实际价值,为用户(患者)提供更便捷高效的实用就医服务。 展开更多
关键词 协同过滤 数据挖掘 文本分析 精准推送
下载PDF
基于协同过滤的医院图书馆数据库文本分类优化技术
14
作者 从莉萍 沈剑文 王海生 《微型电脑应用》 2024年第2期146-148,153,共4页
传统医院图书馆数据库文本分类是对指定规模文本的分类,无法针对特定用户的浏览内容实施分类。为此,提出基于协同过滤的医院图书馆数据库文本分类优化方法。将用户浏览数据库文本的特征看做物品,构建半自动编码器的协同过滤模型优化用... 传统医院图书馆数据库文本分类是对指定规模文本的分类,无法针对特定用户的浏览内容实施分类。为此,提出基于协同过滤的医院图书馆数据库文本分类优化方法。将用户浏览数据库文本的特征看做物品,构建半自动编码器的协同过滤模型优化用户物品评分矩阵,使用平均评分修正因子、热门物品惩罚因子改进相似度计算。引入注意力机制构建CNN-SVM分类模型,将用户文本浏览特征作为输入,实现文本分类。测试表明,该方法构建评分矩阵的RMSE最低,推荐图书馆文本阅读特征的MAE值最小,在文本分类上F1值达到96.5%,有较好的文本分类效果。 展开更多
关键词 协同过滤 医院图书馆 数据库 半自动编码器 文本分类
下载PDF
基于向量空间模型的文本过滤系统 被引量:92
15
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
下载PDF
基于语义分析的倾向性文本过滤 被引量:35
16
作者 刘永丹 曾海泉 +1 位作者 李荣陆 胡运发 《通信学报》 EI CSCD 北大核心 2004年第7期78-85,共8页
采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和... 采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。 展开更多
关键词 人工智能 文本过滤 语义分析 自然语言处理
下载PDF
基于知网的概念特征抽取方法 被引量:17
17
作者 赵林 胡恬 +1 位作者 黄萱菁 吴立德 《通信学报》 EI CSCD 北大核心 2004年第7期46-54,共9页
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信... 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。 展开更多
关键词 文本过滤 特征抽取 向量窄间模型 知网
下载PDF
一个基于语义分析的倾向性文档过滤系统 被引量:7
18
作者 江宝林 刘永丹 +2 位作者 金峰 葛家翔 胡运发 《计算机应用与软件》 CSCD 北大核心 2005年第1期10-11,139,共3页
目前的过滤系统大都是基于关键词的 ,这类系统适用于主题性过滤 ,而对倾向性过滤效果不好。本文提出一种适用于倾向性文档过滤的系统 ,通过语义分析 ,有效地识别和过滤倾向性文本信息。
关键词 倾向性 主题性 文档过滤 关键词 语义分析 文本信息 适用 过滤系统 识别
下载PDF
文本结构分析与基于示例的文本过滤 被引量:23
19
作者 林鸿飞 战学刚 姚天顺 《小型微型计算机系统》 EI CSCD 北大核心 2000年第4期422-425,共4页
本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然... 本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然后进行文本过滤 ,同时引进段落匹配机制 ,提高过滤效率 .通过用户反馈 。 展开更多
关键词 文本过滤 文本结构分析 文本层次分析 信息过滤
下载PDF
用于中文色情文本过滤的近邻法构造算法 被引量:6
20
作者 苏贵洋 李建华 +1 位作者 马颖华 李生红 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第z1期76-79,共4页
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到... 从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤. 展开更多
关键词 文本过滤 信息过滤 文本表示 向量空间模型 特征选择
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部