期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
基于文本抽取和特征匹配的辅助标绘模型设计
1
作者 兰嵩 郑雄 +2 位作者 雷肖玲 郭安业 丁一 《网络安全与数据治理》 2023年第S01期207-211,共5页
以专业领域公文和专业领域要图为基础,通过自然语言处理、OCR文字识别、图像特征提取和匹配、Python语言等技术,利用命名实体识别和事件关系抽取等方式对专业领域公文要素进行提取,利用OCR引擎对专业领域要图地名要素进行提取,利用机器... 以专业领域公文和专业领域要图为基础,通过自然语言处理、OCR文字识别、图像特征提取和匹配、Python语言等技术,利用命名实体识别和事件关系抽取等方式对专业领域公文要素进行提取,利用OCR引擎对专业领域要图地名要素进行提取,利用机器学习算法中的SIFT特征提取算法、暴力匹配等算法对专业领域要图地物要素进行提取,最后依托自动化的底图添加操作,初步构建一个标图辅助标绘模型,探索标图作业人员提升标图效率的新方法。 展开更多
关键词 文本抽取 特征匹配 专业领域公文 专业领域要图 辅助标绘
下载PDF
基于自然语言处理的情报文本抽取与分析技术研究
2
作者 李希朋 周云 《无线互联科技》 2023年第24期157-159,共3页
针对情报文本的抽取与分析问题,文章提出了一种基于自然语言处理(Natural Language Processing,NLP)的技术。首先,明确了情报文本中存在的信息丰富、多样性和复杂性问题以及传统手工分析方法的限制。其次,分析了如何利用NLP技术来有效... 针对情报文本的抽取与分析问题,文章提出了一种基于自然语言处理(Natural Language Processing,NLP)的技术。首先,明确了情报文本中存在的信息丰富、多样性和复杂性问题以及传统手工分析方法的限制。其次,分析了如何利用NLP技术来有效抽取和分析文本中的关键信息,包括情报来源、威胁分析、战略趋势等。最后,提出了解决方法,展示了其在实际情报分析中的潜在应用。 展开更多
关键词 自然语言处理 情报分析 文本抽取 信息分析
下载PDF
基于机器学习的网页文本抽取技术 被引量:1
3
作者 程娟 《图书馆学研究》 CSSCI 2008年第5期21-22,共2页
本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术。首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以... 本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术。首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统。 展开更多
关键词 文本抽取 文本密度 机器学习 神经网络java
下载PDF
一种基于文本抽取的网页正文去重算法 被引量:1
4
作者 曹传东 郭理 《科技信息》 2009年第1期102-103,共2页
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于... 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。 展开更多
关键词 文本抽取 网页特征码 二叉排序树 网页去重
下载PDF
大数据下基于页面复杂度的文本抽取方法
5
作者 娄建楼 史春雷 《数字技术与应用》 2015年第12期91-91,共1页
政务信息在网页中的展示方式不同,导致了政务网站不同页面间的复杂度差异大。常用的文本定位方法在面对不同复杂度的页面时,无法对页面复杂对进行判定,对不同复杂度的页面没有差异化操作。本文在DOM结构的基础上进行页面复杂度判定。并... 政务信息在网页中的展示方式不同,导致了政务网站不同页面间的复杂度差异大。常用的文本定位方法在面对不同复杂度的页面时,无法对页面复杂对进行判定,对不同复杂度的页面没有差异化操作。本文在DOM结构的基础上进行页面复杂度判定。并基于页面复杂度不同的页面,实现文本定位的差异化操作。 展开更多
关键词 文本抽取 页面复杂度 DOM树
下载PDF
基于异构图和关键词的抽取式文本摘要模型 被引量:1
6
作者 朱颀林 王羽 徐建 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期259-270,共12页
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGK... 抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGKSum)。该模型首先将文本建模为由句子节点和词语节点构成的异构图,在异构图上使用图注意力网络学习节点的特征,之后将关键词抽取任务作为文本摘要任务的辅助任务,使用多任务学习的方式进行训练,得到候选摘要,最后对候选摘要进行精炼以降低冗余度,得到最终摘要。在基准数据集上的对比实验表明,该模型性能优于基准模型,此外,消融实验也证明了引入异构节点和关键词的必要性。 展开更多
关键词 抽取文本摘要 异构图 关键词 图注意力网络 多任务学习
下载PDF
不同自然语言处理方法在土壤环境污染调查报告文本信息抽取中的对比研究
7
作者 孙维维 潘贤章 +5 位作者 刘杰 郭观林 李衍 王娟 项钰 王睿 《环境科学研究》 CAS CSCD 北大核心 2024年第3期607-615,共9页
土壤环境污染调查报告中包含着丰富的土壤环境、污染源、迁移途径和受体等信息,但是这些非结构化类型的数据很难直接使用,需要先进行文本信息抽取,以供后续进一步分析处理.本研究针对土壤环境污染调查报告文本信息抽取的技术难点,分别... 土壤环境污染调查报告中包含着丰富的土壤环境、污染源、迁移途径和受体等信息,但是这些非结构化类型的数据很难直接使用,需要先进行文本信息抽取,以供后续进一步分析处理.本研究针对土壤环境污染调查报告文本信息抽取的技术难点,分别采用传统规则匹配方法、BERT模型和GPT模型的自然语言处理(NLP)方法,进行文本信息抽取,并对其抽取效果进行评价.结果表明:GPT模型的抽取准确率、召回率和F1分数分别达到97.80%、84.43%和90.62%,相比于传统规则匹配方法分别提高了86.70%、299.12%和200.70%,相比于BERT模型分别提高了18.10%、154.21%和91.15%.进一步分析发现,虽然GPT模型在文本要素信息抽取中具有一定优势,但是规则匹配方法简单易用且部分要素抽取效率较高;同时,通过增加训练样本量及优化标注和模型参数等手段,BERT模型有较大的提升空间,因此,针对土壤环境污染调查报告中不同文本要素标签,可以采用合适的NLP方法,以兼顾文本信息抽取效率与精度. 展开更多
关键词 文本要素抽取 BERT模型 GPT模型 污染地块 土壤环境污染调查报告
下载PDF
基于无监督机器学习的抽取式文本摘要与翻译技术研究
8
作者 颜婷婷 戎慧敏 《广西民族大学学报(自然科学版)》 CAS 2024年第1期99-104,共6页
翻译是促进不同语言和文化之间交流和合作的重要手段,文本摘要作为一种有效的信息提取方法,可以帮助翻译者快速准确地把握原文的核心内容和语义信息。基于此,研究引入了无监督机器学习TextRank算法应用于文本摘要抽取中,同时结合了双向... 翻译是促进不同语言和文化之间交流和合作的重要手段,文本摘要作为一种有效的信息提取方法,可以帮助翻译者快速准确地把握原文的核心内容和语义信息。基于此,研究引入了无监督机器学习TextRank算法应用于文本摘要抽取中,同时结合了双向编码器表示、基于相似度关系的多特征融合计算机制以及改进的最大边界相关算法加以改进。结果显示,当抽取3条摘要时,改进TextRank算法的各项Rouge值分别高达48.01%、31.54%、37.86%。同时,改进TextRank算法在DailyMail数据集上双语评估研究指标高达69.81%。说明研究所提的改进TextRank算法在文本摘要抽取和翻译方面具有显著的性能优势,为现代翻译领域提供了一种有效的文本摘要抽取和翻译方法。 展开更多
关键词 无监督机器学习 抽取文本摘要 翻译技术 TextRank算法
下载PDF
基于模型的新闻文本自动摘要研究
9
作者 陈鑫影 董文超 +1 位作者 刘月凡 杨家琪 《大连交通大学学报》 CAS 2024年第5期114-120,共7页
针对传统文本摘要模型参数多、运算耗时长等问题,基于改进BERTSUM模型,探索了BERT模型的蒸馏变体DistilBERT、MobileBERT在CNN/DM数据集上所表现出的摘要性能,并由此提出一种轻量化抽取式摘要模型(DistilSum)。试验对比分析表明,该模型... 针对传统文本摘要模型参数多、运算耗时长等问题,基于改进BERTSUM模型,探索了BERT模型的蒸馏变体DistilBERT、MobileBERT在CNN/DM数据集上所表现出的摘要性能,并由此提出一种轻量化抽取式摘要模型(DistilSum)。试验对比分析表明,该模型保留了原模型99%的性能,同时训练参数缩减了约36%,训练时间大幅减少。 展开更多
关键词 抽取文本摘要 预训练语言模型 DistilBERT BERTSUM
下载PDF
一种基于条件随机场的复杂背景图像文本抽取方法 被引量:5
10
作者 李敏花 王春恒 +1 位作者 肖柏华 柏猛 《模式识别与人工智能》 EI CSCD 北大核心 2009年第6期827-832,共6页
针对复杂背景图像中的文本抽取问题,文中提出一种基于条件随机场的图像文本抽取方法.该方法在将各种特征有效结合起来的同时,考虑到上下文特征,从而能有效地从复杂图像中抽取文本信息.分析比较不同颜色空间、不同特征对文本抽取性能的影... 针对复杂背景图像中的文本抽取问题,文中提出一种基于条件随机场的图像文本抽取方法.该方法在将各种特征有效结合起来的同时,考虑到上下文特征,从而能有效地从复杂图像中抽取文本信息.分析比较不同颜色空间、不同特征对文本抽取性能的影响.实验结果表明该方法的有效性. 展开更多
关键词 文本抽取 条件随机场 复杂背景 图像分割
原文传递
一种基于模板的快速网页文本自动抽取算法 被引量:11
11
作者 陈治昂 周知予 李大学 《计算机应用研究》 CSCD 北大核心 2009年第7期2646-2649,共4页
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的... 针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。 展开更多
关键词 噪声 非结构化 文本抽取 模板 阈值
下载PDF
基于DOM树及行文本统计去噪的网页文本抽取技术 被引量:4
12
作者 李霞 蒋盛益 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第3期38-42,共5页
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本... 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。 展开更多
关键词 网页文本抽取 DOM树 文本统计 标点符号统计
原文传递
基于IFilter的非文本文件中抽取文本的关键技术
13
作者 徐辉 《电脑知识与技术》 2011年第9X期6682-6683,共2页
文本抽取是信息检索的一个重要问题。设计并实现了一个利用IFilter接口的过滤器组件,抽取非文本文件的文本信息的程序。对这一设计过程论述了其主要的关键技术。
关键词 文本抽取 文本文件 IFilter接口 过滤器组件
下载PDF
基于循环神经网络的图像特定文本抽取方法 被引量:4
14
作者 杨恒杰 闫铮 +2 位作者 邬宗玲 方定邦 段放 《激光与光电子学进展》 CSCD 北大核心 2019年第24期180-187,共8页
光学字符识别(OCR)难以针对图像中某些特定文本进行识别,尤其在实际场景中,识别结果通常会包含大量噪声文本。针对这一问题,提出一种基于循环神经网络的双向长短时记忆-条件随机场(BLSTM-CRF)模型。首先利用BLSTM网络捕获OCR识别结果中... 光学字符识别(OCR)难以针对图像中某些特定文本进行识别,尤其在实际场景中,识别结果通常会包含大量噪声文本。针对这一问题,提出一种基于循环神经网络的双向长短时记忆-条件随机场(BLSTM-CRF)模型。首先利用BLSTM网络捕获OCR识别结果中序列的上下文信息,得到特征序列;然后结合CRF建立模型特征与标签的关系,进行标签预测,通过标签即可得到特定文本。实验结果表明,该方法在场景图像数据集YNIDREAL上可以达到88.52%的准确率,相较于CRF模型,准确率提高了16.39个百分点,证明了本方法的可行性和稳健性。 展开更多
关键词 机器视觉 特定文本抽取 光学字符识别 双向长短时记忆网络 条件随机场
原文传递
基于最大熵的隐马尔可夫模型文本信息抽取 被引量:48
15
作者 林亚平 刘云中 +2 位作者 周顺先 陈治平 蔡立军 《电子学报》 EI CAS CSCD 北大核心 2005年第2期236-240,共5页
文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学... 文本信息抽取是处理海量文本的重要手段之一 .最大熵模型提供了一种自然语言处理的方法 .提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法 .该算法结合最大熵模型在处理规则知识上的优势 ,以及隐马尔可夫模型在序列处理和统计学习上的技术基础 ,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数 ,实现文本信息抽取 .实验结果表明 ,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能 . 展开更多
关键词 人工智能 文本信息抽取 隐马尔可夫模型 最大熵
下载PDF
基于二阶隐马尔可夫模型的文本信息抽取 被引量:25
16
作者 周顺先 林亚平 +1 位作者 王耀南 易叶青 《电子学报》 EI CAS CSCD 北大核心 2007年第11期2226-2231,共6页
隐马尔可夫模型是文本信息抽取的重要方法之一.在一阶隐马尔可夫模型中,假设状态转移概率和观察值输出概率仅依赖于模型当前的状态,一定程度降低了信息抽取的精确度.而二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错... 隐马尔可夫模型是文本信息抽取的重要方法之一.在一阶隐马尔可夫模型中,假设状态转移概率和观察值输出概率仅依赖于模型当前的状态,一定程度降低了信息抽取的精确度.而二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息有更强的识别能力.提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在文本信息抽取中的有效性;仿真实验表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度. 展开更多
关键词 文本信息抽取 一阶隐马尔可夫模型 二阶隐马尔可夫模型 精确度
下载PDF
基于条件随机域CRF模型的文本信息抽取 被引量:8
17
作者 周晶 吴军华 +1 位作者 陈佳 陈沈焰 《计算机工程与设计》 CSCD 北大核心 2008年第23期6094-6097,共4页
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习... 为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法。该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取。实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率。 展开更多
关键词 条件随机域 文本信息抽取 参数估计 L—BFGS迭代法 特征集
下载PDF
基于主动学习隐马尔可夫模型的文本信息抽取 被引量:3
18
作者 周顺先 林亚平 王耀南 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期74-77,共4页
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通... 对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量. 展开更多
关键词 主动学习 隐马尔可夫模型 文本信息抽取
下载PDF
基于文本分块的多模板隐马尔可夫模型的文本信息抽取 被引量:4
19
作者 王雷 陈治平 李志成 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期25-28,共4页
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模... 针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能. 展开更多
关键词 文本信息抽取 隐马尔可夫模型 多模板 文本分块
下载PDF
中医文本信息抽取系统 被引量:2
20
作者 于彤 朱玲 +1 位作者 李敬华 高宏杰 《中国医学创新》 CAS 2015年第21期108-110,共3页
近年来,文本信息抽取成为中医文献知识挖掘的一种新兴手段。构建了基于本体的中医文本信息抽取系统,它能从中医文献中提取领域概念及语义关系,并支持用户完成文本语义关系的检阅、分析和标注等工作。该系统能辅助中医专家从中医文献中... 近年来,文本信息抽取成为中医文献知识挖掘的一种新兴手段。构建了基于本体的中医文本信息抽取系统,它能从中医文献中提取领域概念及语义关系,并支持用户完成文本语义关系的检阅、分析和标注等工作。该系统能辅助中医专家从中医文献中挖掘知识,并进一步完善中医领域本体系统。 展开更多
关键词 中医药 文本信息抽取 本体
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部