期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
SVM+BiHMM:基于统计方法的元数据抽取混合模型 被引量:27
1
作者 张铭 银平 +1 位作者 邓志鸿 杨冬青 《软件学报》 EI CSCD 北大核心 2008年第2期358-368,共11页
提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,... 提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM+BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM+BiHMM算法的抽取效果优于其他方法. 展开更多
关键词 元数据抽取 基于规则的信息抽取 支持向量机 隐马尔科夫模型 二元 hmm模型
下载PDF
基于HMM的Web信息抽取算法的研究与应用 被引量:12
2
作者 祝伟华 卢熠 刘斌斌 《计算机科学》 CSCD 北大核心 2010年第2期203-206,共4页
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应... 随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。 展开更多
关键词 隐马尔可夫模型 信息抽取 机器学习
下载PDF
基于改进SVM和HMM的文本信息抽取算法 被引量:6
3
作者 孙师尧 妙全兴 《计算机应用与软件》 CSCD 2015年第11期281-284,292,共5页
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。... 传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。该算法融合了多种信息抽取方法,引入支持向量机对信息进行分类,利用S型函数拟合调整模型参数,并采用数据平滑技术优化模型概率空间。实验结果表明,与传统的文本信息抽取算法相比,该算法信息抽取的精确度和召回率明显提高,具有较好的可行性。 展开更多
关键词 信息抽取 支持向量机隐 马尔可夫模型 机器学习
下载PDF
Exploring the Potentialities of Automatic Extraction of University Webometric Information 被引量:2
4
作者 Gianpiero Bianchi Renato Bruni +3 位作者 Cinzia Daraio Antonio Laureti Palma Giulio Perani Francesco Scalfati 《Journal of Data and Information Science》 CSCD 2020年第4期43-55,共13页
Purpose:The main objective of this work is to show the potentialities of recently developed approaches for automatic knowledge extraction directly from the universities’websites.The information automatically extracte... Purpose:The main objective of this work is to show the potentialities of recently developed approaches for automatic knowledge extraction directly from the universities’websites.The information automatically extracted can be potentially updated with a frequency higher than once per year,and be safe from manipulations or misinterpretations.Moreover,this approach allows us flexibility in collecting indicators about the efficiency of universities’websites and their effectiveness in disseminating key contents.These new indicators can complement traditional indicators of scientific research(e.g.number of articles and number of citations)and teaching(e.g.number of students and graduates)by introducing further dimensions to allow new insights for“profiling”the analyzed universities.Design/methodology/approach:Webometrics relies on web mining methods and techniques to perform quantitative analyses of the web.This study implements an advanced application of the webometric approach,exploiting all the three categories of web mining:web content mining;web structure mining;web usage mining.The information to compute our indicators has been extracted from the universities’websites by using web scraping and text mining techniques.The scraped information has been stored in a NoSQL DB according to a semistructured form to allow for retrieving information efficiently by text mining techniques.This provides increased flexibility in the design of new indicators,opening the door to new types of analyses.Some data have also been collected by means of batch interrogations of search engines(Bing,www.bing.com)or from a leading provider of Web analytics(SimilarWeb,http://www.similarweb.com).The information extracted from the Web has been combined with the University structural information taken from the European Tertiary Education Register(https://eter.joanneum.at/#/home),a database collecting information on Higher Education Institutions(HEIs)at European level.All the above was used to perform a clusterization of 79 Italian universities based on structural and digital indicators.Findings:The main findings of this study concern the evaluation of the potential in digitalization of universities,in particular by presenting techniques for the automatic extraction of information from the web to build indicators of quality and impact of universities’websites.These indicators can complement traditional indicators and can be used to identify groups of universities with common features using clustering techniques working with the above indicators.Research limitations:The results reported in this study refers to Italian universities only,but the approach could be extended to other university systems abroad.Practical implications:The approach proposed in this study and its illustration on Italian universities show the usefulness of recently introduced automatic data extraction and web scraping approaches and its practical relevance for characterizing and profiling the activities of universities on the basis of their websites.The approach could be applied to other university systems.Originality/value:This work applies for the first time to university websites some recently introduced techniques for automatic knowledge extraction based on web scraping,optical character recognition and nontrivial text mining operations(Bruni&Bianchi,2020). 展开更多
关键词 Development of data and information services Webometrics indicators Higher education institutions Automatic extraction machine learning Optimization
下载PDF
基于特征优选和机器学习的第四系空间信息提取研究
5
作者 李清清 黄海峰 +6 位作者 张瑞 易武 周红 邓志勇 董志鸿 柳青 易庆林 《水利水电技术(中英文)》 北大核心 2024年第5期157-169,共13页
【目的】第四系土体是土质滑坡的主要物源,其分布及厚度是开展土质滑坡隐患识别的重要基础。随着机器学习技术的兴起,图像分类技术与人工智能算法结合已成为遥感识别的主流。【方法】以三峡库首秭归向斜盆地为研究区,以Landsat-8影像为... 【目的】第四系土体是土质滑坡的主要物源,其分布及厚度是开展土质滑坡隐患识别的重要基础。随着机器学习技术的兴起,图像分类技术与人工智能算法结合已成为遥感识别的主流。【方法】以三峡库首秭归向斜盆地为研究区,以Landsat-8影像为基础数据源,以区内现有土质滑坡数据构建样本,采用机器学习软件EnMAP-Box,建立第四系厚度及空间分布信息的随机森林分类模型,筛选出用于识别第四系土体厚度的最优特征子集,得出第四系相对厚度空间分布。【结果】结果表明:Landsat-8遥感影像的光谱特征、主成分、植被指数、湿度、坡度、绿度、均值等与第四系厚度具有强相关性,可作为识别第四系土体厚度的重要特征因子;随机森林模型能有效识别第四系土体厚度信息,且对岩质区提取精度较高;经实地调查验证,模型性能均衡,预测结果合理,可用于多植被中低山区环境的第四系识别。【结论】研究成果可为土质滑坡隐患识别和风险防控提供重要数据支撑。 展开更多
关键词 第四系土体 滑坡 相对厚度 机器学习 空间信息提取 三峡库首
下载PDF
多特征参数支持的红树林遥感信息提取——以广东省为例
6
作者 王煜淼 李胜 +1 位作者 东春宇 杨刚 《自然资源遥感》 CSCD 北大核心 2024年第1期95-102,共8页
准确的红树林分布信息对红树林保护和管理具有重要意义。尽管已有不少红树林遥感制图研究,但如何有效利用多源遥感特征来提高红树林制图精度仍有待探索。首先,利用多源遥感数据提取光谱、散射、纹理和地形等时序特征来设计15种特征组合... 准确的红树林分布信息对红树林保护和管理具有重要意义。尽管已有不少红树林遥感制图研究,但如何有效利用多源遥感特征来提高红树林制图精度仍有待探索。首先,利用多源遥感数据提取光谱、散射、纹理和地形等时序特征来设计15种特征组合;然后,利用随机森林模型分析不同特征组合在红树林识别中的精度,从而获得最优特征组合;最后,基于Google Earth Engine(GEE)平台获取2021年广东省10 m空间分辨率的红树林分布。结果显示,冬季光谱特征的重要性最高,特征类型越丰富对应制图精度越高,最优特征组合的总体精度为92.25%,Kappa系数为0.91。通过探究红树林识别中的最优特征组合,在多特征参数支持下实现广东省红树林信息提取,研究成果可为大范围红树林精准制图提供科学参考。 展开更多
关键词 红树林提取 多源遥感数据 GEE 机器学习 广东省
下载PDF
基于无人机和机器学习的川西北修复沙地植被信息提取
7
作者 徐渝杰 舒向阳 +8 位作者 陶敏 孙奕函 刘唯佳 董高成 何沁 李杰 李一丁 邓良基 杨雨山 《四川农业大学学报》 CSCD 北大核心 2024年第1期181-187,共7页
【目的】旨在无人机影像中提取植被信息(草本和灌木),估算植被覆盖度,用于生态修复领域反映植被长势和丰度。【方法】选取水体、灌木、草本和沙地4类地物,采用4种机器学习算法,深度学习、马氏距离、最大似然法和最小距离法进行精度对比... 【目的】旨在无人机影像中提取植被信息(草本和灌木),估算植被覆盖度,用于生态修复领域反映植被长势和丰度。【方法】选取水体、灌木、草本和沙地4类地物,采用4种机器学习算法,深度学习、马氏距离、最大似然法和最小距离法进行精度对比,选取精度最高的算法作为研究方法。【结果】4种方法得到总体精度分别为95.47%、95.14%、93.30%和71.98%,kappa系数分别为0.92、0.91、0.88和0.57。【结论】基于深度学习方法分析发现,红原沙化治理示范基地范围内灌木、草地、水体和沙地面积分别为0.09、0.14、0.04和0.32 km^(2)。该方法可以为川西北高寒修复沙地监测、研究与治理状况评价提供数据支持和一定的科学依据。 展开更多
关键词 高分辨率无人机影像 沙地植被信息提取 植物覆盖率 机器学习
下载PDF
Automatic Event Trigger Word Extraction in Chinese Event 被引量:1
8
作者 Long Tian Wen Ma Wen Zhou 《Journal of Software Engineering and Applications》 2012年第12期208-212,共5页
As a basic unit of knowledge representation and an important means for information organization, event has drawn growing number of people’s attention, the research of event identification and extraction in natural la... As a basic unit of knowledge representation and an important means for information organization, event has drawn growing number of people’s attention, the research of event identification and extraction in natural language processing field is an important research topic in information extraction area, the recognition and extraction of event trigger word plays a decisive role in event identification and extraction. In this paper, the authors make experiment in Chinese Event Corpus CEC, and present a method of extracting event trigger word automatically that combines extended trigger word table and machine learning. The experiment result shows that the F-score of extracting event trigger word. can reach 71.2% by using this method. 展开更多
关键词 information extraction EVENT TRIGGER WORD TRIGGER WORD TABLE machine learning
下载PDF
预训练语言模型的应用综述 被引量:4
9
作者 孙凯丽 罗旭东 罗有容 《计算机科学》 CSCD 北大核心 2023年第1期176-184,共9页
近年来,预训练语言模型发展迅速,将自然语言处理推到了一个全新的发展阶段。文中的综述旨在帮助研究人员了解强大的预训练语言模型在何处以及如何应用于自然语言处理。具体来讲,首先简要回顾了典型的预训练模型,包括单语言预训练模型、... 近年来,预训练语言模型发展迅速,将自然语言处理推到了一个全新的发展阶段。文中的综述旨在帮助研究人员了解强大的预训练语言模型在何处以及如何应用于自然语言处理。具体来讲,首先简要回顾了典型的预训练模型,包括单语言预训练模型、多语言预训练模型以及中文预训练模型;然后讨论了这些预训练模型对5个不同的自然语言处理任务的贡献,即信息提取、情感分析、问答系统、文本摘要和机器翻译;最后讨论了预训练模型的应用所面临的一些挑战。 展开更多
关键词 预训练语言模型 自然语言处理 深度学习 信息提取 情感分析 问答系统 文本摘要 机器翻译
下载PDF
基于全局语义匹配的篇章级事件抽取方法
10
作者 高兵 皇甫楠 +1 位作者 邹启杰 秦静 《计算机技术与发展》 2023年第7期154-159,共6页
作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个... 作为自然语言处理领域中经典的信息抽取任务,事件抽取方法可以帮助人们从海量文本数据中快速准确地获取结构化事件信息,在事理图谱构建、舆情监控、态势感知等多个方面都起着举足轻重的作用。而由于事件组成的复杂性,文档中会包含多个相关的事件句,如果在对文档进行事件抽取时仅针对单个句子,从句子层面进行事件抽取,则很难将一个事件分散在整个文档中的事件信息抽取完整,得到完整的事件信息。为了解决这些问题,该文提出了基于全局语义匹配的篇章级事件抽取方法。首先,使用基于长短期记忆网络—条件随机场的序列标注模型进行句子级事件抽取;其次,在句子级事件抽取的基础上,采用所提全局语义匹配方法进行事件共指判断,通过融合句子级事件信息完成事件信息的完整抽取;最后,在MUC-4事件抽取数据集对所提模型进行验证,结果表明所提方法对文档中分散的事件元素有更准确抽取效果,在F1值上也有明显提升。 展开更多
关键词 事件抽取 篇章级事件抽取 全局语义匹配 论元识别 信息融合 机器学习
下载PDF
基于多源数据的毛竹林信息自动提取
11
作者 王广科 吴达胜 方陆明 《浙江林业科技》 2023年第3期79-86,共8页
毛竹Phyllostachys edulis是重要的经济林种,快速准确地获取毛竹林的面积及郁闭度等信息可对毛竹林的高效经营管理提供巨大帮助。基于人工样地的森林资源调查耗时费力且效率低下,故利用遥感图像等较低成本的数据源估测大范围毛竹林的面... 毛竹Phyllostachys edulis是重要的经济林种,快速准确地获取毛竹林的面积及郁闭度等信息可对毛竹林的高效经营管理提供巨大帮助。基于人工样地的森林资源调查耗时费力且效率低下,故利用遥感图像等较低成本的数据源估测大范围毛竹林的面积及其郁闭度等信息具有重要意义。本文以浙江省安吉县为研究区域,基于Sentinel-2中等分辨率遥感图像、数字高程模型(Digital Elevation Model,DEM)数据及森林资源二类调查数据,利用CatBoost、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)三种算法,通过二分类方法估算毛竹林面积和多分类方法估算毛竹林郁闭度。结果表明:在估算毛竹林面积时,CatBoost、RF、SVM的总体分类精度分别为97.75%、96.54%、95.05%,Kappa系数分别为0.96、0.93、0.90;在估算毛竹林郁闭度时,以上三种算法的总体分类精度分别为73.38%、73.49%、69.9%,Kappa系数分别为0.52、0.52、0.45。在本文研究数据中,0.7、0.8郁闭度样本(大类别样本)占样本总数的89.42%,剩余类别样本(小类别样本)只占样本总数的10.58%。样本失衡是导致毛竹林郁闭度估算精度严重偏低的重要原因。将样本分成两种类别后(占比较大的样本和占比较小的样本)分别进行建模,模型估测效果有了较大改善,各模型郁闭度估算精度均在78%以上,其中以CatBoost最优,总体精度达到83.45%。基于Sentinel-2遥感图像、DEM及森林资源二类调查数据的多源数据估算毛竹林面积和郁闭度,CatBoost算法具有最佳的性能指标,其估算结果可为竹林资源的监测提供重要借鉴。 展开更多
关键词 毛竹林 遥感 机器学习 信息提取
下载PDF
欧美科技政策文本扫描与监测系统实现 被引量:1
12
作者 于达海 常奥飞 +2 位作者 化柏林 王宏光 郑文蛟 《科技情报研究》 2023年第1期43-57,共15页
[目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓... [目的/意义]科技政策对科技事业的发展具有指导作用,科技政策是否高效合理,对科学技术能否快速发展具有重要的影响。为了帮助决策者更快捷地掌握国际最新科技布局、规划与政策引领,特别是跟踪并分析欧美主要发达国家的科技政策,实时抓取相应的科技政策文本并进行分析挖掘,在当前的国际环境下具有重要意义。[方法/过程]本研究设计并实现了欧美科技政策文本扫描与监测系统,主要包括数据库层、数据实体层、业务逻辑层和界面层4层体系架构,实现了定期采集、翻译、关键词抽取、技术实体抽取、自动摘要、政策文本分类以及演化分析等功能,为科技政策的制定与规划提供了重要的决策支持。[结果/结论]欧美科技政策文本扫描与监测系统有助于第一时间监测欧美科技政策最新动态,把握欧美科技政策的演化进程与趋势,及时窥探欧美科技政策的规划与布局,为我国科技政策的制定、规划与完善提供完备的信息支撑与决策参考。 展开更多
关键词 科技政策 网络爬虫 机器学习 文本挖掘 信息抽取
下载PDF
机器学习下半结构化文本信息抽取仿真
13
作者 朱小龙 邱林 《计算机仿真》 北大核心 2023年第2期540-544,共5页
为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似... 为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似度和文本相似度的基础上,对文本信息实行聚类处理,将机器学习中的隐马尔可夫模型应用在不同的文本信息类别中,实现半结构化文本信息的抽取。仿真结果表明,所提算法的信息抽取精度高、召回率高、准确率高、抽取效率高。 展开更多
关键词 机器学习 自编码网络 信息聚类 隐马尔可夫模型 半结构化文本 信息抽取
下载PDF
基于深度学习和GB-RBM的UAV红外语义分割方法
14
作者 冯向东 邬忠萍 郝宗波 《计算机工程与设计》 北大核心 2023年第8期2432-2438,共7页
为提高UAV红外图像语义分割的性能,提出基于深度学习和高斯伯努利受限玻尔兹曼机(GB-RBM)的实时语义分割模型。确认地面车辆实时特征提取中的关键问题。基于GB-RBM,提出用于编码阶段的形状先验模型。通过将SegNet中的编码器-解码器结构... 为提高UAV红外图像语义分割的性能,提出基于深度学习和高斯伯努利受限玻尔兹曼机(GB-RBM)的实时语义分割模型。确认地面车辆实时特征提取中的关键问题。基于GB-RBM,提出用于编码阶段的形状先验模型。通过将SegNet中的编码器-解码器结构与GB-RBM模块相融合,在解码器块中生成红外数据的实时映射,实现准确快速的语义分割。实验结果表明,所提方法能够很好地处理红外视频中的实时几何信息,在3个实验数据集上的平均精度约为0.98,平均处理时长约为17.86 s,性能优于其它优秀方法。 展开更多
关键词 深度学习 语义分割 受限玻尔兹曼机 红外图像 编码器-解码器 特征提取 几何信息
下载PDF
基于Landsat-8数据的洞庭湖区地表水体提取方法评价 被引量:1
15
作者 叶雨阳 吕献林 +2 位作者 罗锴澍 操华双 陈刚 《水利水电快报》 2023年第8期17-24,共8页
为精准识别水体信息并实时监测湖泊水体时空特征及其环境特征变化情况,以洞庭湖为例,基于Landsat-8影像数据分别使用改进的归一化差异水体指数(Modified Normalized Difference Water Index,MNDWI)、自动水体提取指数(Automated Water E... 为精准识别水体信息并实时监测湖泊水体时空特征及其环境特征变化情况,以洞庭湖为例,基于Landsat-8影像数据分别使用改进的归一化差异水体指数(Modified Normalized Difference Water Index,MNDWI)、自动水体提取指数(Automated Water Extraction Index,AWEI sh)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Networks,ANNs)、随机森林(Random Forest,RF)等5种方法提取枯、丰水期水体分布信息,通过精度指标评价及影响因素分析,旨在找到提取精度高、鲁棒性强的水体提取方法。结果表明:5种方法中SVM法水体提取总精度最高且泛化能力良好。研究成果可为各方法适用性提供一定参考,并通过定量分析揭示漏提率在提取精度评价指标中的重要性。 展开更多
关键词 Landsat-8 水体信息提取 水体指数 机器学习 洞庭湖
下载PDF
基于多学习策略的网页信息抽取方法
16
作者 朱明 李香 郑烇 《计算机应用与软件》 CSCD 北大核心 2008年第12期68-69,115,共3页
由于网页信息具有异构和动态的特点,致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此,将传统的文本分类器和隐式马尔可夫学习策略结合起来,提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部... 由于网页信息具有异构和动态的特点,致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此,将传统的文本分类器和隐式马尔可夫学习策略结合起来,提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部最优分类抽取结果基础上,还利用了整个网页文本结构信息对抽取结果进行进一步优化。实验结果表明,该方法不需要对新的站点进行学习,就能获得较高的信息召回率和抽取精度,具有较强的适用性。 展开更多
关键词 信息抽取 机器学习 文本分类器 hmm
下载PDF
基于核函数中文关系自动抽取系统的实现 被引量:58
17
作者 刘克彬 李芳 +1 位作者 刘磊 韩颖 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1406-1411,共6页
实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可... 实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统. 展开更多
关键词 关系抽取 核函数 信息抽取 语义 机器学习
下载PDF
基于隐马尔可夫模型的文本信息抽取 被引量:50
18
作者 刘云中 林亚平 陈治平 《系统仿真学报》 CAS CSCD 2004年第3期507-510,共4页
文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐... 文本信息抽取是处理海量文本的重要手段,将隐马尔可夫模型应用到信息抽取领域是一个比较新的研究课题。提出了一种基于隐马尔可夫模型的文本信息抽取算法。该算法利用文本排版格式、分隔符等信息,对文本进行分块,在分块的基础上结合隐马尔可夫模型进行文本信息抽取。仿真结果表明,新的算法在精确度和召回率方面有明显的提高。 展开更多
关键词 隐马尔可夫模型 信息抽取 文本分块 机器学习
下载PDF
有效HTML文本信息抽取方法的研究 被引量:15
19
作者 韩忠明 李文正 莫倩 《计算机应用研究》 CSCD 北大核心 2008年第12期3568-3571,3574,共5页
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以... 从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。 展开更多
关键词 网页 信息抽取 机器学习 统计
下载PDF
非结构化信息抽取关键技术研究探讨 被引量:10
20
作者 周法国 王映龙 +1 位作者 杨炳儒 宋泽锋 《计算机工程与应用》 CSCD 北大核心 2009年第14期1-6,21,共7页
以基于内在认知机理的知识发现理论为指导,针对汉语命名实体识别的难点,充分考虑专家知识在命名实体识别中的作用;根据不同的实体类型,采用灵活变化的统计与规则相结合的方式;采用各种技术来研究信息抽取的任务,如:机器学习技术、篇章... 以基于内在认知机理的知识发现理论为指导,针对汉语命名实体识别的难点,充分考虑专家知识在命名实体识别中的作用;根据不同的实体类型,采用灵活变化的统计与规则相结合的方式;采用各种技术来研究信息抽取的任务,如:机器学习技术、篇章分析与理解技术、句法分析技术、图算法与图挖掘技术、词计算技术、快速全文检索技术等;该文探讨的是不仅要从文本中获取简单子句中的关系,还要获得跨句子、段落中的实体关系。 展开更多
关键词 信息抽取 内在认知机理 命名实体识别 共指消解 机器学习
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部