期刊文献+
共找到164篇文章
< 1 2 9 >
每页显示 20 50 100
A Knowledge-Integrate Cross-Domain Data Generation Method for Aspect and Opinion Co-Extraction
1
作者 Hao Zhang Yegang Li +1 位作者 Jiachen Yang Rujiang Bai 《Journal of Computer and Communications》 2023年第12期31-48,共18页
To address the difficulty of training high-quality models in some specific domains due to the lack of fine-grained annotation resources, we propose in this paper a knowledge-integrated cross-domain data generation met... To address the difficulty of training high-quality models in some specific domains due to the lack of fine-grained annotation resources, we propose in this paper a knowledge-integrated cross-domain data generation method for unsupervised domain adaptation tasks. Specifically, we extract domain features, lexical and syntactic knowledge from source-domain and target-domain data, and use a masking model with an extended masking strategy and a re-masking strategy to obtain domain-specific data that remove domain-specific features. Finally, we improve the sequence generation model BART and use it to generate high-quality target domain data for the task of aspect and opinion co-extraction from the target domain. Experiments were performed on three conventional English datasets from different domains, and our method generates more accurate and diverse target domain data with the best results compared to previous methods. 展开更多
关键词 Knowledge-Integrate domain Adaptation text Generation Aspect and Opinion Co-Extraction
下载PDF
融合领域要素知识的多粒度法律文本匹配方法
2
作者 罗森林 董勃 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第3期298-305,共8页
法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果... 法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.提出一种融合领域要素知识的多粒度法律文本匹配方法,通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句3个粒度的注意力机制计算不同文本向量的权重提升匹配模型效果.实验结果表明,该方法在公开数据集上可达到最好效果. 展开更多
关键词 文本匹配 法律要素 多粒度 领域知识
下载PDF
基于专利文本多粒度深层语义的技术演化路径智能识别方法研究 被引量:3
3
作者 唐晓波 吴佳琳 吴海婷 《情报理论与实践》 CSSCI 北大核心 2024年第1期136-144,共9页
[目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法... [目的/意义]专利文本是技术演化分析的可靠知识来源。利用领域多层本体和Sentence-BERT深度学习预训练模型可分别从词和句子两个角度挖掘多粒度深层文本语义信息,提升专利文本语义挖掘的全面性,进而提高技术演化路径识别的准确性。[方法/过程]以深度学习、基于本体的相似度计算及谱聚类算法等大数据和人工智能技术为基础,实现准确、高效、全面的技术演化路径智能识别。构建领域词典和领域本体,根据领域词典抽取专利摘要中的领域术语,根据领域本体中不同术语的最近共同祖先节点的深度,从词语级别计算专利摘要间的语义相似度;利用Sentence-BERT对专利摘要进行向量化表示,计算句子层面的语义相似度;结合两种相似度的计算结果构建相似度矩阵并进行谱聚类,根据谱聚类结果和专利时序特征识别技术演化路径。最后以光刻领域专利数据为例进行实证研究。[结果/结论]实验结果表明,谱聚类得到的技术类别划分结果的准确率、精确率、召回率和F1值的平均值均达到了85%以上,说明文章提出的基于专利文本多粒度深层语义的技术演化路径智能识别方法是有效的,其有助于科研人员、企业决策者和政府决策者探究技术发展历程,研判技术创新方向,推动关键技术研发。 展开更多
关键词 技术演化路径识别 领域本体 Sentence-BERT 谱聚类 文本挖掘
下载PDF
水工混凝土材料不可编辑文本智能解译方法研究
4
作者 李明超 刘乐平 +3 位作者 任秋兵 李文伟 吕沅庚 李新宇 《水力发电学报》 CSCD 北大核心 2024年第9期124-136,共13页
在水电工程建设过程中,产生了大量不可编辑的水工混凝土材料文档,采用人工解译的方法获取文本费时费力且精度不可控,难以满足材料数据信息化管理的需求。为此,本文提出了面向水工混凝土材料不可编辑文本的智能解译方法。首先,构建了基... 在水电工程建设过程中,产生了大量不可编辑的水工混凝土材料文档,采用人工解译的方法获取文本费时费力且精度不可控,难以满足材料数据信息化管理的需求。为此,本文提出了面向水工混凝土材料不可编辑文本的智能解译方法。首先,构建了基于像素级分割的文本检测模型HC-PSENet,融合PP-HGNet主干网络实现文本行的精确检测。进一步,基于领域知识创建专业语料库以获取字符的准确映射,以检测文本框和专业语料库为输入,建立了水工混凝土材料文本识别模型HC-CRNN,采用ResNet主干网络和改进损失函数C-CTC Loss提高字符分类准确性。最后,以自制数据集为例,引入迁移学习策略训练模型,通过消融、对比实验验证了方法的有效性和优越性。结果表明,本文提出的方法检测文本区域的调和平均数为0.985,识别文本的准确率达到90.62%,综合性能均优于经典方法,以期为混凝土材料不可编辑资源的自动化再利用提供新的技术手段。 展开更多
关键词 水工混凝土材料 文本检测 文本识别 深度学习 领域知识
下载PDF
基于评分与文本融合的多注意力跨域推荐算法
5
作者 马娜 温廷新 +1 位作者 贾旭 李晓会 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2024年第1期101-110,共10页
为解决在目标领域推荐过程中用户与物品交互数据的稀疏性问题,提出一种新的跨域推荐模型。将辅助领域中的知识迁移到目标域中,基于前馈神经网络分别获得评分信息与评论文本信息的域独有特征;通过采用基于神经网络的特征提取器与基于向... 为解决在目标领域推荐过程中用户与物品交互数据的稀疏性问题,提出一种新的跨域推荐模型。将辅助领域中的知识迁移到目标域中,基于前馈神经网络分别获得评分信息与评论文本信息的域独有特征;通过采用基于神经网络的特征提取器与基于向量嵌入的域鉴别器融合后的对抗模型,获得评分信息与评论文本信息的域共享特征;再基于多层注意力机制将域独有特征与域共享特征进行融合,从而获得用户对物品的兴趣度。研究结果表明:对于两种经典的推荐评价性能指标,所提出的模型在Amazon数据集上可以获得更好的推荐性能。 展开更多
关键词 跨域推荐 评论文本 注意力机制 迁移学习
下载PDF
基于领域概念图的航天新闻自动摘要模型
6
作者 黄浩宁 陈志敏 +1 位作者 徐聪 张晓燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第1期317-327,共11页
互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提... 互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提出一种基于领域概念图的无监督自动摘要(DCG-TextRank)模型,利用领域术语辅助引导图排序,提高模型对领域文本的理解力。该模型分3个模块:领域概念图生成、图权重初始化、图排序及语义筛选。根据句向量相似度和领域术语库,将文本转换为包含句子节点和领域术语节点的领域概念图;根据航天新闻文本特征初始化领域概念图权值;采用TextRank模型对句子进行排序,并在语义筛选模块通过图节点聚类及设置摘要语义保留度的方法改进TextRank的输出,充分保留文本的多语义信息并降低冗余。所提模型具有领域可移植性,且实验结果表明:在航天新闻数据集中,所提模型相比传统TextRank模型性能提升了14.97%,相比有监督抽取式文本摘要模型BertSum和MatchSum性能提升了4.37%~12.97%。 展开更多
关键词 自动文本摘要 领域概念图 预训练语言模型 图排序算法 图节点聚类
下载PDF
面向领域的网页文本校对方法
7
作者 田莎 刘晓强 李柏岩 《计算机与数字工程》 2024年第6期1788-1794,共7页
随着网络技术的快速发展,网站越来越成为各个机构发布和管理信息必不可少的渠道,用户也习惯使用浏览网页的方式去获取信息。随着公开信息量急剧增长,文本编辑和校对过程中难免会存在一些错误,自动文本校对是一个必要的辅助手段。目前针... 随着网络技术的快速发展,网站越来越成为各个机构发布和管理信息必不可少的渠道,用户也习惯使用浏览网页的方式去获取信息。随着公开信息量急剧增长,文本编辑和校对过程中难免会存在一些错误,自动文本校对是一个必要的辅助手段。目前针对文本编辑错误的研究较多,已有一些工具可以支持,但知识表述错误涉及具体的领域知识和语义关系,普通校对工具无法胜任。论文重点针对知识表述错误类的文本校对进行研究,提出一种基于知识图谱的面向领域知识的文本校对方法,论述了领域知识图谱的构建方法与流程、待校对文本的知识抽取方法以及基于知识图谱的校对方法。实验结果显示,该方法能够检测出网页中的语义错误,弥补通用检测工具的不足。 展开更多
关键词 面向领域 文本校对 知识图谱 关键词提取 知识表述
下载PDF
问答式林业预训练语言模型ForestBERT
8
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 BERT 预训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
下载PDF
基于域特定特征的CLIP提示优化算法
9
作者 张跃文 王九杭 覃荣华 《现代电子技术》 北大核心 2024年第18期41-46,共6页
当测试数据与训练数据遵循不同的分布时,神经网络会经历领域转移。领域泛化(DG)的目标是学习一个可处理未知域的通用模型,以此来解决这个问题。以往的方法通过数据增强或者特征空间对齐的方式来提取域不变特征,但在提取的过程中又会产... 当测试数据与训练数据遵循不同的分布时,神经网络会经历领域转移。领域泛化(DG)的目标是学习一个可处理未知域的通用模型,以此来解决这个问题。以往的方法通过数据增强或者特征空间对齐的方式来提取域不变特征,但在提取的过程中又会产生新的域特定特征,导致模型泛化的性能较差。针对这些问题,提出一个简单而有效的框架——ERCLIP,通过ERCLIP来实现大规模预训练模型CLIP在DG中的应用。ERCLIP通过主动提取域特定特征,并将其融入文本提示,实现图像语义的精准描述。并且提出一个文本提示优化器,动态地优化提示向量。在公开数据集OfficeHome、VLCS与PACS上的实验结果表明,ERCLIP在OfficeHome上的平均准确率为83.4%,在VLCS上为83.5%,在PACS上为96.5%,在所有算法里取得最优结果。 展开更多
关键词 域不变特征 ERCLIP 领域泛化 神经网络 特征提取 文本提示
下载PDF
网络“认知战”对抗下认知域风险的发生与防范
10
作者 修明圆 《情报杂志》 CSSCI 北大核心 2024年第11期152-157,77,共7页
[研究目的]智能信息时代催生出网络“认知战”这一新战争形态,由此在认知场域中展开的攻防与对抗活动也引发了新的认知域风险。对此,需要全面审视网络“认知战”背景下认知域风险的发生过程,以在此基础上做好认知域风险的甄别与防范。[... [研究目的]智能信息时代催生出网络“认知战”这一新战争形态,由此在认知场域中展开的攻防与对抗活动也引发了新的认知域风险。对此,需要全面审视网络“认知战”背景下认知域风险的发生过程,以在此基础上做好认知域风险的甄别与防范。[研究方法]综合运用文献分析法、对比研究法等对网络“认知战”引发认知域风险的发生条件、发生路径与具体呈现进行阐释,并结合现实,提出应对风险的防范之策。[研究结论]网络“认知战”不可规避,只有统筹把握认知域中各风险要素,重点防控各斗争的潜在风险点,在研判风险的基础上做好应对斗争的根本性建设,才能在认知战的博弈中,守住防线、赢得胜势。 展开更多
关键词 认知战 认知域风险 意义文本 社交媒体 社会价值观 智能信息时代
下载PDF
轻量化人工智能翻译文本特征分类算法
11
作者 裴丹 《计算机应用文摘》 2024年第17期170-172,共3页
由于人工智能翻译文本整体规模较大,在分类处理时往往存在领域划分异常的情况。为此,文章提出了轻量化人工智能翻译文本特征分类算法,构建了与特定领域相关的领域知识语料库,分别从词汇特征与句法特征2个角度提取人工智能翻译文本的轻... 由于人工智能翻译文本整体规模较大,在分类处理时往往存在领域划分异常的情况。为此,文章提出了轻量化人工智能翻译文本特征分类算法,构建了与特定领域相关的领域知识语料库,分别从词汇特征与句法特征2个角度提取人工智能翻译文本的轻量化特征。根据翻译文本特征与对应领域知识语料库特征之间的距离关系,该算法可实现分类处理,在对不同领域文本进行分类时不仅表现出较高的稳定性,且被准确分类文本数量始终保持在18篇以上,具有良好的分类效果。 展开更多
关键词 轻量化 人工智能的翻译文本 特征分类算法 领域知识语料库 词汇特征 句法特征 语义特征 轻量化特征
下载PDF
知识增强的BERT短文本分类算法
12
作者 傅薛林 金红 +2 位作者 郑玮浩 张奕 陶小梅 《计算机工程与设计》 北大核心 2024年第7期2027-2033,共7页
为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进... 为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进行领域知识的引入;提出一种知识适配器,通过知识适配器在BERT的各个编码层之间进行知识增强。通过在公开的短文本数据集上,将KE-BERT与其它深度学习模型相比较,该模型的F1均值和准确率均值达到93.46%和91.26%,结果表明了所提模型性能表现良好。 展开更多
关键词 短文本分类 深度学习 双向编码器表示转换器 知识图谱 领域知识 知识适配器 知识增强
下载PDF
基于领域词典的文本特征表示 被引量:22
13
作者 陈文亮 朱靖波 +1 位作者 朱慕华 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2155-2160,共6页
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———... 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%· 展开更多
关键词 文本分类 知识获取 领域知识 文本表示
下载PDF
基于领域知识的图模型词义消歧方法 被引量:10
14
作者 鹿文鹏 黄河燕 吴昊 《自动化学报》 EI CSCD 北大核心 2014年第12期2836-2850,共15页
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation,WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目... 对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation,WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究. 展开更多
关键词 词义消歧 领域知识 图模型 词义领域 文本领域
下载PDF
基于多元组匹配损失的司法论辩理解方法
15
作者 张可 艾中良 +2 位作者 刘忠麟 顾平莉 刘学林 《计算机与现代化》 2024年第6期115-120,共6页
司法论辩理解是论辩挖掘任务在司法领域的具体应用,旨在从诉辩双方观点中挖掘存在交互的观点对。司法领域论辩挖掘任务存在数据样本少、句子长度长、领域专业性强等问题,现有的司法论辩理解模型多基于文本分类思想,构建的模型文本语义... 司法论辩理解是论辩挖掘任务在司法领域的具体应用,旨在从诉辩双方观点中挖掘存在交互的观点对。司法领域论辩挖掘任务存在数据样本少、句子长度长、领域专业性强等问题,现有的司法论辩理解模型多基于文本分类思想,构建的模型文本语义表示能力差。为进一步提高论辩交互观点对的识别准确率,提出一种基于多元组匹配损失函数(Multiplet Loss)的司法论辩理解模型,该模型基于文本匹配的思想,将诉称观点与辩称观点分别进行语义相似性匹配,通过优化交互观点对的匹配度实现论辩交互观点对的挖掘。为提升模型对于论辩交互观点对的匹配度,提出多元组匹配损失函数,通过减小论辩交互观点对的语义距离,加大非交互观点的语义距离,使观点间的语义距离能更好地反应其交互性,采用司法领域预训练模型作为文本语义识别模型,进一步提高了文本的语义表达能力。采用CAIL2022论辩理解赛道数据进行测试,实验结果表明基于多元组匹配损失函数的司法论辩理解模型相较于采用分类思想的模型,准确率能够提高2.04个百分点,达到85.19%,提高了司法论辩理解任务精度。 展开更多
关键词 多元组匹配损失 司法领域预训练模型 司法论辩理解 论辩挖掘 文本分类 自然语言处理 深度学习
下载PDF
基于领域本体的语义文本挖掘研究 被引量:16
16
作者 张玉峰 何超 《情报学报》 CSSCI 北大核心 2011年第8期832-839,共8页
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型。该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一... 为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型。该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式。实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性。 展开更多
关键词 语义文本挖掘 领域本体 语义模式
下载PDF
基于领域特征文本的Deep Web分类研究 被引量:4
17
作者 吴春明 谢德体 《计算机科学》 CSCD 北大核心 2012年第4期177-180,共4页
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避... Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。 展开更多
关键词 特征文本 领域分类 向量空间模型 DEEP WEB
下载PDF
基于领域本体的文本分割方法研究 被引量:5
18
作者 刘耀 帅远华 +1 位作者 龚幸伟 黄毅 《计算机科学》 CSCD 北大核心 2018年第1期128-132,156,共6页
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概... 文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。 展开更多
关键词 文本分割 领域本体 语义标注 语义段落
下载PDF
基于语义文本挖掘的企业竞争对手分析模型研究 被引量:4
19
作者 唐晓波 郭萍 《情报学报》 CSSCI 北大核心 2013年第1期28-36,共9页
为弥补传统竞争对手分析方法无法有效挖掘网络化企业竞争对手信息的缺陷,本文将语义文本挖掘技术引入企业竞争对手分析中,提出了一个基于语义文本挖掘的企业竞争对手分析模型。该模型采用规则化主题爬取技术获取结构化信息,利用竞争... 为弥补传统竞争对手分析方法无法有效挖掘网络化企业竞争对手信息的缺陷,本文将语义文本挖掘技术引入企业竞争对手分析中,提出了一个基于语义文本挖掘的企业竞争对手分析模型。该模型采用规则化主题爬取技术获取结构化信息,利用竞争情报领域本体知识库和语义VSM矩阵实现竞争对手信息语义分析和描述,通过基于语义的文本挖掘技术提取竞争对手深层次语义知识。行以相机市场的两大竞争力企业——佳能、尼康为例进行了实证分析研究,实验结果表明,该模型具有潜在的实际应用价值,可有效提高企业决策水平。 展开更多
关键词 文本挖掘 领域本体 竞争对手分析
下载PDF
基于Adaboost算法的场景中文文本定位 被引量:6
20
作者 尹芳 郑亮 陈田田 《计算机工程与应用》 CSCD 北大核心 2017年第4期200-204,208,共6页
提出了一种基于Adaboost算法的场景中文文本定位的新方法。首先利用边缘特征进行文本区域的检测,即对数字图像进行边缘提取、二值化处理,然后通过连通域分析去除明显的非字符连通域,并获得候选的文本区域。对场景中文文本区域进行分析,... 提出了一种基于Adaboost算法的场景中文文本定位的新方法。首先利用边缘特征进行文本区域的检测,即对数字图像进行边缘提取、二值化处理,然后通过连通域分析去除明显的非字符连通域,并获得候选的文本区域。对场景中文文本区域进行分析,提取了场景中文文本的4类特征,并利用这4类特征经过分类与回归决策树构造了Adaboost强分类器。将候选文本区域送入强分类器,得到正确的文本区域。实验结果表明方法不仅对场景文本图像中字体、大小和颜色多变的文本具有很好的定位效果,而且具有很高的召回率和准确率。 展开更多
关键词 文本定位 文本识别 连通域 分类与回归决策树
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部