期刊文献+
共找到186篇文章
< 1 2 10 >
每页显示 20 50 100
A Novel Auto-Annotation Technique for Aspect Level Sentiment Analysis 被引量:1
1
作者 Muhammad Aasim Qureshi Muhammad Asif +4 位作者 Mohd Fadzil Hassan Ghulam Mustafa Muhammad Khurram Ehsan Aasim Ali Unaza Sajid 《Computers, Materials & Continua》 SCIE EI 2022年第3期4987-5004,共18页
In machine learning,sentiment analysis is a technique to find and analyze the sentiments hidden in the text.For sentiment analysis,annotated data is a basic requirement.Generally,this data is manually annotated.Manual... In machine learning,sentiment analysis is a technique to find and analyze the sentiments hidden in the text.For sentiment analysis,annotated data is a basic requirement.Generally,this data is manually annotated.Manual annotation is time consuming,costly and laborious process.To overcome these resource constraints this research has proposed a fully automated annotation technique for aspect level sentiment analysis.Dataset is created from the reviews of ten most popular songs on YouTube.Reviews of five aspects—voice,video,music,lyrics and song,are extracted.An N-Gram based technique is proposed.Complete dataset consists of 369436 reviews that took 173.53 s to annotate using the proposed technique while this dataset might have taken approximately 2.07 million seconds(575 h)if it was annotated manually.For the validation of the proposed technique,a sub-dataset—Voice,is annotated manually as well as with the proposed technique.Cohen’s Kappa statistics is used to evaluate the degree of agreement between the two annotations.The high Kappa value(i.e.,0.9571%)shows the high level of agreement between the two.This validates that the quality of annotation of the proposed technique is as good as manual annotation even with far less computational cost.This research also contributes in consolidating the guidelines for the manual annotation process. 展开更多
关键词 Machine learning natural language processing annotation semi-annotated technique reviews annotation text annotation corpus annotation
下载PDF
基于大语言模型的中文科技文献标注方法
2
作者 杨冬菊 黄俊涛 《计算机工程》 CAS CSCD 北大核心 2024年第9期113-120,共8页
高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科... 高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科技文献的细粒度标注规范,明确标注实体类型以及标注粒度;其次,设计结构化文本标注提示模板和生成解析器,将中文科技文献标注任务设置成单阶段单轮问答过程,将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词;然后,将提示词注入到大语言模型中生成包含标注信息的输出文本,经由解析器解析得到结构化的标注数据;最后,利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL,其中包含分布在48个学科的10000篇标注文档以及72536个标注实体,并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明,BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳,F1值为0.335。上述结果可作为后续研究的测试基准。 展开更多
关键词 文本标注方法 中文科技文献 大语言模型 提示学习 信息抽取
下载PDF
重树经学典范:曹元弼“郑注配经”的思想要义
3
作者 邓国光 《杭州师范大学学报(社会科学版)》 2024年第2期14-20,共7页
百年来中国人文学术与哲学思想的发展,在研究内容、态度、方法上均不断变化,在接受的同时亦自我调整。20世纪60、70年代“范式转移”的研究观念论开始大行其道,亦渗透进近40年来中国学术各类之中,与“新变”一词语义互参,成为当下学术... 百年来中国人文学术与哲学思想的发展,在研究内容、态度、方法上均不断变化,在接受的同时亦自我调整。20世纪60、70年代“范式转移”的研究观念论开始大行其道,亦渗透进近40年来中国学术各类之中,与“新变”一词语义互参,成为当下学术思路不断求新求变的集体风尚,形成集中一偏的思想困局。相对于集大成式的学术高度的追求,无疑是背道而驰。以客观态度审视学术研究主体性的范式观念,本来早存在于中国经学的传统之中,透过范式的“会通”构成强大的学术人格魅力,以顶天立地的文化精神为时代缔构正面的建设力量,从而体现集体幸福的愿望,形成“立”的精神动力,与“范式转移”所导致的“破”,实在是两副照面。因此特别彰显民国时代以来,在学制“废经”而学术全面西化的时代情景中,于学制外所存在坚持不懈的终身治经之士如曹元弼,其全力重建经学的典范价值,坚持树立中国文化的恒常属性,重建中国文化的高尚情操。正视曹元弼“范式重建”的意义,无疑能增强社会上有所“立”的正面价值。 展开更多
关键词 曹元弼 经学典范 郑注配经 学术大统 王道精神
下载PDF
Unlocking the Potential:A Comprehensive Systematic Review of ChatGPT in Natural Language Processing Tasks
4
作者 Ebtesam Ahmad Alomari 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第10期43-85,共43页
As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects in... As Natural Language Processing(NLP)continues to advance,driven by the emergence of sophisticated large language models such as ChatGPT,there has been a notable growth in research activity.This rapid uptake reflects increasing interest in the field and induces critical inquiries into ChatGPT’s applicability in the NLP domain.This review paper systematically investigates the role of ChatGPT in diverse NLP tasks,including information extraction,Name Entity Recognition(NER),event extraction,relation extraction,Part of Speech(PoS)tagging,text classification,sentiment analysis,emotion recognition and text annotation.The novelty of this work lies in its comprehensive analysis of the existing literature,addressing a critical gap in understanding ChatGPT’s adaptability,limitations,and optimal application.In this paper,we employed a systematic stepwise approach following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)framework to direct our search process and seek relevant studies.Our review reveals ChatGPT’s significant potential in enhancing various NLP tasks.Its adaptability in information extraction tasks,sentiment analysis,and text classification showcases its ability to comprehend diverse contexts and extract meaningful details.Additionally,ChatGPT’s flexibility in annotation tasks reducesmanual efforts and accelerates the annotation process,making it a valuable asset in NLP development and research.Furthermore,GPT-4 and prompt engineering emerge as a complementary mechanism,empowering users to guide the model and enhance overall accuracy.Despite its promising potential,challenges persist.The performance of ChatGP Tneeds tobe testedusingmore extensivedatasets anddiversedata structures.Subsequently,its limitations in handling domain-specific language and the need for fine-tuning in specific applications highlight the importance of further investigations to address these issues. 展开更多
关键词 Generative AI large languagemodel(LLM) natural language processing(NLP) ChatGPT GPT(generative pretraining transformer) GPT-4 sentiment analysis NER information extraction annotation text classification
下载PDF
丹波元坚《金匮玉函要略述义》校勘特色探析
5
作者 崔瑞静 李玉清 《浙江中医药大学学报》 CAS 2024年第2期215-218,共4页
[目的]探析丹波元坚《金匮玉函要略述义》一书的校勘特色,以期为后世研究《金匮要略》提供参考。[方法]运用文献学方法分类整理《金匮玉函要略述义》书中校文,并结合中医理论进行归纳总结。[结果]丹波元坚是日本江户时期汉方医学考证派... [目的]探析丹波元坚《金匮玉函要略述义》一书的校勘特色,以期为后世研究《金匮要略》提供参考。[方法]运用文献学方法分类整理《金匮玉函要略述义》书中校文,并结合中医理论进行归纳总结。[结果]丹波元坚是日本江户时期汉方医学考证派的泰斗。《金匮玉函要略述义》是其父《金匮玉函要略辑义》(以下简称《辑义》)的补注本,汇集三十年学术积累。《金匮玉函要略述义》书中广备精良校本,校勘态度严谨,运用“不径改原文”的校勘方式,结合医理,四校合参,对所校内容审慎从事,不随意否定,精详校勘经文,补订《辑义》未尽之处。[结论]《金匮玉函要略述义》是《金匮要略》的优秀注本,探析其校勘特色对当今中医古籍整理与《金匮要略》研究具有重要的借鉴作用。 展开更多
关键词 丹波元坚 金匮要略 金匮玉函要略述义 校勘 校注 校文
下载PDF
中文医学细粒度知识表示体系与标注语料库构建 被引量:1
6
作者 杨洋 关毅 +3 位作者 李雪 姜京池 史怀璋 柳曦光 《中文信息学报》 CSCD 北大核心 2023年第6期52-66,共15页
面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工... 面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工具,并为每种来源提供了规范标注的医学文本数据,构建了涵盖范围广、一致性高的细粒度标注语料库。4名临床医生对《诊断学》书籍标注了6526个医学实体,4229条关系,标注一致性可达0.974。三个数据源融合后实体数量344475个,关系数量3196787条。该文综述了数据源融合的映射过程、标注细则,分析了各数据源的文本特点并总结标注模式,通过应用场景与文本特点表明医学书籍标注必要性。该文为中文医学语料库构建提供标注规范,并为中文医学实体识别与关系抽取提供语料支持。 展开更多
关键词 细粒度标注规范 多源医疗文本 语义标注 语料库构建
下载PDF
面向时政新闻文本的事件标注语料库构建 被引量:1
7
作者 王瑞民 叶娅娟 +2 位作者 张坤丽 昝红英 韩英杰 《郑州大学学报(理学版)》 CAS 北大核心 2023年第2期25-32,共8页
在现有的新闻领域标注语料库研究的基础上,结合时政新闻文本的特点,构建了面向时政新闻文本的事件标注语料库(event annotation corpus for current political news,EACPN)。EACPN从事件元素、人物角色及事件子类别等多个层面对21455篇... 在现有的新闻领域标注语料库研究的基础上,结合时政新闻文本的特点,构建了面向时政新闻文本的事件标注语料库(event annotation corpus for current political news,EACPN)。EACPN从事件元素、人物角色及事件子类别等多个层面对21455篇时政新闻进行标注,涵盖了128523个事件元素和17919个子类别,整体标注一致性达到85.9%。所构建的EACPN为今后的时政新闻文本事件抽取研究和事件知识图谱构建提供了数据基础。 展开更多
关键词 时政新闻文本 事件标注 语料库 事件抽取
下载PDF
基于TTS技术的智能化英语自动翻译系统
8
作者 王渭刚 《信息技术》 2023年第3期117-121,127,共6页
提出基于TTS技术的智能化英语自动翻译系统设计研究。选型并配置文音转换器与语音处理器,以此为基础,引入TTS技术(文本分析、韵律控制与语音合成),结合英语翻译需求,设计系统软件模块,包括连续语音自动切分与标注模块、语音韵律控制模... 提出基于TTS技术的智能化英语自动翻译系统设计研究。选型并配置文音转换器与语音处理器,以此为基础,引入TTS技术(文本分析、韵律控制与语音合成),结合英语翻译需求,设计系统软件模块,包括连续语音自动切分与标注模块、语音韵律控制模块、语音合成模块及语音库裁减模块。通过上述硬件单元与软件模块的设计,实现了智能化英语自动翻译系统的运行。实验数据显示:相较于对比系统,应用设计系统获得的语音韵律控制参数偏差较小,语音自然度因子数值更大,充分表明设计系统英语翻译语音更为精准。 展开更多
关键词 文本分析 英语翻译 语音自动切分标注 语音库裁减 语音韵律控制
下载PDF
HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架 被引量:2
9
作者 严承希 唐雪梅 +2 位作者 杨浩 苏祺 王军 《情报学报》 CSCD 北大核心 2023年第2期203-216,共14页
古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解... 古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。 展开更多
关键词 汉语古籍 实体抽取 深度主动学习 交互式标注 标签自动汇聚
下载PDF
中国民族语言大规模标注文本的检索技术实现及其价值 被引量:1
10
作者 江荻 龙从军 《云南师范大学学报(哲学社会科学版)》 北大核心 2023年第6期36-44,共9页
《中国民族语言语法标注文本》丛书是国内第一套大规模真实文本资源,涵盖十余种低资源中国民族语言,又具有语法标注精深学术价值,因此引起学界广泛的兴趣和关注。鉴于该套丛书大规模标注文检索技术实现的重要价值,本文通过介绍该项目的... 《中国民族语言语法标注文本》丛书是国内第一套大规模真实文本资源,涵盖十余种低资源中国民族语言,又具有语法标注精深学术价值,因此引起学界广泛的兴趣和关注。鉴于该套丛书大规模标注文检索技术实现的重要价值,本文通过介绍该项目的内容、技术实现过程和可期的检索功能,特别对国际通行隔行对照化对齐文本的实现技术加以详释,使读者在项目上线之前就对丛书电子化和检索技术的实现有客观而清晰的认识。 展开更多
关键词 民族语 标注文本 语料数据 检索技术
下载PDF
基于典籍文本挖掘的明清时期色彩知识研究 被引量:2
11
作者 徐娟 刘东华 刘宇 《图书馆论坛》 北大核心 2023年第3期42-53,共12页
色彩作为承载中国传统思想观念、文化习俗、社会礼制的重要载体,是传统文化不可或缺的部分,全面探析明清时期色彩的演变发展、思想流变及其文化内涵,对弘扬传统色彩文化具有重要意义。文章以明清时期的4本典籍文本为语料,提出一种基于... 色彩作为承载中国传统思想观念、文化习俗、社会礼制的重要载体,是传统文化不可或缺的部分,全面探析明清时期色彩的演变发展、思想流变及其文化内涵,对弘扬传统色彩文化具有重要意义。文章以明清时期的4本典籍文本为语料,提出一种基于文本挖掘进行明清时期色彩知识探究的研究方法,通过实体标注、实体关系抽取、色彩演变分析、色彩与社会阶层关系探究,探索明清时期色彩的演变特征,在此基础上揭示其文化内涵。与传统方法相比,文章通过量化的方式更加清晰地展现了明清时期色彩的演变特征;通过分析文本内容,进一步发现明清时期色彩等级随着政治、经济、染色工艺的变化,呈现出动态变化的特点。分析结果得到历史学、艺术学相关研究资料的佐证,验证了方法的有效性。 展开更多
关键词 色彩知识 文本挖掘 实体标注 演变特征 文化内涵
下载PDF
《医古文》文选词语注释指瑕
12
作者 张雪梅 《安徽开放大学学报》 2023年第1期71-75,共5页
由中国中医药出版社2021年出版的“十四五”规划教材《医古文》,文选词语注释力求精当,但仍存在瑕疵,如“比例”“输”“俞”“卒”“瘲瘛”等注释有误;“自当”“唯当”“一以参详”“有如”“以十数”等该注而未注。在此列举讨论,以... 由中国中医药出版社2021年出版的“十四五”规划教材《医古文》,文选词语注释力求精当,但仍存在瑕疵,如“比例”“输”“俞”“卒”“瘲瘛”等注释有误;“自当”“唯当”“一以参详”“有如”“以十数”等该注而未注。在此列举讨论,以期为其修订、再版提供参考。 展开更多
关键词 《医古文》 文选 词语 误注 漏注
下载PDF
无监督的财经新闻情感标注和情绪指数生成 被引量:1
13
作者 邵元海 何洋 吕孝敬 《海南大学学报(人文社会科学版)》 2023年第3期84-95,共12页
财经新闻报道作为金融市场重要的信息来源,其情感倾向与市场走势有着密切联系。然而财经新闻具有专业性、客观性、无标注的特点,对其情感倾向进行精准量化往往十分困难。因此,本文设计了两阶段的财经新闻情绪指数提取方法,在第一阶段,... 财经新闻报道作为金融市场重要的信息来源,其情感倾向与市场走势有着密切联系。然而财经新闻具有专业性、客观性、无标注的特点,对其情感倾向进行精准量化往往十分困难。因此,本文设计了两阶段的财经新闻情绪指数提取方法,在第一阶段,针对财经新闻无标注的问题,本文通过改进的SO-PMI算法构造财经新闻领域情感词典来对新闻进行无监督标注;在第二阶段,为了提取精确的新闻情感强度值,本文构造了新闻情绪指数,先利用已标注的新闻数据训练情感分类模型从而生成类别概率,然后通过概率值计算得到情绪指数。为了进一步验证该方法的有效性,将生成的情绪指数结合股市历史价格数据来对上证股指波动趋势进行预测。结果表明,基于注意力机制的预测模型在添加情绪指数变量后,准确率提升了3%—5%,说明新闻情绪指数对于股指波动有较好的表征作用。 展开更多
关键词 财经新闻 无监督文本标注 情绪指数 注意力机制
下载PDF
基于Python技术的半监督文本语义分类方法研究 被引量:1
14
作者 孙川钘 朱镕申 张凌云 《计算机仿真》 北大核心 2023年第7期496-500,共5页
针对传统方法存在的语义标注准确度不高,语义分类查全率较低以及语义特征提取能力不佳的问题,研究基于Python技术的半监督文本语义分类方法。利用Python编程技术通过调用接口和扩展库建立自动标注下的半监督文本语义分类模型,通过自动... 针对传统方法存在的语义标注准确度不高,语义分类查全率较低以及语义特征提取能力不佳的问题,研究基于Python技术的半监督文本语义分类方法。利用Python编程技术通过调用接口和扩展库建立自动标注下的半监督文本语义分类模型,通过自动标注手段将初始文本标注后划分为训练文本和测试文本。经过文本预处理后,利用改进的CHI算法展开文本语义特征提取和归一化处理并输入到监督分类器内,使用支持向量机算法完成文本语义分类。实验结果表明,上述方法文本语义标注准确度高于95%,标注精度高;词频曲线与实际词频曲线重合度较高,特征提取能力强;拟合误差低,受非线性问题影响小,且平均查全率为97.21%,说明所提方法的文本语义分类能力较好。 展开更多
关键词 半监督 文本语义 支持向量机 自动标注 特征提取
下载PDF
《杜诗详注》中杜诗异文的著录方法及其弊端 被引量:1
15
作者 毛婷婷 《杜甫研究学刊》 2023年第4期39-50,共12页
仇兆鳌著录杜诗异文往往直接采用前人的著录,有时也会“同义替换”他人记载的异文,亦或是根据注释增加异文。仇兆鳌著录异文的原因和他“求博”“讨故”“汰脞”“辨穿凿”和“补阙”的思想有关。他著录异文的方法也有弊端:沿用他本文... 仇兆鳌著录杜诗异文往往直接采用前人的著录,有时也会“同义替换”他人记载的异文,亦或是根据注释增加异文。仇兆鳌著录异文的原因和他“求博”“讨故”“汰脞”“辨穿凿”和“补阙”的思想有关。他著录异文的方法也有弊端:沿用他本文献记载的失误;简写导致文献指向不明;转引文献,导致文献版本不清晰;抄错文献、未标注原始文献出处导致文献追溯困难。 展开更多
关键词 《杜诗详注》 异文 方法 弊端
下载PDF
基于LW-CharNet的纸制票据档案文本检测
16
作者 刘清 《自动化技术与应用》 2023年第10期77-80,共4页
为实现针对票据图像文本内容的高精度检测,提出一套基于LW-CharNet的纸制票据档案文本检测算法。介绍该模型的整体结构、票据图像的预处理方法以及主要的数据处理环节,并将该模型应用于票据文本检测实验。实验研究发现,所提出的LW-Char... 为实现针对票据图像文本内容的高精度检测,提出一套基于LW-CharNet的纸制票据档案文本检测算法。介绍该模型的整体结构、票据图像的预处理方法以及主要的数据处理环节,并将该模型应用于票据文本检测实验。实验研究发现,所提出的LW-CharNet模型算法能够较为准确地标识出票据文本所在区域,相比于其他主流文本检测算法在准确率方面体现出显著优势,具有一定的应用价值。 展开更多
关键词 文本检测 LW-CharNet 损失函数 数据标注
下载PDF
Semantic Relation Annotation for Biomedical Text Mining Based on Recursive Directed Graph 被引量:2
17
作者 CHEN Bo Lü Chen +1 位作者 WEI Xiaomei JI Donghong 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2015年第2期141-145,共5页
In this paper we propose a novel model "recursive directed graph" based on feature structure, and apply it to represent the semantic relations of postpositive attributive structures in biomedical texts. The usages o... In this paper we propose a novel model "recursive directed graph" based on feature structure, and apply it to represent the semantic relations of postpositive attributive structures in biomedical texts. The usages of postpositive attributive are complex and variable, especially three categories: present participle phrase, past participle phrase, and preposition phrase as postpositire attributive, which always bring the difficulties of automatic parsing. We summarize these categories and annotate the semantic information. Compared with dependency structure, feature structure, being recursive directed graph, enhances semantic information extraction in biomedical field. The annotation results show that recursive directed graph is more suitable to extract complex semantic relations for biomedical text mining. 展开更多
关键词 biomedical text mining semantic annotation recursive directed graph postpositive attribute
原文传递
《老子》传世本的误传和反注
18
作者 张远山 《社会科学论坛》 2023年第6期139-151,共13页
论证汉武帝“罢黜百家,独尊儒术”是《老子》初始本降维为传世本的根本原因。刘向为了配合“罢黜百家,独尊儒术”,颠倒《老子》初始本之上下经,把支持“无为而治”的《老子》初始本,降维为支持“有为而治”的《老子》传世本。《老子》... 论证汉武帝“罢黜百家,独尊儒术”是《老子》初始本降维为传世本的根本原因。刘向为了配合“罢黜百家,独尊儒术”,颠倒《老子》初始本之上下经,把支持“无为而治”的《老子》初始本,降维为支持“有为而治”的《老子》传世本。《老子》传世本误传经文和反注经义,是反《老子》的伪《老子》,反老学的伪老学。 展开更多
关键词 《老子》降维的根本原因 颠倒上下经 篡改经文 反注经义
下载PDF
中文文本的地理空间关系标注 被引量:22
19
作者 张雪英 张春菊 朱少楠 《测绘学报》 EI CSCD 北大核心 2012年第3期468-474,共7页
为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》... 为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。 展开更多
关键词 自然语言 中文文本 地理空间关系 标注体系 标注语料库
下载PDF
中文文本的地理命名实体标注 被引量:27
20
作者 张雪英 朱少楠 张春菊 《测绘学报》 EI CSCD 北大核心 2012年第1期115-120,共6页
地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GA... 地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库,以解决当前相关标准和规模化标准数据匮乏的问题。 展开更多
关键词 中文文本 地理命名实体 标注体系 标注语料库 自然语言
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部