DRTE:面向基础教育的术语抽取方法被引量：10

DRTE:A Term Extraction Method for K12 Education

下载PDF

导出

摘要术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE:一种利用术语定义与术语关系挖掘,综合构词规则与边界检测的术语抽取方法。该文以初高中的数学课本为数据源进行术语抽取,实验结果表明我们的术语抽取方法 F1值达到82.7%,相比目前的方法提高了40.8%,能够有效地在中文基础教育领域进行自动化的术语抽取。 Term extraction is an essential task where terms are extracted automatically from unstructured text based on a specific domain.Previous methods largely rely on terms＇statistic information.However,terms in k12 education area have serious long-tail effect,which makes it hard to extract terms at the tail part in methods based on statistics.In this paper,we propose DRTE,a method which focus on extracting terms from their definitions and relations.Our method also utilizes term-formation rules and boundary detection strategies.Experiments on math textbooks for middle school and high school reveal 82.7% on F1 performance of our method,which significantly outperforms the current method by 40.8%.

作者李思良许斌杨玉基 LI Siliang;XU Bin;YANG Yuji(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)

机构地区清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2018年第3期101-109,共9页 Journal of Chinese Information Processing

基金国家科技部863课题(2015AA015401)

关键词术语抽取术语定义术语关系 term extraction term definition term relation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙水华,黄德根,牛萍.中医针灸领域术语自动抽取研究[J].中文信息学报,2016,30(3):118-124. 被引量：6
2木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克语IT领域术语识别研究与实现[J].中文信息学报,2016,30(3):68-73. 被引量：6
3张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
4周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
5胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
6李丽双,王意文,黄德根.基于信息熵和词频分布变化的术语抽取研究[J].中文信息学报,2015,29(1):82-87. 被引量：20

二级参考文献66

1吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
2梁爱林.论术语学概念理论的发展[J].术语标准化与信息技术,2003(4):4-10. 被引量：4
3张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
4张锋,樊孝忠,许云.Chinese Term Extraction Based on PAT Tree[J].Journal of Beijing Institute of Technology,2006,15(2):162-166. 被引量：2
5任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
6何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
7刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
8Oakes M P,Paice C D.Term extraction for automatic abstracting[M] //Bourigault D,Jacquemin C,L'Homme M-C.Recent Advances in Computational Terminology.John Benjamins Publishing Company,2001:353-370.
9Fortuna B,Lavrac N,Velardi P.Advancing Topic Ontology Learning through Term Extraction[C].PRICAI 2008,LNAI 5351,2008:626-635.
10Cerbah F,Euzenat J.Using Terminology Extraction to Improve Traceability from Formal Models to Textual Requirements[C].NLDB 2000,LNCS 1959,2001:115-126.

共引文献97

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
3岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008(12):54-58. 被引量：38
4岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
5季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
6霍跃红,姚振军,汪榕培.计算机辅助核心译者发现系统的设计与实现[J].计算机工程与设计,2010,31(17):3936-3938.
7潘虹,徐朝军.LCS算法在术语抽取中的应用研究[J].情报学报,2010,29(5):853-857. 被引量：11
8孙瑞娜,古丽拉.阿东别克.哈萨克语基本名词短语自动识别研究与实现[J].中文信息学报,2010,24(6):114-119. 被引量：11
9陈士超,郁滨.面向术语抽取的双阈值互信息过滤方法[J].计算机应用,2011,31(4):1070-1073. 被引量：10
10张五辈,白宇,王裴岩,张桂平.一种中医名词术语自动抽取方法[J].沈阳航空航天大学学报,2011,28(1):72-75. 被引量：8

同被引文献89

1杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
2杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
3魏运华,李俏.我国中小学教材研究述评[J].课程．教材．教法,2007,27(8):8-13. 被引量：21
4汤帜,仇睿恒,王毅.CEBX:新一代结构化版式文档技术[J].北京信息科技大学学报（自然科学版）,2010,25(S2):11-15. 被引量：3
5周长青.术语工作原则与方法(续四)(ISO DIS704)[J].中国科技术语,1999,0(4):24-32. 被引量：4
6贾美英,杨炳儒,郑德权,杨靖.采用CRF技术的军事情报术语自动抽取研究[J].计算机工程与应用,2009,45(32):126-129. 被引量：16
7康小丽,章成志,王惠临.基于可比语料库的双语术语抽取研究述评[J].现代图书情报技术,2009(10):7-13. 被引量：6
8周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
9章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19
10游宏梁,张巍,沈钧毅,刘挺.一种基于加权投票的术语自动识别方法[J].中文信息学报,2011,25(3):9-16. 被引量：16

引证文献10

1李艳燕,张香玲,李新,杜静.面向智慧教育的学科知识图谱构建与创新应用[J].电化教育研究,2019,40(8):60-69. 被引量：97
2阳萍,谢志鹏.基于BiLSTM模型的定义抽取方法[J].计算机工程,2020,46(3):40-45. 被引量：9
3严立.大数据视角下的中小学教材建设变革刍议——兼谈基于教材的大数据采集方式[J].课程．教材．教法,2020,40(5):31-37. 被引量：5
4张雪,孙宏宇,辛东兴,李翠平,陈红.自动术语抽取研究综述[J].软件学报,2020,31(7):2062-2094. 被引量：24
5向露,周玉,宗成庆.基于中英文单语术语库的双语术语对齐方法[J].中国科技术语,2022,24(1):14-25. 被引量：3
6张晓明,郑理欣,王会勇.基于图排序和最大信息增益的领域实体抽取方法[J].计算机工程,2022,48(12):140-149. 被引量：6
7罗凯威,罗文兵,黄琪,王明文.基于依存结构学习的中学数学术语鲁棒抽取[J].中文信息学报,2023,37(8):75-85.
8吕学强,杨雨婷,肖刚,李育贤,游新冬.稀疏样本下长术语的抽取方法[J].数据分析与知识发现,2024,8(1):135-145.
9樊舒.公安学科知识图谱构建与应用研究[J].贵州警察学院学报,2024,36(2):68-77. 被引量：1
10陈见飞,高军,杨世军,马越,狄广义.基于卷积神经网络的仓储评论数据分类系统研究[J].信息与电脑,2024,36(2):112-114.

二级引证文献143

1张悦悦,田彦山.基于知识图谱的余弦定理教学设计[J].新课程导学,2023(6):91-94.
2顾小清,张乐乐.教育数字化转型时代数字教材的建设方向与发展路径[J].大学与学科,2022,3(4):82-89. 被引量：7
3倪勇,秦红斌.面向素养培育的信息科技学科知识图谱构建与应用[J].教育传播与技术,2022(S01):80-87. 被引量：1
4秦红斌.面向教育数字化转型的学科知识图谱理论溯源、构建与应用[J].教育传播与技术,2022(S01):4-11. 被引量：1
5李振,董晓晓,周东岱,童婷婷.自适应学习系统中知识图谱的人机协同构建方法与应用研究[J].现代教育技术,2019,29(10):80-86. 被引量：23
6谢琦,陈芑伊,李雅婷.基于双向长短时记忆网络的产品画像构建研究[J].信息与电脑,2019,31(22):22-23.
7袁满,曹阳,陈萍.教育知识图谱构建中的标准词汇参考模型研究[J].电化教育研究,2020,41(3):76-84. 被引量：11
8严志永.一种新闻传播类专业学习人工智能的方法[J].北京印刷学院学报,2020,28(5):25-28.
9董登奎,王清.基于图数据库的知识图谱管理系统构建分析[J].信息系统工程,2020,33(4):47-48. 被引量：2
10陈敏.教育知识图谱内涵及应用场景探析[J].教育传播与技术,2020(3):61-65. 被引量：2

1宋晓冬.减译和删译在同传中的应用——中国国际矿业大会高端论坛同传案例研究[J].考试周刊,2017,0(79):108-109.
2陈彦.高中英语词汇教学的几个“助力”[J].教育研究与评论（中学教育教学）,2018(2):54-56.
3李思思.在初中英语词汇教学中发挥中文基础的优势[J].校园英语,2017,0(52):115-116.
4郭红梅,张智雄.基于多重文本术语关系叠加识别文本核心主题的有效性探索[J].情报学报,2017,36(11):1157-1164. 被引量：7
5肖莹,于清峰.药学专业留学生分析化学实验全英文教学的体会[J].大学化学,2017,32(8):37-41. 被引量：6
6易三莉,杨静,姚旭升,谢颖夫,贺建峰.基于PC-Simple算法的医院病案首页数据挖掘[J].软件导刊,2018,17(2):175-178.
7岳磊,闫晓风,牛鹏飞.工业4.0术语体系研究[J].标准科学,2018(4):121-127.
8王海燕,周陆怡,杨丽,朱其军,贾国洁,鲁澄宇.基于医学知识库构建成人教育药学教学资源探讨[J].农业图书情报学刊,2018,30(4):136-138.
9唐宝民.在家教滋润下成长的名人[J].课外阅读,2018,0(5):34-35.
10周忠杰.汉语类词缀“手”的复合词研究[J].广东外语外贸大学学报,2017,28(6):43-49. 被引量：3

中文信息学报

2018年第3期

浏览历史

内容加载中请稍等...

DRTE:面向基础教育的术语抽取方法被引量：10

参考文献6

二级参考文献66

共引文献97

同被引文献89

引证文献10

二级引证文献143

相关作者

相关机构

相关主题

浏览历史

DRTE:面向基础教育的术语抽取方法 被引量：10

参考文献6

二级参考文献66

共引文献97

同被引文献89

引证文献10

二级引证文献143

相关作者

相关机构

相关主题

浏览历史

DRTE:面向基础教育的术语抽取方法被引量：10