基于爬虫和WPF技术的藏文命名实体数据集半自动构建器设计

Design of a semi-automatic builder for a Tibetan named entity dataset based on Web crawler and WPF technology

下载PDF

导出

摘要近年来自然语言处理发展较为迅速,自然语言的处理离不开大量的、高质量的数据集。藏文语言处理是自然语言处理的一个重要应用。但公开的藏文数据集获取难度高,为提高自建藏文命名实体数据集,对藏文命名实体数据集半自动构建器进行了研究,包含爬虫部分和拆分部分,并提出了一种基于滑动窗口的命名实体匹配算法。其中,爬虫部分通过应用十分成熟稳定的八爪鱼采集器创建任务实现。拆分部分使用WPF技术设计操作界面,采用C#编程语言实现拆分算法。 In recent years,natural language processing has developed rapidly,and the processing of natural language relies heavily on large quantities of high-quality datasets.Tibetan language processing is an important application of natural language processing.However,obtaining publicly available Tibetan datasets is challenging.In order to improve the construction of a self-built Tibetan named entity dataset,this paper proposes a design of a semi-automatic builder for a Tibetan named entity dataset based on web crawler and WPF(windows presentation foundation)technology.The design includes a crawler component and a splitting component,and introduces a named entity matching algorithm based on sliding windows.The crawler component utilizes the well-established and stable Octopus Collector for task creation.The splitting component employs an operation interface designed using WPF technology and implements the splitting algorithm using the C# programming language.

作者李甜华央啦杨文艺春燕 Li Tianhua;Yang La;Yang Wenyi;Chun Yan(School of Information Science and Technology,Tibet University,Lhasa 850000,China)

机构地区西藏大学信息科学与技术学院

出处《现代计算机》 2023年第21期93-97,共5页 Modern Computer

基金西藏大学2022年自治区级大学生创新训练项目(S202210694053)。

关键词爬虫藏文命名实体八爪鱼采集器 Web crawler Tibetan language named entity Octopus collector

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈涛.MVVM设计模式及其应用研究[J].计算机与数字工程,2014,42(10):1982-1985. 被引量：26
2洪健.C#中的数据库编程技术研究[J].计算机光盘软件与应用,2014,17(17):265-266. 被引量：6
3王舒宁,樊超逸,谷青范.基于WPF的民机驾驶舱人机接口快速原型技术[J].航空电子技术,2019,50(4):47-52. 被引量：1
4李东闻,钟震宇,申峻宇,王昊天,孙羽菲,张玉志.NKCorpus:利用海量网络数据构建大型高质量中文数据集[J].数据与计算发展前沿,2022,4(3):30-45. 被引量：2

二级参考文献11

1王凯明.浅析ADO.NET数据库编程技术[J].中文信息,2002,0(11):96-98. 被引量：1
2常革新,郭海明.基于ADO.NET数据存取技术的实现[J].辽宁工学院学报,2004,24(6):22-24. 被引量：5
3CharlesPetZold.WPF程序设计指南[M].北京:电子工业出版社,2008:455-487.
4沙洛韦,特罗特.设计模式精解[M].北京:清华大学出版社,2004:143-155.
5王红明,尹康银,彭思勇.C#语言与Oracle数据库的接口[J].信息通信,2009,22(3):36-39. 被引量：12
6曾蔚.基于Silverlight的下一代可视化商业智能系统研究[J].电脑知识与技术,2010,6(7):5316-5318. 被引量：9
7陈明,李猛坤,张强.一种基于扩展MVVM模式的SaaS面向服务计算模型[J].微电子学与计算机,2010,27(8):27-30. 被引量：16
8李猛坤,陈明.一种基于扩展MVVM模式的面向服务软构件模型[J].科学技术与工程,2011,11(10):2349-2352. 被引量：5
9汤佳杰,曹永忠,顾浩.基于文本标点密度连续和的网页正文抽取[J].计算机时代,2020,0(1):69-72. 被引量：2
10QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：155

共引文献31

1邱月,郭佳,黄俊.基于Xamarin的智慧城市跨平台移动终端的设计与实现[J].现代测绘,2021(1):55-59. 被引量：6
2柯肇丰,曾霞霞.基于HTML5+nodeJS+MongoDB构建在线图像编辑器系统[J].福建电脑,2015,31(6):42-44. 被引量：4
3莫太平,吕帝权,赵佩斯.工位暗灯系统的设计与实现[J].自动化与仪表,2015,30(6):47-49. 被引量：1
4左丹霞.C#语言开发中的数据库编程技术分析[J].通讯世界,2015,21(10):252-253. 被引量：5
5朱立.浅谈MVVM数据绑定的耦合性[J].中国科技纵横,2016,0(1):36-37.
6林越,王翠珍.浅谈面向对象开发思想与软件设计架构分析[J].信息通信,2016,29(3):152-154. 被引量：4
7马瑞瑞,王毅,刘鹏飞,应成楼,吴涛,申大伟,谢云明,刘鲁清.发电集团统一事件报警处理及分析平台设计开发[J].热力发电,2017,46(1):25-29. 被引量：4
8吴冬,曹辉.基于WPF的船舶管网可视化建模软件的设计与开发[J].计算机与网络,2016,42(21):72-75. 被引量：2
9邵银龙,卢迪,陆艳艳.光伏领跑者基地大数据分析及可视化技术应用研究[J].电力大数据,2017,20(9):59-62. 被引量：5
10张程誉.基于计算机软件工程的数据库编程技术[J].自动化与仪器仪表,2018,0(6):186-188. 被引量：16

1王思,钱谷全,王诚睿.制药企业分布式公辅设施数据集成系统的开发[J].自动化应用,2023,64(23):31-34.
2周运彬,刘俊.城市全空间数字沙盘系统设计与实现[J].城市勘测,2023(S01):168-172.
3杜娟.房建工程建设中现场进度管理与质量控制策略[J].砖瓦,2023(5):98-100. 被引量：1
4何建平.基于西门子PLC的盾构机定时锁机功能设计[J].电工技术,2023(18):1-4. 被引量：1
5边志刚,唐玉.基于BIM的水工结构设计合规性检查方法研究[J].土木建筑工程信息技术,2023,15(4):43-47.
6马洁美,范晓勇,何闻.振动台导轨不平顺对地震计低频测试结果的影响[J].地震学报,2023,45(6):1111-1117.
7袁爱平,陈畅,孙士兵,符春.基于SSM框架的高校学生信息管理系统设计与实现[J].工业控制计算机,2023,36(12):127-129. 被引量：1
8柳萌,安军社.SpaceWire多优先级分层调度交叉开关研究与设计[J].北京航空航天大学学报,2023,49(12):3386-3396.

现代计算机

2023年第21期

浏览历史

内容加载中请稍等...

基于爬虫和WPF技术的藏文命名实体数据集半自动构建器设计

参考文献4

二级参考文献11

共引文献31

相关作者

相关机构

相关主题

浏览历史