基于超文本标记语言的文档信息自动提取技术研究被引量：4

Research on Automatic Extraction of Document Information Based on Hypertext Markup Language

下载PDF

导出

摘要文章研究探索了如何使用文档分解(文档结构研究),文档标记(具有可扩展标记语言(XML)),超文本标记语言(HML)和可伸缩矢量图形(SVG),以及多方面的分类机制。文档内容提取是通过计算机编程(使用Java)实现的。在这项研究中开发的文档信息自动提取技术证明:作为信息提供者,可以使信息用户(包括工程师)以更易于访问的方式制作文档内容。 This paper explores how to use document decomposition(document structure research),document markup(with Extensible Markup Language(XML)),Hypertext Markup Language(HML),and Scalable Vector Graphics(SVG),and more classification mechanism.The document content extraction is realized through computer programming(using Java).The automatic extraction technology of document information(AETDI)developed in this research proves that as an information provider,you can make Information users(including engineers)can create document content in a more accessible way.

作者佘俊余少锋周宇鹏廖崇阳罗勇 SHE Jun;YU Shao-feng;ZHOU Yu-peng;LIAO Chong-yang;LUO Yong(Information&Communication Branch of China Southern Power Grid Peaking&Frequency Modulation Power Generation Co.,Ltd.,Guangzhou Guangdong 511400,China;Western Maintenance Test Branch of China Southern Power Grid Peaking&Frequency Modulatio Generation Co.,Ltd.,Xingyi Guizhou 562400,China)

机构地区南方电网调峰调频发电有限公司信息通信分公司南方电网调峰调频发电有限公司西部检修试验分公司

出处《粘接》 CAS 2020年第8期80-84,共5页 Adhesion

基金南方电网调峰调频发电有限公司科技项目(STKJXM20180065)。

关键词文档信息自动提取超文本标记语言分解方案文档标记分面分类 automatic extraction of document information hypertext markup language decomposition scheme document markup faceted classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1朱敏.JavaScript在HTML中的应用探讨[J].科技视界,2016(24):227-228. 被引量：3
2匡成宝.HTML语言的网页制作方法与技巧探讨[J].电脑迷,2017(3):190-191. 被引量：7
3刘霜,潘立武.HTML发展应用中的探索与研究[J].信息与电脑,2016,28(11):72-73. 被引量：3
4魏佳欣,叶飞跃.基于HTML特征与层次聚类的Web查询接口发现[J].计算机工程,2016,42(2):56-61. 被引量：4

二级参考文献18

1刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
2Khare R,An Y,Song I Y.Understanding Deep Web Search Interfaces:A Survey[J].SIGMOD Record,2010,39(1):33-40.
3Marin-Castro H M,Sosa-Sosa V J,Martinez-Trinidad J F,et al.Automatic Discovery of Web Query Interfaces Using Machine Learning Techniques[J].Journal of Intelligent Information Systems,2013,40(1):85-108.
4Dragut E C,Kabisch T,Yu Clement,et al.A Hierarchical Approach to Model Web Query Interfaces for Web Source Integration[J].Journal of Very Large Database,2009,2(1):325-336.
5Zhang Zhen,He Bin,Chang K C C.Understanding Web Query Interfaces:Best-effort Parsing with Hidden Syntax[C]//Proceedings of ACM SIGMOD Inter-national Conference on Management of Data.Paris,French:ACM Press,2004:107-118.
6Barbosa L,Freire J.Searching for Hidden-Web Databases[C]//Proceedings of the 8th ACM SIGMOD International Workshop on Web and Databases.Baltimore,USA:ACM Press,2005:1-6.
7Barbosa L,Freire J.Combining Classifiers to Identify Online Databases[C]//Proceedings of the 16th International Conference on World Wide Web.New York,USA:ACM Press,2007:107-118.
8Wang Y,Li H,Zuo W,et al.Research on Discovering Deep Web Entries[J].Computer Science and Information Systems,2011,8(3):779-799.
9Lin L,Zhou L.Web Database Schema Identification Through Simple Query Interface[J].Resource Discovery Lecture Notes in Computer Science,2010,6162(2):18-34.
10W3CHTML[EB/OL].(2014-12-12).http://www.w3chtml.com/html/form.html.

共引文献13

1刘治纲,肖庆汇,丁雪非,罗尉平.软件定义网络用户动态访问控制模型仿真[J].计算机仿真,2019,36(1):308-311. 被引量：10
2刘韦麟,李金友.论HTML5技术新形势和商业应用场景[J].现代交际,2017(21):191-191. 被引量：3
3尹忠宇.基于WEB的越野车爱好者服务平台的设计与实现[J].科学技术创新,2017(25):128-129.
4尚靖博,左万利.基于清晰有理数均值的新匹配聚类算法[J].吉林大学学报（理学版）,2018,56(2):399-401.
5蔡楠.HTML语言的网页制作技巧与方法研究[J].电子技术与软件工程,2018(20):117-117. 被引量：2
6张丽霞.基于HTML语言的网页制作方法[J].电子测试,2018,29(3):86-87. 被引量：6
7黎晓凤,钟明辉.高校基于Html5技术Web前端工程师人才培养模式的研究与探讨[J].品牌研究,2018,0(7):145-146. 被引量：4
8杨花雨,李银地.JavaScript技术利用正则表达式验证表单的探讨[J].电脑知识与技术,2019,15(8X):22-24. 被引量：5
9张丛丛.基于HTML语言的网页制作方法[J].电子技术与软件工程,2019,0(20):20-21. 被引量：2
10陈梅,苏晨,赵静雅.从网页制作的发展浅析语义化[J].电脑知识与技术,2019,15(10):236-237.

同被引文献48

1马景娣,朱玉奴.SPIE数字图书馆及其检索[J].现代图书情报技术,2004(12):78-80. 被引量：1
2代六玲,王树梅,黄河燕,陈肇雄.一种改进的多关键字匹配算法[J].南京理工大学学报,2005,29(6):735-739. 被引量：4
3王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
4张俊兰,李源平.基于SQL Server的Asp.net图片存储技术[J].电子设计工程,2009,17(3):28-29. 被引量：7
5李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
6张斌.网络安全隔离技术在公安车管网络中的应用[J].统计与管理,2015,0(5):93-94. 被引量：5
7孙阳,白皓然,初留珠,王方艳,李秀.基于物联网植物工厂监控系统的设计[J].农机化研究,2018,40(2):197-201. 被引量：10
8何业慎,梁琨,谭威,胡鑫.基于物联网技术的智能变电站安防监控系统[J].电信科学,2018,34(9):179-185. 被引量：24
9冯琰玮,甄江红.基于径向基神经网络的呼和浩特市生态安全预警研究[J].干旱区资源与环境,2018,32(11):87-92. 被引量：13
10胡凤忠,周莹莲,曹铁军,李富伟.基于物联网技术的矿井环境监测系统研究[J].矿业研究与开发,2018,38(10):86-89. 被引量：19

引证文献4

1陈建武,何挺.输变电工程生态环境预警系统研究[J].能源与环保,2021,43(12):64-70.
2黄赞,周双娥.基于SPIE Journals文献的光电图像数据获取技术[J].计算机应用,2022,42(S01):136-139.
3陈怡霏,高屹.西藏民族大学综合素质测评可视化应用研究[J].西藏科技,2022(9):66-70.
4吴铭.车管业务电子档案管理系统设计及应用研究——以邯郸市机动车大数据为例[J].统计与管理,2023,38(10):110-117.

1陈鹏华,吴坷.船舶三维总体布置设计技术应用研究[J].舰船科学技术,2020,42(7):13-17. 被引量：2
2雷枫.国史档案资源知识组织范式研究[J].兰台内外,2020(12):8-9.
3林世平,林松海,魏晶晶,吴运兵,廖祥文.融合知识图谱的文本情感分析[J].福州大学学报（自然科学版）,2020,48(3):269-275. 被引量：5
4陈长林,贾俊涛,鲁强.新一代电子航海图线型结构的SVG表达[J].海洋测绘,2019,39(6):50-54. 被引量：1
5王道大,吕翔.基于SVG的工业控制系统远程Web显示研究[J].信息与电脑,2020,32(3):167-168. 被引量：1
6刘鑫.Word2010提高3——标记文档最终状态及删除文档个人信息[J].办公自动化,2020,25(5):56-56.
7孟蕾,崔珍珍.基于星载点云数据的城市土地利用变化监测自动提取技术[J].北京测绘,2020,34(7):929-933. 被引量：2
8高李庆.上市公司会计信息披露中存在的问题及对策[J].中国农业会计,2020(6):77-78. 被引量：1
9石浩然.印刷人如何用好PDF?[J].印刷技术,2020(3):10011-10012.
10孙金娟,郑建明.公共文化服务大数据分类体系框架构建[J].图书馆论坛,2020,40(9):28-35. 被引量：12

粘接

2020年第8期

浏览历史

内容加载中请稍等...

基于超文本标记语言的文档信息自动提取技术研究被引量：4

参考文献4

二级参考文献18

共引文献13

同被引文献48

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于超文本标记语言的文档信息自动提取技术研究 被引量：4

参考文献4

二级参考文献18

共引文献13

同被引文献48

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于超文本标记语言的文档信息自动提取技术研究被引量：4