基于网络爬虫的法律文本纠错词库构建被引量：1

Construction of Legal Text Error Correction Lexicon Based on Web Crawler

下载PDF

导出

摘要为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。 In order to build a comprehensive and accurate legal text error correction thesaurus,this paper proposes a method based on web crawler.Based on the common crawlers,this method extends the function modules such as topic selection and page sorting to improve the accuracy and recall of crawlers.After getting the data,data cleaning is carried out to select useful words to form the final usable professional error correction lexicon.The feasibility of this crawler design scheme is verified by the system test run,which can provide support for the construction of related thesaurus.

作者刘明洁李珅梁毅 LIU Ming-jie;LI Shen;LIANG Yi(School of Computer,Beijing University of Technology,Beijing 100124,China;China Judicial Big Data Research Institute,Beijing 100043,China)

机构地区北京工业大学信息学部计算机学院中国司法大数据研究院有限公司

出处《软件》 2020年第5期57-60,共4页 Software

基金国家重点研发计划(批准号:2018YFC0831200)。

关键词网络爬虫法律文本分词词库 Web crawler Legal text Word segmentation dictionary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1周昆,王钊,于碧辉.基于语义相关度主题爬虫的语料采集方法[J].计算机系统应用,2019,28(5):190-195. 被引量：6
2陶永才,海朝阳,石磊,卫琳.中文词语搭配特征提取及文本校对研究[J].小型微型计算机系统,2018,39(11):2485-2490. 被引量：10
3陈俊彬.Web信息抽取策略及其实现方法研究[J].科技情报开发与经济,2008,18(23):169-170. 被引量：4
4刘寿臣.网页爬虫技术的关键技术研究探索[J].电脑知识与技术（过刊）,2016,22(6X):16-17. 被引量：6
5刘亮亮,曹存根.中文“非多字词错误”自动校对方法研究[J].计算机科学,2016,43(10):200-205. 被引量：15
6张仰森,郑佳.中文文本语义错误侦测方法研究[J].计算机学报,2017,40(4):911-924. 被引量：20
7孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：134
8阮阳,刘禹,韩港成,康晓凤.基于爬虫的定向数据检索系统[J].软件,2018,39(5):118-120. 被引量：5
9杜晓旭,贾小云.基于Python的新浪微博爬虫分析[J].软件,2019,40(4):182-185. 被引量：14
10史宝明,贺元香,吴崇正.主题搜索引擎中爬虫搜索策略的研究[J].计算机工程与应用,2014,50(2):116-119. 被引量：15

二级参考文献125

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2相丽玲,吴苍龙.网络竞争情报的搜集与挖掘方法探讨[J].图书情报工作,2010,54(S2):332-336. 被引量：4
3张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
4张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
5曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
6马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
7全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
9张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
10张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15):4-6. 被引量：21

共引文献289

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3邱明月,崔年冬.涉黑涉恶类警情的特征分析方法研究[J].法制与社会（旬刊）,2020(18):202-203.
4郭小磊.医药商品评论的情感分析[J].智能计算机与应用,2021,11(11):128-130. 被引量：1
5饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：6
6金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
7陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
8王永景,刘功申,李生红,荆涛.用于文本校对的分词与词性标注一体化算法[J].计算机技术与发展,2008,18(8):1-3. 被引量：1
9李斌,姚建民,朱巧明.英文作文的自动拼写检查研究[J].郑州大学学报（理学版）,2008,40(3):48-51. 被引量：5
10潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4

同被引文献36

1杜飞龙.自动校对渐入佳境[J].微电脑世界,2001(7):24-26. 被引量：1
2张建芬,邓晓群,沈志超.利用方正文易和Acrobat软件实现期刊论文校对[J].编辑学报,2004,16(3):189-189. 被引量：11
3张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
4易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
5陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
6李德华.利用方正小样与PDF文件的无缝对接实现远程校对[J].编辑学报,2008,20(6):545-546. 被引量：11
7郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
8张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
9熊水斌.基于方正书版2008和Foxit Reader的远程校对方法[J].中国科技期刊研究,2014,25(9):1149-1153. 被引量：4
10张仰森,唐安杰,张泽伟.面向政治新闻领域的中文文本校对方法研究[J].中文信息学报,2014,28(6):79-84. 被引量：12

引证文献1

1张芙蓉.中文文本自动校对技术研究综述[J].信息技术与信息化,2022(11):70-74.

1莫宏杰.基层党员干部怎样讲好一堂“微党课”[J].党课参考,2020(9):121-123.
2朱泽圻.面向聊天机器人的敏感内容识别研究[J].智能计算机与应用,2020,10(3):218-222. 被引量：3
3欧阳元东.基于Python的网站数据爬取与分析的技术实现策略[J].电脑知识与技术,2020,16(13):262-263. 被引量：7
4郭倩,黄继风,宋俊典,陈海光.基于指针网络生成抽象式新闻摘要[J].计算机应用与软件,2020,37(6):204-211. 被引量：5
5刘浩,王世奇,段红梅.哮喘儿童家长的疾病需求研究[J].中华现代护理杂志,2020,26(15):1961-1966. 被引量：10

软件

2020年第5期

浏览历史

内容加载中请稍等...

基于网络爬虫的法律文本纠错词库构建被引量：1

参考文献14

二级参考文献125

共引文献289

同被引文献36

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网络爬虫的法律文本纠错词库构建 被引量：1

参考文献14

二级参考文献125

共引文献289

同被引文献36

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于网络爬虫的法律文本纠错词库构建被引量：1