甲骨残片缀合一直是甲骨学研究中最急迫最具基础性的工作,它使得甲骨残片经过拼接,复原为更加完整的原始材料.尽管前人及同行曾提出若干计算机辅助的甲骨缀合方法,但这些方法缀合准确度不足,未能真正投入使用,并不能真正帮助专家解决甲...甲骨残片缀合一直是甲骨学研究中最急迫最具基础性的工作,它使得甲骨残片经过拼接,复原为更加完整的原始材料.尽管前人及同行曾提出若干计算机辅助的甲骨缀合方法,但这些方法缀合准确度不足,未能真正投入使用,并不能真正帮助专家解决甲骨缀合问题,导致当前的甲骨缀合工作仍旧依靠人工、依旧费时费力.为了更好地研究甲骨残片的机器缀合问题,本文使用一个较大规模甲骨缀合基准数据集OB-Rejoin,该数据集包含了约一千幅甲骨拓片图像,且融入了大量的甲骨学界已缀成果,用于算法评估.基于该数据集,本文设计了一种基于斜率变化量序列匹配的甲骨缀合算法(Slope United Sequence Matching for Oracle Bone Fragments Conjugation,SUM),该方法将甲骨残片的断边碴口图像匹配问题转化为数值型的序列数据和序列相似性比对问题,以将尚不够非常精密的计算机视觉领域的碴口图像匹配问题转换为数据科学领域较为成熟的序列数据相似性匹配问题.SUM将数值型的碴口序列数据进一步转换为斜率变化量序列和字符序列数据,最后利用字符序列的模糊匹配完成甲骨残片的碴口匹配.在实验环节,SUM算法与经典的序列相似性计算方法在精确率、召回率、漏检率方面进行了对比,并与两个较新的基于深度学习的序列匹配算法和形状匹配算法进行了性能对比.整体而言,SUM在OB-Rejoin数据集上的Top-15缀合召回率达到了95.181%,超越了对比算法.重要出土文献的精准复原本身是历史学和古文字研究中客观存在的重大现实需求,具有重要的史学价值和意义,因此,本文的研究成果,不但有助于解决甲骨残片的机器缀合问题,还对秦汉简牍和敦煌遗书等重要出土文献的精准复原具有重要的参考价值.展开更多
文摘甲骨残片缀合一直是甲骨学研究中最急迫最具基础性的工作,它使得甲骨残片经过拼接,复原为更加完整的原始材料.尽管前人及同行曾提出若干计算机辅助的甲骨缀合方法,但这些方法缀合准确度不足,未能真正投入使用,并不能真正帮助专家解决甲骨缀合问题,导致当前的甲骨缀合工作仍旧依靠人工、依旧费时费力.为了更好地研究甲骨残片的机器缀合问题,本文使用一个较大规模甲骨缀合基准数据集OB-Rejoin,该数据集包含了约一千幅甲骨拓片图像,且融入了大量的甲骨学界已缀成果,用于算法评估.基于该数据集,本文设计了一种基于斜率变化量序列匹配的甲骨缀合算法(Slope United Sequence Matching for Oracle Bone Fragments Conjugation,SUM),该方法将甲骨残片的断边碴口图像匹配问题转化为数值型的序列数据和序列相似性比对问题,以将尚不够非常精密的计算机视觉领域的碴口图像匹配问题转换为数据科学领域较为成熟的序列数据相似性匹配问题.SUM将数值型的碴口序列数据进一步转换为斜率变化量序列和字符序列数据,最后利用字符序列的模糊匹配完成甲骨残片的碴口匹配.在实验环节,SUM算法与经典的序列相似性计算方法在精确率、召回率、漏检率方面进行了对比,并与两个较新的基于深度学习的序列匹配算法和形状匹配算法进行了性能对比.整体而言,SUM在OB-Rejoin数据集上的Top-15缀合召回率达到了95.181%,超越了对比算法.重要出土文献的精准复原本身是历史学和古文字研究中客观存在的重大现实需求,具有重要的史学价值和意义,因此,本文的研究成果,不但有助于解决甲骨残片的机器缀合问题,还对秦汉简牍和敦煌遗书等重要出土文献的精准复原具有重要的参考价值.