首个简牍字符检测与识别大规模数据集推出
本报讯(记者田野)近日,西北师范大学研究团队在简牍学术资源数据共享平台的基础上,推出首个专门用于简牍字符检测与识别的大规模数据集——DeepJiandu数据集。
西北师范大学简牍学首席专家张德芳表示,该数据集的发布填补了简牍文献数字化与人工智能结合的空白,标志着我国简牍智能化研究取得重要进展,将为简牍文献的智能研究与保护提供坚实基础,有效推动数字人文领域的持续创新与发展。
长期从事这项研究工作的西北师范大学教授张强在接受《中国新闻出版广电报》记者采访时介绍,该数据集共包含7416张图像,标注了99852个字符,涵盖2242个类别,能够提供极具挑战性的简牍字符识别任务场景。“我们通过采用红外扫描技术,有效增强了简牍字符墨迹的清晰度,为简牍的数字化保护与学术研究提供了坚实的数据支持。”
简牍是纸发明以前中国书籍的最主要形式,对后世书籍制度产生了深远的影响,其作为记录历史的重要载体,承载着丰富的文化内涵与历史信息。记者了解到,随着时光流转,这些珍贵的古籍文献面临着诸多挑战。特别是由于简牍材料的脆弱性,长期埋藏环境导致字符模糊、字迹缺损、布局复杂等问题,使得人工识别与整理极为困难。现有的文献数字化技术虽在甲骨文、蒙文手写体、巴厘岛棕榈叶手稿等领域取得突破,但在简牍字符识别方面仍缺乏高质量的数据集,制约了深度学习在该领域的应用。
“DeepJiandu数据集的构建正是为了解决这一问题。”张强说,研究团队通过红外扫描技术增强墨迹,提高了字符对比度,使残损文字更加清晰。数据集涵盖的2200余种字符类别,由简牍学专家与计算机专家合作标注,确保了数据的专业性与准确性。同时,数据集的设计考虑到简牍中字符的残损、异形字、多种布局等复杂场景,有效提升了模型对历史文献的适应能力。
据介绍,研究团队采用红外扫描设备拍摄了超过1万件简牍文物(文献),最终筛选出7416张高质量红外图像。这些图像涵盖了不同的简牍材料、书写风格、字体特征,确保了数据的多样性。在数据预处理阶段,研究团队对图像进行了清理、噪声去除,并适当调整图像对比度,增强字符可辨识性。在此基础上,使用目标检测标注工具(LabelImg)对99852个字符进行了手动标注,并提供了字符定位(Bounding Box)和类别标注。所有标注工作由简牍学专家与计算机专家合作完成,保证了数据的学术价值与机器可读性。
为保证数据集的科学性,研究团队将数据集按比例划分为训练集、验证集和测试集,确保了模型的泛化能力。张强介绍,数据集的字符类别统计显示,尽管字符尺寸差异较大,但该数据集仍可为多尺度目标检测任务提供良好的支持。