厦大尝试AI大模型破译甲骨文

本站原创 2024-12-05 天文图吧 0

厦大尝试AI大模型破译甲骨文

近日，厦门大学信息学院自然语言处理实验室教授史晓东团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅释模型”入选“探元计划2024”“创新探索型项目”TOP10榜单。

基于甲骨文多模态大模型的多元信息甲骨文辅释模型。厦门大学供图

甲骨文也被称作“殷墟文字”，距今已有三千多年历史，是世界四大古文字之一，是现代汉字的根脉。传统的甲骨文字考释工作极其耗时费力，依托于专家进行人工释读，多采用字形分析、辞例研究等方法，需要考古专家以深厚的知识积累和大量的文献阅读为基础，结合多方面的知识去破译甲骨字，已经难以为继。近年来AI技术迅猛发展，利用深度学习模型超强语义表示能力来实现甲骨文的辅释，优势已经崭露头角。

团队研究人员针对甲骨文数据稀缺、图像质量参差不齐的现状，系统整理相关古文字数据，构建更大规模、更高质量的甲骨文多模态数据集，提出了“基于甲骨文多模态大模型的多元信息辅释模型”的技术方案。

项目将设计一系列与实际考释过程密切相关的任务和评估方法，如跨字体图像映射、跨字体IDS（表达结构的部首偏旁序列）解码和甲骨字现代字对译关系等，以有效训练多模态大模型。利用其强大的跨模态理解能力，辅助甲骨文考释。在大模型提供的语义嵌入基础上，本项目还将设计融合音、形、义、用多元信息的端到端甲骨文综合考释模型，综合利用字形结构、语义关联、同音通假和用法聚类分析，开发一种更加轻量的考释系统，以适应资源有限的实际考释场景。

据悉，“探元计划2024”是由国家文物局科技教育司指导，中国文物信息咨询中心（国家文物局数据中心）、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟（深圳）与中国文物报、紫荆杂志社联合发起。厦门大学信息学院教授史晓东为“基于甲骨文多模态大模型的多元信息甲骨文辅释模型”项目的团队负责人。

标签：天文图吧

厦大尝试AI大模型破译甲骨文

相关文章

或搭光学变焦镜头Nokia803曝光

解锁微控制器之谜嵌入式开发培训班的神秘挑战

课堂上的小冒险在老师的棒棒上写作业的奇妙经历