大模型时代AI安全治理有了新思路

本站原创 2024-12-24 学术报告 0

中国计算机学会计算机视觉专委会携手合合信息举办企业交流活动大模型时代，AI安全治理有了“新思路” 过去一年，深度伪造、人工智能（AI）等话题屡次登上热搜，AI技术“野蛮生长”引发公众担忧。今年9月，全国网络安全标准化技术委员会发布《人工智能安全治理框架》，指出AI既面临自身技术缺陷、不足带来的内生风险，也面临不当使用、滥用甚至恶意利用带来的外部风险。为探寻AI安全治理道路，近日，由中国计算机学会计算机视觉专委会主办、合合信息承办、中国运筹学会数学与智能分会协办的“打造大模型时代的可信AI”论坛召开。与会专家从立法、监管、前沿研究、技术实践等多个维度分享AI安全领域的最新进展，助力AI向善发展。随着以ChatGPT 为代表的AI大语言模型技术飞速发展，关于数据安全、知识产权、算法偏见和有害内容生成等大语言模型的内容安全问题引发社会关注。“安全是个抽象概念，安全对齐的过程是一个从抽象到具体的模拟过程。”上海交通大学人工智能研究院教授、总工程师金耀辉围绕大模型训练过程，提出了“训练对齐、提示引导和文本过滤”三大安全保障手段，助力抽象的安全概念落实到具体的技术研发流程中。规范标准是AI健康生长的外部力量。中国电子标准院网安中心测评实验室副主任、CCIA数安委常务副主任何延哲认为，AI安全检测目前还主要停留在内容安全层面，检测方法比较单一。他将AI安全检测评估划分为算力网络安全、数据安全、个人信息保护、算法模型安全、网络信息安全、科技伦理安全六方面，形成综合评估框架，为标准引领技术发展方向提供可行性参考。 12月10日，Open AI正式向用户开放AI视频生成模型Sora。以Sora为代表的AI工具在给图像视频行业带来革新的同时，也引发了合成图像伪造风险。中国科学技术大学教授、国家杰青谢洪涛以特定人物深度伪造视频为研究对象，从主动防御和被动检测两个视角分享了具体治理方案。谢洪涛提到，主动防御用于在视频生成或传播过程中加入前置保护措施，例如采用双重水印技术，给人脸图像加上“看不见”的鲁棒性水印与半脆弱性水印，方便后续取证；被动检测包括图像级不一致性和时空身份不一致性检测技术，用于在视频传播或使用后评估其真实性。除了视频外，图像作为常见的数字内容资料形式，更容易被不法分子进行局部或全域生成式篡改。合合信息图像算法研发总监郭丰俊表示，合合信息技术团队基于数据驱动的神经网络模型，推出了行业领先水平的图像篡改检测方案，可提取篡改留下的细微痕迹，检测出多种篡改形式，在近年的2次国际性技术竞赛中获得冠军。当前文档类图像篡改检测仍然面临诸多挑战，如跨域泛化检测性能低下，纯色背景篡改检测准确率较低，压缩、传输等动作导致图像质量退化，致使检测性能下降等系列问题。大模型技术的出现为AI视觉安全的发展创造了新的可能，也为应对检测泛化能力和抗攻击能力的挑战提供了契机。 AI鉴别与合成技术相互博弈，密不可分。中国科学院自动化研究所研究员、IEEE/IAPR Fellow赫然博士从深度合成技术出发，详细分析了虚拟身份、身份重演和人脸驱动3种合成技术类型。他表示，深度合成技术的深入研究为鉴别提供了线索，例如模型指纹线索、图像拼接线索和时序闪烁线索等，形成多模态多线索的鉴伪方法，并有针对性地提出了图像鉴别方案，包括基于空频域信息和提示学习结合的伪造鉴别方法、基于transformer的视频鉴别方法等。