特斯联 CV 弱监督自训练引擎技术:降低研发门槛,促 AI 快速落地
机器学习是推动人工智能 (AI) 向前发展的核心技术, 过往,AI 领域的主要发展聚焦于拓展机器的能力, 随着 AI 从早期的野蛮发展阶段步入落地应用阶段, 在与各个行业的实际结合过程当中, 如何能将人类经验与机器学习规则充分结合, 使机器更高效地学习, 成为了 AI 发展所亟须解决的关键问题。
要使机器具备人类的经验, 少不了人工的参与。以往的机器学习, 往往需要大量的数据信息以及较高的人工参与 (如对数据的标注等) 程度, 这使 AI 在行业中的应用也面临着耗时、耗力的问题, 而由人工参与导致的数据标注错误更容易影响训练的效果。
日前, 特斯联的首间人工智能开放创新中心 (下称: 科创中心) 已宣布在德阳 AI PARK 落地运营。科创中心同时兼备着算法孵化、科研共享、及人才培养的使命。据特斯联介绍, 为解决前述问题而打造的弱监督大模型训练体系及联邦学习安全训练体系, 即为科创中心最核心的技术亮点。
特斯联德阳 AI PARK 内景
特斯联科创中心致力于通过九章算法赋能平台向不具备 AI 能力或弱 AI 能力的用户提供 AI 算法孵化服务能力, 因而弱化机器学习对标签数据的依赖、弱化人工参与算法训练为重中之重。目前针对计算机视觉、自然语言处理、推荐预测、知识图谱四个方向共十三个细分项, 特斯联与学术生态及产业合作伙伴已展开深入合作, 并打造了弱监督体系训练平台。其中, 在计算机视觉领域, 基于对比式自监督学习 (Momentum Contrast, 下称:MoCo) 框架, 特斯联构建了 CV 弱监督自训练引擎, 在图像分类、目标检测、实例分割三个领域, 实现最优性能。
优化 MoCo 自监督学习框架, 构建 CV 弱监督自训练引擎
在计算机视觉现有的弱监督学习框架中, 由于 memory bank 思路易于实现, 其应用最广也最为成熟。然而这一思路也存在着明显的缺点:
1.首先, 每一轮训练需要对所有样本特征进行存储, 其内存空间消耗巨大;
2.此外, 所有样本特征仅在每轮训练结束后方可更新, 导致更新延迟, 实验效果并不理想。
据此, 特斯联研发团队选择采用 MoCo 系列自监督学习框架作为基础学习框架进行优化, 研发出了自训练引擎及相关算法。
MoCo 是一种在高维连续输入中建立离散字典的方法, 字典是动态的, 键值 (keys) 是随机采样得到的, 编码器 (key encoder) 在训练中进行更新。假设好的特征可以从包含大量负样本的字典中学习而来, 而编码器能够在更新中尽可能保持一致。在 MoCo 框架的训练过程中, 每一步训练均会以"批次 (batch)"为单位, 将当前批次样本特征更新至队列, 并将最旧的批次样本特征从队列剔除, 实现动态存储, 将 memory bank 的样本特征可存储数量与批次大小 (batch size) 分离, 提升训练效率。
特斯联 CV 弱监督自训练引擎技术在传统的 MoCo 系列自监督学习框架上, 做出了五个方面的创新:
1.特斯联将 MoCo 中采用动量编码器的方式改为指数加权移动平均 (EMA) 算法更新, 其公式如下:
各数值的加权影响力随时间呈指数式递减, 时间越靠近当前时刻的数据加权影响力越大, 以此来提高当前和较早期键值之间表示的一致性。
2.Transformer 模型结构首次推出是在 NLP (自然语言处理) 领域, 最近两年开始引进计算机视觉领域且呈主流发展趋势, 为了更好地支持基于 Transformer 结构的模型算法, 特斯联吸纳由清华大学、西安交通大学以及微软亚洲研究院的研究者提出的 MoBY 自监督学习方法的优化思路, 将 BYOL (由 Google DeepMind 提出的算法) 中的非对称编码器、非对称数据扩充、动量调度, 与 MoCo 中的动量设计、键队列、对比损失相互结合。由此, 可借助 BYOL 先进的算法架构, 以出色的性能支持基于 Transformer 结构的模型算法, 进而丰富弱监督训练引擎所支持的模型种类, 提高引擎的模型多元性。
3.事物形态的变化不会脱离其核心, 图像风格的改变亦不会影响其核心内涵。基于此前提, 特斯联吸纳了由 Google DeepMind 研究者所提出的 ReLIC 自监督学习算法思想, 将因果框架引入 MoCo, 通过因果不变性原理, 在主流的 InfoNCE 损失函数上进行优化, 显性约束模型的学习目标, 鼓励模型学习到图像中的核心内容。由此, 模型可最大程度挖掘到图像中真正有用的内容信息, 降低对图像风格改变的敏感度, 从而整体上使模型具备更高鲁棒性, 性能更稳定。
4.参考强化学习的 Prioritized Experience Replay 算法思路, 特斯联以对比损失值作为优先级, 引入 sum-tree 数据结构代替队列结构, 实现高效的优先级存储, 完善"样本特征淘汰机制", 由此, 训练可最大程度保留信息熵较大的特征, 进一步提高模型的训练效率以及学习效果。
5.针对目标检测及实例分割下游任务, 由于采用 SGD 优化器优化 Transformer 结构模型, 会存在精度大幅下降, 超参数鲁棒性差等问题, 特斯联研发团队将 Transformer 中的 convolutional stem 替换为 patchify stem, 在稳定训练的同时提高训练效率, 降低超参数的影响。
降低人工参与成本,CV 弱监督自训练引擎助力工业智慧化转型
特斯联的 CV 弱监督自训练引擎在工业场景中尤其有着不可替代的价值。
在工业互联网实践中, 大量工业算法的研发以缺陷检查为目标。然而坏件本身是个小样本事件, 且坏件形态各异, 因而在数据收集层面以及数据人工标注层面, 使用标准的大量有标签的坏件数据对检测模型进行训练, 在产业中的实现难度极高。
特斯联 CV 弱监督自训练引擎及优化后的 MoCo 框架则可帮助厂家将此产业难题分解成多个简单的子问题一一解决。厂家可先从工业生产环境收集大量零件图像样本并对少量坏件数据进行标注, 然后根据平台提供的评估指标选定模型, 即可在无需标注的情况下直接使用零件图像样本开启训练。
在开启预训练流程后,CV 弱监督自训练引擎首先会结合数据以及下游任务目标进行分析, 为模型自构一个或多个自学习子任务, 然后借助优化后的 MoCo 框架, 帮助模型不断学习和挖掘零件图像样本中的有效信息, 例如正常零件纹路, 正常零件外观, 正常零件隐性特征等等。完成预训练流程后, 引擎将进入下游任务训练流程, 配合半监督技术和少量坏件数据再次训练。待训练完成, 即可得到最终的检测模型, 帮助厂家完成大规模缺陷检查任务。
不难发现,CV 弱监督自训练引擎的应用可以充分利用现有的沉默数据, 极大降低数据标注的人力成本及时间成本, 而优化后的 MoCo 框架不仅仅提高了精度, 也在一定程度上降低了计算资源的消耗, 提升了计算的效率。这都帮助降低了 AI 在产业界应用的门槛。
实验效果出众,CV 弱监督自训练引擎促 AI 应用落地
为验证 CV 弱监督自训练引擎改进算法的有效性, 特斯联研发团队分别按照 MoCo V2,MoCo V3,MoBY 三篇论文的实验模型选型、制定参数配置及训练策略, 将相应的模型在特斯联的自训练引擎上重新训练。实验结果显示,CV 弱监督自训练引擎所训练出的大部分模型在主流的 Linear Probing 性能评估上超过了前述三篇论文的实验结果, 如下图所示:
ImageNet-1K Linear Probing 性能对比实验结果
不光如此, 特斯联所打造的 CV 弱监督自训练引擎还在 2021 年度 ICCV (国际计算机视觉大会) 的赛事中跻身前十名。将特斯联 CV 弱监督自训练引擎技术导入特斯联的弱监督训练体系, 将提高平台大部分 CV 训练模型性能。而用户亦可在科创中心, 基于九章算法赋能平台, 通过零门槛的训练, 生成自有知识产权的高性能 CV 算法。
在特斯联看来, 降低机器学习过程中的人工参与, 即可在一定程度上让更大范围的企业有机会参与到人工智能的研发当中, 也推动 AI 向更为细分的领域渗透。特斯联创始人兼 CEO 艾渝对此表示:"就像是 AI 产业发展的木桶原理, 如果细分市场的发展相对较慢, 那么整个 AI 产业的推进也会有困难。我们希望通过科创中心以及特斯联自身的技术专长, 帮助中小微企业缓解 AI 研发中的问题, 找到 AI 有效应用落地的路径, 也带动整个 AI 产业, 再向前走一步。"
2022-05-06 01:01:04