苹果推出FastVLM为视觉语言模型

最近，苹果推出的FastVLM在AI领域引起了不小的轰动。今天，咱们就来深入了解一下这款高效的视觉语言模型（VLM）到底有啥过人之处。

一、FastVLM到底是什么？

FastVLM是苹果研发的一款旨在提升高分辨率图像处理效率和性能的视觉语言模型。简单来说，它就像是一个超级“智能助手”，能让处理高分辨率图像变得又快又好。

它引入了一种叫FastViTHD的新型混合视觉编码器，这个编码器可太重要了。它能有效减少视觉token的数量，打个比方，就好像把一堆杂乱的文件整理得井井有条，只留下关键信息，这样一来，编码时间就大大缩短了。

在性能方面，FastVLM表现相当出色。它在保持和现有VLM相似性能的同时，处理速度却大幅提升。比如说在LLaVA – 1.5设置中，和其他模型相比，它把首次生成token的时间（TTFT）缩短了3.2倍。不仅如此，FastVLM的模型尺寸更小，训练时需要的数据也更少，但在多种VLM基准测试里都表现得十分优秀，充分展现了它在多模态理解任务中的高效性和实用性。

二、FastVLM有哪些实用功能？

高效编码高分辨率图像：以前处理高分辨率图像，可能需要花费很长时间，还占用大量资源。但FastVLM不一样，它能快速把高分辨率图像转化为视觉token，减少了编码时间，同时token数量也变少了，就像是把大文件压缩成了小文件，处理起来更轻松。
提升VLM性能：FastVLM在缩短首次生成token时间（TTFT）的同时，性能还不打折扣，和那些先进的模型相比，一点也不逊色。这意味着它能在更短的时间内给出高质量的结果，大大提高了工作效率。
简化模型设计：在设计上，FastVLM也有创新。以往的模型可能需要一些复杂的额外步骤，比如token修剪，但FastVLM不需要，这就简化了视觉编码器的设计，让整个模型更加简洁高效。

三、FastVLM的技术原理是怎样的？

混合视觉编码器FastViTHD：FastViTHD是FastVLM的核心部分。传统的编码器，要么是纯卷积编码器，要么是纯Transformer编码器（像ViT），而FastViTHD把它们的优点结合了起来。卷积层擅长处理高分辨率图像，它会通过下采样操作减少token数量，就像是筛选出重要信息。Transformer块则能进一步提取高质量的视觉特征，为后面的语言模型（LLM）提供更准确的视觉信息。FastViTHD的架构分好几个阶段，每个阶段的深度和嵌入维度都不一样，比如深度设置为[2，12，24，4，2]，嵌入维度为[96，192，384，768，1536] ，这些不同的设置让它能更好地完成任务。
优化的架构设计：FastVLM在架构设计上也下了不少功夫。它没有简单地扩展FastViT架构，而是引入了一个额外的阶段。这个额外阶段会在自注意力层之前进行下采样。这样一来，自注意力层只需要处理已经被下采样过的张量，计算量就大大减少了。打个比方，就像原本要处理一大箱文件，现在先把文件筛选整理了一遍，只留下一小部分给自注意力层处理，自然轻松很多。在典型的混合模型中，自注意力层处理的张量在每个方向上被下采样16倍，而在FastVLM中，最宽的MLP层处理的输入张量在每个方向上被下采样64倍，这就显著降低了视觉编码延迟。
与LLM的协同工作：FastVLM把视觉编码器和LLM通过投影层（也叫连接器模块）连接在一起。视觉编码器输出的视觉token会通过这个连接器模块，转换成适合LLM处理的格式。然后LLM把视觉token和文本输入融合起来理解，最后生成相应的输出。就好比两个人合作，一个人负责收集视觉信息，另一个人根据这些信息和文本内容进行分析，给出最终的答案，通过这种协同工作的方式，实现了视觉语言模型的各种功能。