机器人研究(二)

视觉编码器

pixel-cnn

https://github.com/openai/pixel-cnn iclr 2017 https://arxiv.org/abs/1606.05328

图像生成是一个较难建模的任务。为此，我们要用GAN、VAE、Diffusion等精巧的架构来建模图像生成。可是，在NLP中，文本生成却有一种非常简单的实现方法。NLP中有一种基础的概率模型——N元语言模型。N元语言模型可以根据句子的前几个字预测出下一个字的出现概率。比如看到「我爱吃苹……」这句话的前几个字，我们不难猜出下一个字大概率是「果」字。利用N元语言模型，我们可以轻松地实现一个文本生成算法：输入空句子，采样出第一个字；输入第一个字，采样出第二个字；输入前两个字，输出第三个字……以此类推。

既然如此，我们可不可以把相同的方法搬到图像生成里呢？当然可以。虽然图像是二维的数据，不像一维的文本一样有先后顺序，但是我们可以强行给图像的每个像素规定一个顺序。比如，我们可以从左到右，从上到下地给图像标上序号。这样，从逻辑上看，图像也是一个一维数据，可以用NLP中的方法来按照序号实现图像生成了

PixelCNN就是一个使用这种方法生成图像的模型。可为什么PixelCNN的名气没有GAN、VAE那么大？为什么PixelCNN可以用CNN而不是RNN来处理一维化图像？为什么PixelCNN是一种「自回归模型」？别急，在这篇文章中，我们将认识PixelCNN及其改进模型Gated PixelCNN和PixelCNN++，并认真学习它们的实现代码。看完文章后，这些问题都会迎刃而解

https://zhouyifan.net/2023/05/27/20230522-pixelcnn/

VQ-VAE

https://arxiv.org/pdf/1711.00937

https://zhouyifan.net/2023/06/06/20230527-VQVAE/

近两年，有许多图像生成类任务的前沿工作都使用了一种叫做”codebook”的机制。追溯起来，codebook机制最早是在VQ-VAE论文中提出的。相比于普通的VAE，VQ-VAE能利用codebook机制把图像编码成离散向量，为图像生成类任务提供了一种新的思路。VQ-VAE的这种建模方法启发了无数的后续工作，包括声名远扬的Stable Diffusion

为什么VQ-VAE想要把图像编码成离散向量？让我们从最早的自编码器（Autoencoder, AE）开始一步一步谈起。AE是一类能够把图片压缩成较短的向量的神经网络模型，其结构如下图所示。AE包含一个编码器和一个解码器。在训练时，输入图像会被编码成一个较短的向量，再被解码回另一幅长得差不多的图像。网络的学习目标是让重建出来的图像和原图像尽可能相似

解码器可以把一个向量解码成图片。换一个角度看，解码器就是一个图像生成模型，因为它可以根据向量来生成图片。那么，AE可不可以用来做图像生成呢？很可惜，AE的编码器编码出来的向量空间是不规整的。也就是说，解码器只认识经编码器编出来的向量，而不认识其他的向量。如果你把自己随机生成出来的向量输入给解码器，解码器是生成不出有意义的图片的。AE不能够随机生成图片，所以它不能很好地完成图像生成任务，只能起到把图像压缩的作用。

AE离图像生成只差一步了。只要AE的编码空间比较规整，符合某个简单的数学分布（比如最常见的标准正态分布），那我们就可以从这个分布里随机采样向量，再让解码器根据这个向量来完成随机图片生成了。VAE就是这样一种改进版的AE。它用一些巧妙的方法约束了编码向量，使得满足标准正态分布。这样，解码器不仅认识编码器编出的向量，还认识其他来自标准正态分布的向量。训练完成后，我们就可以扔掉编码器，用来自标准正态分布的随机向量和解码器来实现随机图像生成了

VAE的实现细节就不在这里赘述了，是否理解它对理解VQ-VAE没有影响。我们只需知道VAE可以把图片编码成符合标准正态分布的向量即可。让向量符合标准正态分布的原因是方便随机采样。同时，需要强调的是，VAE编码出来的向量是连续向量，也就是向量的每一维都是浮点数。如果把向量的某一维稍微改动0.0001，解码器还是认得这个向量，并且会生成一张和原向量对应图片差不多的图片。

但是，VAE生成出来的图片都不是很好看。VQ-VAE的作者认为，VAE的生成图片之所以质量不高，是因为图片被编码成了连续向量。而实际上，把图片编码成离散向量会更加自然。比如我们想让画家画一个人，我们会说这个是男是女，年龄是偏老还是偏年轻，体型是胖还是壮，而不会说这个人性别是0.5，年龄是0.6，体型是0.7。因此，VQ-VAE会把图片编码成离散向量，

把图像编码成离散向量后，又会带来两个新的问题。第一个问题是，神经网络会默认输入满足一个连续的分布，而不善于处理离散的输入。如果你直接输入0, 1, 2这些数字，神经网络会默认1是一个处于0, 2中间的一种状态。为了解决这一问题，我们可以借鉴NLP中对于离散单词的处理方法。为了处理离散的输入单词，NLP模型的第一层一般都是词嵌入层，它可以把每个输入单词都映射到一个独一无二的连续向量上。这样，每个离散的数字都变成了一个特别的连续向量了

可为什么VQ-VAE会被归类到图像生成模型中呢？这是因为VQ-VAE的作者利用VQ-VAE能编码离散向量的特性，使用了一种特别的方法对VQ-VAE的离散编码空间采样。VQ-VAE的作者之前设计了一种图像生成网络，叫做PixelCNN。PixelCNN能拟合一个离散的分布。比如对于图像，PixelCNN能输出某个像素的某个颜色通道取0~255中某个值的概率分布。这不刚好嘛，VQ-VAE也是把图像编码成离散向量。换个更好理解的说法，VQ-VAE能把图像映射成一个「小图像」。我们可以把PixelCNN生成图像的方法搬过来，让PixelCNN学习生成「小图像」。这样，我们就可以用PixelCNN生成离散编码，再利用VQ-VAE的解码器把离散编码变成图像。

让我们来整理一下VQ-VAE的工作过程。

训练VQ-VAE的编码器和解码器，使得VQ-VAE能把图像变成「小图像」，也能把「小图像」变回图像。
训练PixelCNN，让它学习怎么生成「小图像」。
随机采样时，先用PixelCNN采样出「小图像」，再用VQ-VAE把「小图像」翻译成最终的生成图像

CLIP

2021年见证了vision transformer的大爆发，随着谷歌提出ViT之后，一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer，另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP，这两个都属于结合图像和文本的多模态模型，其中DALL-E是基于文本来生成模型的模型，而CLIP是用文本作为监督信号来训练可迁移的视觉模型，这两个工作也像ViT一样带动了一波新的研究高潮。这篇文章将首先介绍CLIP的原理以及如何用CLIP实现zero-shot分类，然后我们将讨论CLIP背后的动机，最后文章会介绍CLIP的变种和其它的一些应用场景

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，与CV中的一些对比学习方法如moco和simclr不同的是，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。如下图所示，CLIP包括两个模型：Text Encoder和Image Encoder，其中Text Encoder用来提取文本的特征，可以采用NLP中常用的text transformer模型；而Image Encoder用来提取图像的特征，可以采用常用CNN模型或者vision transformer

这里对提取的文本特征和图像特征进行对比学习。对于一个包含个文本-图像对的训练batch，将个文本特征和个图像特征两两组合，CLIP模型会预测出个可能的文本-图像对的相似度，这里的相似度直接计算文本特征和图像特征的余弦相似性（cosine similarity），即上图所示的矩阵。这里共有个正样本，即真正属于一对的文本和图像（矩阵中的对角线元素），而剩余的个文本-图像对为负样本，那么CLIP的训练目标就是最大个正样本的相似度，同时最小化个负样本的相似度

为了训练CLIP，OpenAI从互联网收集了共4个亿的文本-图像对，论文称之为WebImageText，如果按照文本的单词量，它和训练GPT-2的WebText规模类似，如果从数量上对比的话，它还比谷歌的JFT-300M数据集多一个亿，所以说这是一个很大规模的数据集。CLIP虽然是多模态模型，但它主要是用来训练可迁移的视觉模型。论文中Text Encoder固定选择一个包含63M参数的text transformer模型，而Image Encoder采用了两种的不同的架构，一是常用的CNN架构ResNet，二是基于transformer的ViT，其中ResNet包含5个不同大小的模型：ResNet50，ResNet101，RN50x4，RN50x16和RNx64（后面三个模型是按照EfficientNet缩放规则对ResNet分别增大4x，16x和64x得到），而ViT选择3个不同大小的模型：ViT-B/32，ViT-B/16和ViT-L/14。所有的模型都训练32个epochs，采用AdamW优化器，而且训练过程采用了一个较大的batch size：32768。由于数据量较大，最大的ResNet模型RN50x64需要在592个V100卡上训练18天，而最大ViT模型ViT-L/14需要在256张V100卡上训练12天，可见要训练CLIP需要耗费多大的资源。对于ViT-L/14，还在336的分辨率下额外finetune了一个epoch来增强性能，论文发现这个模型效果最好，记为ViT-L/14@336，论文中进行对比实验的CLIP模型也采用这个

为什么是CLIP，即CLIP这篇工作的motivation。在计算机视觉领域，最常采用的迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练，然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的，需要大量的数据标注，因此成本较高。近年来，出现了一些基于自监督的方法，这包括基于对比学习的方法如MoCo和SimCLR，和基于图像掩码的方法如MAE和BeiT，自监督方法的好处是不再需要标注。但是无论是有监督还是自监督方法，它们在迁移到下游任务时，还是需要进行有监督微调，而无法实现zero-shot。对于有监督模型，由于它们在预训练数据集上采用固定类别数的分类器，所以在新的数据集上需要定义新的分类器来重新训练。对于自监督模型，代理任务往往是辅助来进行表征学习，在迁移到其它数据集时也需要加上新的分类器来进行有监督训练。但是NLP领域，基于自回归或者语言掩码的预训练方法已经取得相对成熟，而且预训练模型很容易直接zero-shot迁移到下游任务，比如OpenAI的GPT-3。这种差异一方面是由于文本和图像属于两个完全不同的模态，另外一个原因就是NLP模型可以采用从互联网上收集的大量文本。那么问题来了：能不能基于互联网上的大量文本来预训练视觉模型？

其实之前已经有一些工作研究用文本来作为监督信号来训练视觉模型，比如16年的工作Learning Visual Features from Large Weakly Supervised Data将这转化成一个多标签分类任务来预测图像对应的文本的bag of words；17年的工作Learning Visual N-Grams from Web Data进一步扩展了这个方法来预测n-grams。最近的一些工作采用新的模型架构和预训练方法来从文本学习视觉特征，比如VirTex基于transformer的语言模型，ICMLM基于语言掩码的方法，ConVIRT基于对比学习的方法。整体来看，这方面的工作不是太多，这主要是因为这些方法难以实现较高的性能，比如17年的那篇工作只在ImageNet上实现了11.5%的zero-shot性能，这远远低于ImageNet上的SOTA。另外，还有另外的是一个方向，就是基于文本弱监督来提升性能，比如谷歌的BiT和ViT基于JFT-300M数据集来预训练模型在ImageNet上取得SOTA，JFT-300M数据集是谷歌从互联网上收集的，通过一些自动化的手段来将web text来转化成18291个类别，但是存在一定的噪音。虽然谷歌基于JFT-300M数据集取得了较好的结果，但是这些模型依然采用固定类别的softmax分类器进行预训练，这大大限制了它的迁移能力和扩展性

谷歌的弱监督方法和之前的方法的一个重要的区别在于规模，或者说算力和数据的规模不同。JFT-300M数据量达到了上亿级别，而且谷歌用了强大的算力来进行预训练。而VirTex，ICMLM和ConVIRT只在10万级别的数据上训练了几天。为了弥补数据上的差异，OpenAI从网上收集了4亿的数据来实验。但是新的问题来了：采用什么样的方法来训练。OpenAI首先尝试了VirTex模型，即联合训练一个CNN和文本transformer来预测图像的文本（image caption），但是发现这种方法的训练效率（用ImageNet数据集上的zero-shot性能来评估）还不如直接预测bag of words，如下图所示，两者的训练效率能相差3倍。如果进一步采用ConVIRT，即基于对比学习的方法，训练效率可以进一步提升4倍。之所出现这个差异，这不难理解，训练数据所包含的文本-图像对是从互联网收集来的，它们存在一定的噪音，就是说文本和图像可能并不完全匹配，这个时候适当的降低训练目标，反而能取得更好的收敛。而从任务难度来看：Transformer Language Model > Bag of Words Prediction > Bag of Words Contrastive (CLIP)。由于训练数据量和模型计算量较大，训练效率成为一个至关重要的因素。这就是作者最终选择对比学习的方法来训练的原因

基于文本来搜索图像是CLIP最能直接实现的一个应用，其实CLIP也是作为DALL-E的排序模型，即从生成的图像中选择和文本相关性较高的

CLIP是基于文本-图像对来做的，但是它可以扩展到文本-视频，比如VideoCLIP就是将CLIP应用在视频领域来实现一些zero-shot视频理解任务。

CLIP可以用在指导图像编辑任务上，HairCLIP这篇工作用CLIP来定制化修改发型

CLIP还可以应用在图像生成上，比如StyleCLIP这篇工作用CLIP实现了文本引导的StyleGAN

华为的工作MVP更是采用CLIP来进行视觉自监督训练

siglip

在最近一些知名的开源多模态大模型中，视觉编码器模块有两个重要的身影，一个是**InternViT-6B（对应的MLLM有InternVL2、InternVL1.5等），另一个是SigLIP-400M**（对应的MLLM有LLaVA-OneVision、MiniCPM-Llama3-V2.5、LLaVA-Next-Qwen-32B、WeMM、LLaVA-Next-Interleave-7B-DPO等）

https://github.com/google-research/big_vision

我们提出了一种简单的两两Sigmoid损失函数用于语言-图像预训练（SigLIP）。不同于采用softmax归一化的标准对比学习，Sigmoid损失仅在图像-文本对上操作，并不需要全局视图来对两两相似度进行归一化。Sigmoid损失同时允许进一步扩大批量大小，同时在较小的批量大小下表现更佳。结合锁定图像调优，仅使用四块TPUv4芯片，我们训练了一个SigLiT模型，在两天内实现了84.5%的ImageNet零样本准确性。批量大小与损失函数的解耦进一步使我们能够研究示例与对以及负例对正例比率的影响。最终，我们将批量大小推向极端，高达一百万，并发现增大批量大小的好处迅速减弱，一个更为合理的32k的批量大小就已足够

利用从网络上找到的图像-文本对的弱监督进行对比预训练，正逐渐成为获取通用计算机视觉骨干网络的首选方法，慢慢取代在大型标记多类别数据集上的预训练。其核心思想是使用配对数据同时学习图像和文本的对齐表示空间。开创性工作CLIP [36] 和 ALIGN [23] 在大规模上证实了这种方法的可行性，随后，许多大型图像-文本数据集私有地 [59, 13, 21, 49] 和公开地 [40, 6, 15, 7, 41] 变得可用。

预训练这类模型的标准做法利用了图像-文本对比目标。它对匹配（正例）图像-文本对的图像和文本嵌入进行对齐，同时确保不相关（反例）图像-文本对在嵌入空间中不相似。这是通过应用基于softmax的批级对比损失实现的，该损失分别对所有图像和所有文本的两两相似度分数进行归一化两次。softmax的朴素实现在数值上不稳定；通常通过在应用softmax之前减去最大输入值来稳定它 [18]，这需要在整个批次上再做一次遍历。

在本文中，我们提出了一个更简单的替代方案：Sigmoid损失。它不需要在全批上进行任何操作，因此极大地简化了分布式损失的实现并提高了效率。此外，它在概念上将批量大小与任务定义解耦。我们在多种设置下比较了提出的Sigmoid损失与标准softmax损失。具体而言，我们研究了基于Sigmoid的损失与图像-文本学习的两种突出方法：CLIP [36] 和 LiT [59]，我们分别称之为Sigmoid语言图像预训练（SigLIP）和Sigmoid LiT（SigLiT）

我们发现，当批量大小小于16k时，Sigmoid损失的表现显著优于softmax损失。随着训练批量大小的增长，两者差距缩小。重要的是，Sigmoid损失是对称的，只需要一次遍历，且典型实现所需的内存比softmax损失少。这使得在一百万的批量大小下成功训练SigLiT模型成为可能。然而，我们发现对于softmax和Sigmoid，性能随批量大小增长而饱和。好消息是，一个合理的批量大小，即32k，足以用于图像-文本预训练。这一结论同样适用于超过100种语言的多语种SigLIP训练。

在表1中，我们列出了图像-文本预训练的设置，这些设置需要适度数量的TPUv4芯片进行训练。SigLiT出人意料地高效，在四个芯片上仅一天就能达到ImageNet上79.7%的零样本准确率。SigLIP从头开始的更苛刻训练，使用32个TPUv4芯片在5天内达到73.4%的零样本准确率。这与先前的工作如FLIP [30] 和 CLIP [36] 相比具有优势，它们分别需要大约5天和10天在256个TPUv3核心上。在SigLIP中微调预训练的视觉骨干网络，如表1所示，我们发现禁用预训练骨干网络上的权重衰减会导致更好的结果（详情见图4）。

我们希望我们的工作能为使新兴的语言-图像预训练领域更加普及铺平道路。

https://zhuanlan.zhihu.com/p/714731384

DINO-v2/DINO-v3

Dino V2 是 DINO 的改进版本，它使用了更深层次的 ViT 模型，并引入了新的技术来提高模型的鲁棒性和泛化能力。该方法的核心思想是通过自蒸馏（self-distillation），即让一个“学生”网络模仿“教师”网络的行为来进行学习。此外，Dino V2 还采用了大规模无标签数据集 LVD-142M 进行预训练，并通过自动化数据管道获取更好的数据集。

输入：Dino V2 接受单张或多张不同视角下的图像作为输入。这些图像可能是原始图像的不同裁剪版本或者是经过随机变换后的结果。

输出：对于每个输入图像，Dino V2 会产生一个嵌入向量，这个向量包含了图像的空间结构信息。具体来说，输出可以是从最后一层或中间某一层提取出来的特征图（feature map），然后通常会对这些特征图求平均以获得全局描述符

2025年8月14日Meta重磅发布DINO v3。官方报道：吞下17亿张图片，Meta最强巨兽DINO-v3 7B参数超级视觉大模型开源

DINO v3跟DINO v2的架构和预训练策略几乎完全一样：MIM（来自于iBOT的特征预测型MIM）+自蒸馏（来自于DINO v1）+多分辨率裁剪数据增强（来自于SwAV）+寄存器token（VitNeedReg）。并且加了一些额外的技术，使得能够有效训练超大模型，且训练得到的密集特征更有效作者：Dezeming 链接：https://zhuanlan.zhihu.com/p/1940400858836742367 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传统深度学习依赖大量人工标注数据，而自监督学习通过从数据本身生成监督信号（如图像块的关系、时序连续性等），彻底摆脱了这一限制。不局限于特定任务或领域，同一算法可处理多样数据（如自然图像、航拍图像等），为通用视觉表征学习铺平道路。模型和数据集规模可自由扩展，无需标注成本，适合大规模训练

DINOv3的核心创新在于：（1）数据与模型规模的协同优化，通过精心设计的数据清洗、多样化和增强策略，确保大规模数据的质量。优化模型结构（ViT）以适应超大规模训练，平衡计算效率与表征能力。（2）Gram锚定（Gram Anchoring，做过卷积网络风格迁移的朋友有没有回想到~），在长周期训练中，密集特征图（dense feature maps）易出现退化（如信息丢失或过度平滑）。通过Gram矩阵（捕捉特征间高阶统计量）锚定特征分布，稳定训练并提升特征质量。这一方法首次系统性解决了该长期存在的问题。（3）后处理策略（Post-hoc Strategies）。多分辨率适配支持灵活调整输入图像分辨率，适应不同计算需求。提供不同规模的模型变体（如小型到巨型），适配多样部署场景。（4）ViT骨干也进行了改进，使用了axial RoPE位置编码，并且进行了位置编码正则化来避免位置伪影。

DINOv3的性能优势：（1）通用视觉基础模型：在无需微调的情况下，超越以往自监督/弱监督模型（如DINOv2、MoCo等）和领域专用模型（如ImageNet预训练模型）的性能。（2）密集特征质量：生成的高质量密集特征可直接用于分割、检测等任务，显著优于先前方法。（3）开源模型套件：提供不同规模的预训练模型（如Small到Large），推动社区在资源受限或高性能场景中的应用。

**规模化过程中的三大具体问题：（1）无标注数据集的效用性问题，如何从无标注数据集中筛选“有用”数据？互联网爬取的原始数据包含噪声（模糊图像、重复内容、无关文本等），直接训练会降低模型效率。(2) 训练调度的不确定性，余弦退火调度（Cosine Schedule）需预设总训练步数（优化终点），但在超大规模数据集（如数十亿图像）上难以提前确定最优步数（数据量过大时可能需动态调整），固定调度可能导致欠拟合或过拟合。(3) 长周期训练中的特征退化，当模型参数量超过ViT-Large（3亿参数）且训练时间延长时，早期阶段特征质量提升，但后续相似度图（Patch Similarity Maps）**显示特征逐渐退化（如过度平滑或丢失局部细节）。图像块之间的相似度趋于一致，失去判别性。根本原因在于优化目标与特征密度间的矛盾（如过度依赖全局一致性而忽略局部差异），大规模模型的优化轨迹具有复杂性（梯度噪声累积、损失曲面平坦化）。

这些问题导致单纯扩大DINOv2的规模（数据量、参数量）无法持续提升性能，甚至可能有害

ViT的密集特征天生具有全局感受野，而CNN的密集特征受限于局部感受野。简单来说，你的ViT输出的图像特征是密集特征，以用于下游任务。但有可能学习到的每个patch的特征不是很有“独特性”，即所有patch的特征区分度很小，就不利于后续下游任务。

余弦退火调度是一种用于深度学习优化的学习率调整策略，其核心思想是让学习率随着训练过程按余弦函数的形式从初始值平滑衰减到接近零。这种调度方式在训练大规模模型时表现优异，尤其在自监督学习Transformer模型中广泛应用。

相似性图（Patch Similarity Maps）就是通过计算图像所有局部块（patch）特征之间的相似性（如余弦相似度），生成一个对称矩阵（或热力图），反映模型对图像内部结构的理解程度。

https://zhuanlan.zhihu.com/p/1940400858836742367

big_vision

https://github.com/google-research/big_vision

paligemma

https://research.google/resources/our-projects/

PaliGemma 支持图像视频等多种视觉语言任务。包括支持图像和短视频字幕、视觉问答、图像文本理解、物体检测文件图表解读、图像分割等任务。

PaliGemma 模型包含 30 亿（3B）个参数，一个由 116 个新模型组成的系列，可以为图像添加字幕、回答问题、检测实体、分割图像等结合了 SigLiP 视觉编码器和 Gemma 语言模型。 SigLiP 负责处理图像输入，Gemma 负责处理文本输入和生成输出

PaliGemma 是一系列视觉语言模型，其架构由 SigLIP-So400m 作为图像编码器，Gemma-2B 作为文本解码器组成。SigLIP是一个最先进的模型，可以理解图像和文本。与 CLIP 一样，它由联合训练的图像和文本编码器组成。与 PaLI-3 类似，组合的 PaliGemma 模型在图像文本数据上进行了预训练，然后可以很容易地在下游任务（例如字幕或引用分割）上进行微调。Gemma 是用于文本生成的纯解码器模型。使用线性适配器将 SigLIP 的图像编码器与 Gemma 相结合，使 PaliGemma 成为强大的视觉语言模型

PaliGemma 版本附带三种类型的模型：

预训练（pt）模型、混合模型和微调（ft）模型，每种模型都有不同的分辨率，并且为方便起见提供多种精度。

PT checkpoints(pt预训练模型): 可以针对下游任务进行微调的预训练模型
Mix checkpoints(mix混合模型): PT 模型针对混合任务进行微调。它们适用于带有自由文本提示的通用推理，并且只能用于研究目的。
FT checkpoints(ft微调模型):一组微调模型，每个模型都专门针对不同的学术基准。它们有多种分辨率，仅用于研究目的。

这些模型有三种不同的分辨率（224x224、448x448）、896x896和三种不同的精度（bf16、f16和f32）。每个存储库都包含给定分辨率和任务的检查点，每个可用精度都有三个修订版。每个存储库的main分支都包含float32检查点，其中bf16as 和f16revisions 包含相应的精度。对于与 Transformer 和原始 JAX 实现兼容的模型，有单独的存储库，高分辨率模型需要更大的内存来运行，因为输入序列要长得多。它们可能有助于处理颗粒度较为精细的任务（如 OCR），但对于大多数任务来说，质量提升很小。224 版本对于大多数用途来说已经很好了

PaliGemma 是一种单轮视觉语言模型，不适合对话使用，在针对特定用例进行微调时效果最佳。通过使用任务前缀（例如“detect”或“segment”）来配置模型将解决的任务。以这种方式训练预训练模型，可以让它们具备丰富的功能（问答、字幕、分割等）。但是，它们不是为直接使用而设计的，而是使用类似的提示结构（通过微调）转移到特定任务。对于交互式测试，您可以使用“mix”系列模型，这些模型已针对混合任务进行了微调

ON THIS PAGE

机器人研究(二)#

视觉编码器#

pixel-cnn#

VQ-VAE#

CLIP#

siglip#

DINO-v2/DINO-v3#

big_vision#