Coco/IU X-ray/MIMIC-CXR数据集在image caption任务上的表现

发布于 14 天前 81 次阅读 预计阅读时间: 22 分钟


Coco数据集

 

1. mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

  • 模型结构 (Model Architecture):

    • mPLUG采用分离式的编码器结构,包含一个视觉编码器(基于ViT,如CLIP-ViT)和一个文本编码器(基于BERT的前6层)。

    • 核心是一个新颖的跨模态跳跃连接网络 (Cross-modal Skip-connected Network),它由BERT的后6层初始化。这个网络包含两种类型的块交替出现:

      • 非对称共注意力 (Asymmetric Co-attention) 块: 包含文本的自注意力、文本到视觉的交叉注意力(Text attends to Vision),但没有视觉到文本的交叉注意力,以提高效率。包含S(stride)个这样的块。

      • 连接注意力 (Connected Attention) 块: 将视觉和文本表示拼接起来,进行完整的自注意力(Self-Attention)融合。每S个非对称块后跟一个连接块。

    • 最后连接一个Transformer解码器用于文本生成任务(如图像描述)。

  • 核心思想 (Core Idea):

    • 主要解决现有视觉语言模型在处理长视觉序列时的低计算效率信息不对称(图像信息丰富但文本通常较短/抽象)问题。

    • 跨模态跳跃连接允许在模型的不同抽象层级进行视觉和语言的融合,更好地处理信息不对称性(早期语言语义更丰富,后期视觉细节更重要)。

    • 非对称共注意力通过减少视觉侧的注意力计算来提高效率。

    • 跳跃连接结构也有助于缓解梯度消失,促进模型训练。

    • 旨在构建一个有效且高效的统一视觉语言基础模型,同时支持理解和生成任务。

  • 训练过程 (Training Process):

    • 预训练: 在大规模图文对数据集(14M,包括COCO, Visual Genome, Conceptual Captions, SBU Captions)上进行端到端预训练。

    • 预训练目标:

      • 图像-文本对比学习 (Image-Text Contrastive, ITC): 对齐单模态编码器的图像和文本表示。

      • 图像-文本匹配 (Image-Text Matching, ITM): 预测图文对是否匹配(使用跨模态融合后的表示)。

      • 掩码语言模型 (Masked Language Modeling, MLM): 基于图像和未掩码文本预测被掩码的文本。

      • 前缀语言模型 (Prefix Language Modeling, PrefixLM): 基于图像和文本前缀生成后续文本(用于生成能力)。

    • 图像描述微调: 在COCO Caption数据集上进行微调。通常采用两阶段:首先使用交叉熵损失进行微调,然后使用CIDEr优化(SCST – Self-critical Sequence Training)进一步提升性能。

  • COCO实验结果 (COCO Experiment Results):

    • 在COCO Karpathy测试集上:

      • 交叉熵优化后: BLEU@4 43.1, METEOR 31.4, CIDEr 141.0, SPICE 24.2。

      • CIDEr优化后: BLEU@4 46.5, METEOR 32.0, CIDEr 155.1, SPICE 26.0

    • 结果表明mPLUG在仅使用14M数据的情况下,性能优于之前使用更多数据的模型(如LEMON, SimVLM)。


2. VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

  • 模型结构 (Model Architecture):

    • 包含三个独立的单模态编码器:

      • 视觉编码器 (Vision Encoder): 尝试了CLIP和VideoSwin Transformer。输入为稀疏采样的视频帧。

      • 音频编码器 (Audio Encoder): 基于AST (Audio Spectrogram Transformer),在AudioSet上预训练。输入为音频片段的log Mel频谱图。

      • 文本编码器 (Text Encoder): 基于BERT。

    • 一个多模态解码器 (Multimodal Decoder): 基于预训练的BERT,在自注意力和前馈网络之间添加了交叉注意力层。文本特征可以attend到视觉、音频或视听融合特征。

  • 核心思想 (Core Idea):

    • 提出全感知 (Omni-Perception) 预训练模型,旨在统一处理视觉、音频、语言三种模态。

    • 构建了一个新的大规模、高质量的三模态数据集VALOR-1M,包含100万个带有人声标注的视听描述 (audiovisual captions) 的视频。

    • 设计了基于模态分组 (Modality Grouping) 策略的预训练任务:

      • 多模态分组对齐 (Multimodal Grouping Alignment, MGA): 通过对比学习对齐文本与不同模态组(T-V, T-A, T-AV)的表示。

      • 多模态分组描述 (Multimodal Grouping Captioning, MGC): 在给定不同模态(V, A, AV)条件下,通过掩码语言模型生成文本。

    • 目标是让模型能够泛化到各种下游任务,包括视觉-语言、音频-语言、视听-语言的检索、描述和问答。

  • 训练过程 (Training Process):

    • 预训练: 在VALOR-1M以及公开的视觉语言数据集(如WebVid-2.5M, CC3M/CC14M, HD_VILA_10M)上进行。

    • 预训练目标: 联合优化MGA损失和MGC损失。

    • 下游任务适配: 根据具体任务的输入模态选择对应的模态分组进行微调。例如,视觉描述(VC)使用T-V分组,音频描述(AC)使用T-A分组,视听描述(AVC)使用T-AV分组。

  • COCO实验结果 (COCO Experiment Results):

    • 该论文主要关注视频、音频及视听相关的任务和其自建的VALOR数据集。在其主要对比表格(Table 7)中报告了在COCO Image Captioning上的结果(作为视觉-语言任务的一个实例)。

    • VALOR-L模型在COCO Captioning上取得了 152.5 的CIDEr分数(带有*表示可能使用了强化学习优化)。


3. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

  • 模型结构 (Model Architecture):

    • 利用冻结 (Frozen) 的预训练模型:一个冻结的图像编码器(如CLIP ViT-L/14, EVA-CLIP ViT-g/14)和一个冻结的大语言模型(LLM,如OPT, FlanT5)。

    • 核心是一个轻量级的、可训练的查询Transformer (Querying Transformer, Q-Former),用于连接冻结的图像编码器和冻结的LLM。

    • Q-Former包含两个共享自注意力层的Transformer子模块:一个图像Transformer和一个文本Transformer。它使用一组可学习的查询向量(Learnable Queries)从冻结的图像编码器中提取视觉特征。

    • Q-Former的输出通过一个全连接层(FC Layer)投影到与LLM文本嵌入相同的维度,作为软视觉提示 (soft visual prompts) 输入给LLM。

  • 核心思想 (Core Idea):

    • 提出一种高效的视觉语言预训练策略,通过冻结的单模态模型进行引导 (Bootstrapping)

    • Q-Former充当冻结图像编码器和冻结LLM之间的信息瓶颈 (information bottleneck),提取与文本最相关的视觉特征,减轻LLM学习跨模态对齐的负担。

    • 设计了两阶段预训练策略来训练Q-Former:

      • 阶段一:视觉-语言表示学习: 连接冻结图像编码器和Q-Former,强制Q-Former学习提取与文本相关的视觉表示。使用ITC, ITM, ITG (Image-grounded Text Generation) 损失。

      • 阶段二:视觉到语言生成学习: 连接Q-Former的输出到冻结的LLM,训练Q-Former使其输出的视觉表示能被LLM理解。使用语言模型损失。

  • 训练过程 (Training Process):

    • 数据集: 使用与BLIP相同的129M图像(COCO, VG, CC, SBU, LAION)。使用CapFilt方法为网络图像生成合成标题。

    • 预训练:

      • 阶段一:冻结图像编码器,训练Q-Former。

      • 阶段二:冻结图像编码器和LLM,训练Q-Former(以及连接的FC层)。

    • 图像描述微调: 冻结LLM,微调Q-Former和图像编码器。使用”a photo of”作为初始提示,优化语言模型损失。

  • COCO实验结果 (COCO Experiment Results):

    • 在COCO Karpathy测试集上(使用交叉熵损失微调):

      • BLIP-2 (ViT-g + OPT6.7B): CIDEr 145.2。

      • BLIP-2 (ViT-g + FlanT5XL): BLEU@4 42.4, CIDEr 144.5

    • 结果显示,通过利用更强的冻结模型(如ViT-g, FlanT5),BLIP-2能有效提升性能。


4. VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

  • 模型结构 (Model Architecture):

    • 包含三个单模态编码器:

      • 视觉编码器 (Vision Encoder): EVAClip-ViT-G。

      • 音频编码器 (Audio Encoder): BEATs。

      • 文本编码器 (Text Encoder): BERT-Base。

    • 文本编码器同时承担多模态融合和解码功能,通过交叉注意力层与视觉、音频、字幕特征交互。

  • 核心思想 (Core Idea):

    • 构建一个全模态 (Omni-Modality) 基础模型,能够同时处理视觉、音频、字幕、文本四种模态。

    • 提出了VAST-27M数据集:一个包含2700万视频片段的大规模全模态视频描述数据集。该数据集通过自动生成流程创建:

      • 训练独立的视觉描述器和音频描述器。

      • 使用LLM(如Vicuna-13b)结合生成的单模态描述、原始字幕和指令提示,生成全模态描述 (omni-modality captions)

    • 模型旨在理解和连接视频中的所有模态信息,支持更广泛的下游任务。

    • 采用模态分组 (Modality Grouping) 策略(类似VALOR)来处理下游任务中可能缺失的模态。

  • 训练过程 (Training Process):

    • 数据集: VAST-27M, VALOR-1M, WavCaps, CC14M, LAION-110M。

    • 预训练目标:

      • 全模态视频-描述对比学习 (OM-VCC): 对齐视频(V+A+S融合)和全模态描述的全局表示。

      • 全模态视频-描述匹配 (OM-VCM): 预测视频和全模态描述是否匹配。

      • 全模态视频描述生成 (OM-VCG): 在给定视频(V+A+S融合)条件下,生成全模态描述。

    • 同时结合模态分组损失,训练模型处理V-T, A-T, VA-T, VS-T, VAS-T等不同模态组合。

    • 图像描述微调: 将图像视为单帧视频,使用视觉-文本(V-T)模态分组的目标进行微调。

  • COCO实验结果 (COCO Experiment Results):

    • 在COCO Karpathy测试集上(Table 3 和 Table 17):

      • VAST (1.3B参数) 取得了 CIDEr 149.0* 的分数(带*表示可能使用了SCST优化)。

    • 尽管主要为视频设计,VAST在图像描述任务上也表现出色,验证了其全模态学习的能力。


5. GIT: A Generative Image-to-text Transformer for Vision and Language

  • 模型结构 (Model Architecture):

    • 极其简洁的生成式图文Transformer (Generative Image-to-text Transformer)

    • 只包含一个图像编码器和一个文本解码器

    • 图像编码器: 基于Swin Transformer的模型(如Florence/CoSwin),通过对比学习在大量图文数据上预训练。

    • 文本解码器: 标准的Transformer解码器,随机初始化

    • 图像特征被展平并与文本嵌入拼接后,直接输入到文本解码器中。使用标准的Seq2Seq注意力掩码。

    • 外部模块依赖(如物体检测器、OCR)。

  • 核心思想 (Core Idea):

    • 将视觉语言任务统一为一个简单的图像到文本 (Image-to-Text)生成式语言模型任务。

    • 简化架构:只用图像编码器+文本解码器。

    • 大规模预训练:在巨量(0.8B)图文对上进行预训练。

    • 扩展模型规模:训练了不同大小的模型(GIT-Base, GIT-Large, GIT, GIT2)。

    • 通过纯粹的生成式框架,模型不仅能做图像描述,还能处理VQA、图像分类、场景文本识别等任务。

  • 训练过程 (Training Process):

    • 预训练: 在0.8B图文对(COCO, CC3M, SBU, VG, CC12M, ALT200M等)上进行训练。

    • 预训练目标: 仅使用语言模型损失 (Language Modeling Loss),即给定图像,预测完整的文本描述。

    • 图像描述微调: 使用与预训练相同的语言模型损失在COCO Caption上微调。

    • VQA微调: 将问题作为文本前缀,答案作为生成目标,优化语言模型损失。

  • COCO实验结果 (COCO Experiment Results):

    • 在COCO Karpathy测试集上:

      • GIT (0.7B): XE 144.8, SCST 151.1

      • GIT2 (5.1B): XE 145.0, SCST 152.7

    • 在COCO在线测试服务器 (c40) 上:

      • GIT: 148.8。

      • GIT2: 149.8

    • GIT模型以其简洁的结构和纯生成式目标,在COCO上取得了非常有竞争力的结果,尤其是在大规模数据和模型下。


6. OFA: Unifying Architectures, Tasks, and Modalities through a Simple Sequence-to-Sequence Learning Framework

  • 模型结构 (Model Architecture):

    • 采用统一的Sequence-to-Sequence (Seq2Seq) 框架(基于Transformer Encoder-Decoder,类似BART)。

    • 使用统一的词汇表 (Unified Vocabulary),包含子词(subwords)、图像码元(image codes, 来自VQGAN)和位置码元(location tokens)。

    • 图像编码器先通过ResNet块处理,再输入Transformer Encoder。

    • 文本通过BPE处理。

  • 核心思想 (Core Idea):

    • “One For All” (OFA):追求一个统一的范式来处理多模态任务,统一架构、任务和模态。

    • 任务无关 (Task-Agnostic)模态无关 (Modality-Agnostic):所有任务(包括预训练和微调)都遵循基于指令 (Instruction) 的Seq2Seq学习范式。

    • 任务全面性 (Task Comprehensiveness):统一了大量的跨模态和单模态任务,如图像生成、视觉定位、图像描述、图像分类、VQA、语言模型等。

    • 无额外层: 下游任务不需要添加额外的任务特定层。

  • 训练过程 (Training Process):

    • 预训练: 在公开的20M图文对,以及额外的视觉数据(ImageNet, Objects365等)和语言数据(Pile)上进行多任务联合预训练

    • 预训练任务: 包括视觉定位(VG)、区域描述(GC)、图文匹配(ITM)、图像描述(IC)、VQA、物体检测、图像填充(Image Infilling)、文本填充(Text Infilling)等。所有任务都转化为Seq2Seq生成任务,并带有任务指令。

    • 优化目标: 交叉熵损失。

    • 图像描述微调: 使用带有”What does the image describe?”指令的Seq2Seq生成任务进行微调。

    • 分类任务: 使用基于Trie树的搜索策略来约束生成标签。

  • COCO实验结果 (COCO Experiment Results):

    • 在COCO Karpathy测试集上:

      • OFA-Tiny (33M): XE 119.0, CIDEr Opt 128.7。

      • OFA-Medium (93M): XE 130.4, CIDEr Opt 140.7。

      • OFA-Base (182M): XE 138.2, CIDEr Opt 146.7。

      • OFA-Large (472M): XE 142.2, CIDEr Opt 150.7。

      • OFA-Huge (930M, 文中简称OFA): XE 145.3, CIDEr Opt 154.9

    • OFA通过统一的Seq2Seq框架和指令学习,在相对较小的数据集(20M图文对)上取得了SOTA性能。

IU X-ray数据集

1. 文献一:On the Automatic Generation of Medical Imaging Reports (Jing et al., ACCV 2018 / arXiv 2017)

  • 模型结构 (图 2):

    •  
    • Image Encoder: CNN (如 VGG-19) 提取图像视觉特征。

    • Tag Prediction: 一个多标签分类 (Multi-Label Classification, MLC) 网络,基于视觉特征预测图像相关的医学标签 (Tags)。

    • Semantic Features: 使用预测出的 Top-M 个标签的词向量作为语义特征。

    • Co-Attention Module: 输入是图像视觉特征、标签语义特征以及 Sentence LSTM 的上一时刻隐状态。计算视觉注意力和语义注意力,并将两者结合(如拼接后过全连接层)得到一个联合上下文向量 (Joint Context Vector)。

    • Hierarchical LSTM Decoder:

      • Sentence LSTM: 接收 Co-Attention 输出的联合上下文向量,按步生成句子的 Topic Vector,并控制段落生成的停止。

      • Word LSTM: 接收 Sentence LSTM 生成的 Topic Vector 作为输入,按步生成构成句子的单词序列。

    • 多任务损失: 包含标签预测的分类损失和文本生成的语言模型损失。

  • IU X-ray 实验结果 (表 1 上半部分):

 2. 文献二:Multimodal Recurrent Model with Attention for Automated Radiology Report Generation (Xue et al., MICCAI 2018)

  • 模型结构 (图 2):

    • Image Encoder: 使用预训练的 ResNet-152 提取图像的全局特征(用于生成第一句/Impression)和局部区域特征(196个区域,用于注意力机制)。

    • Sentence Generative Model: 一个基础的 LSTM 解码器,接收全局图像特征,生成 Impression 或 Findings 的第一句话。

    • Recurrent Paragraph Generative Model (核心):

      • Sentence Encoder: 使用 Bi-LSTM(或 1D CNN)将上一句编码成一个语义向量。

      • Attentional Sentence Decoder: 一个两层 LSTM。其输入是加权的视觉特征上一句的语义向量

        • Attention 计算: 根据上一句的语义向量和图像的局部区域特征计算注意力权重,得到加权的视觉特征(v_att)。

        • 句子生成: LSTM 根据加权的视觉特征和上一句语义向量生成当前句子。

      • 循环机制: 生成的当前句子会被送入 Sentence Encoder,用于指导下一句的生成,如此循环直至生成结束符。

  • IU X-ray 实验结果 (表 1):

3. 文献三:Generating Radiology Reports via Memory-driven Transformer (Chen et al., EMNLP 2020)

  • 核心思想:

    • 目标: 利用 Transformer 架构生成长篇放射学报告,并解决 Transformer 在直接建模长序列和重复模式时可能遇到的困难。

    • 方法: 提出记忆驱动的 Transformer (Memory-driven Transformer)。引入外部**关系记忆(Relational Memory, RM)**模块来记录和利用生成过程中的历史信息和文本模式。

    • 创新点:

      • Relational Memory (RM): 一个可学习的矩阵,在解码的每一步进行更新,用于存储与生成历史相关的模式信息。通过 Multi-Head Attention 机制与解码器交互(记忆作为 Query,记忆+上文作为 Key/Value)。

      • Memory-driven Conditional Layer Normalization (MCLN): 提出一种新的 Layer Normalization 方式,将 RM 中存储的信息动态地融入 Transformer 解码器的每一层,通过预测 Layer Normalization 参数(γ 和 β)的调整量(Δγ, Δβ)来实现。

  • 模型结构 (图 2):

    • Visual Extractor: CNN (如 ResNet) 提取图像块特征。

    • Encoder: 标准的 Transformer Encoder,处理图像块特征。

    • Decoder (核心):

      • Backbone: 标准的 Transformer Decoder。

      • Relational Memory (RM): 在解码器外部,每一步解码时,根据上一时刻的记忆状态 Mt-1 和上一个生成的词 yt-1,通过 Multi-Head Attention 和门控机制(类似 LSTM 的门)更新得到当前时刻的记忆状态 Mt。

      • Memory-driven Conditional Layer Normalization (MCLN): 替换掉 Transformer Decoder 中原有的 Layer Normalization。在每个 MCLN 层,将当前记忆状态 Mt(展开并通过 MLP)用于预测该层 Layer Normalization 参数 γ 和 β 的增量 Δγ 和 Δβ,得到调整后的 γt 和 βt,再进行归一化操作。每个解码层包含多个 MCLN。

    • 输出: 最终通过 Softmax 层预测下一个词。

  • IU X-ray 实验结果 (表 2 和 表 3):

4. 文献四:Cross-modal Prototype Driven Network for Radiology Report Generation (Wang et al., MICCAI 2022)

  • 模型结构 (图 3):

    • Image Feature Extractor: ResNet-101 提取图像块特征 vs。

    • Pseudo Label Generation: 使用 CheXbert 等工具为每个图文对生成伪标签 y。

    • Prototype Matrix Initialization: 提取所有训练样本的全局视觉 (ResNet) 和文本 (BERT) 特征,拼接后按类别 (基于伪标签) 进行 K-Means 聚类,用聚类中心初始化原型矩阵 PM。

    • Cross-modal Prototype Network (核心):

      • Querying: 对每个视觉特征 vi 或文本词向量 vt,根据其伪标签 y,从 PM 中检索对应类别的原型,计算相似度,选出 Top-γ 个最相似的原型及其权重 w。

      • Responding: 将选出的原型进行变换(过 We 层),然后根据权重 w 进行加权求和,得到视觉响应 rs 和文本响应 rt。

      • Feature Interaction: 将原始单模态特征 (vi, vt) 与其对应的响应 (rs, rt) 拼接,然后通过一个全连接层 (FCN) 进行融合,得到增强后的特征 ls 和 lt。

    • Encoder-Decoder: 标准的 Transformer 结构。Encoder 输入增强后的视觉特征 ls,Decoder 输入增强后的文本特征 lt(作为 Embedding 或与 Attention 交互)。

    • Loss Function: 包含标准的交叉熵生成损失和改进的多标签对比损失 (作用于响应 rs, rt)。

  • IU X-ray 实验结果 (表 1):