MiniCPM-V多模态模型源码解析-03:模型推理详细流程
Last updated on January 13, 2025 pm
1. MiniCPM-V 推理流程图
graph TD
A[输入: 图像和文本] --> B[图像预处理]
A --> C[文本预处理]
B --> D[图像编码器 Vision Tower]
C --> E[文本编码器 Tokenizer]
D --> F[图像特征重采样 Resampler]
E --> G[文本特征编码]
F --> H[多模态特征融合 OmniLMMModel]
G --> H
H --> I[生成文本输出 OmniLMMForCausalLM]
I --> J[输出: 生成的文本]
subgraph 图像处理模块
B --> D
D --> F
end
subgraph 文本处理模块
C --> E
E --> G
end
subgraph 多模态融合模块
F --> H
G --> H
end
subgraph 模型核心模块
H --> I
end
subgraph 输出模块
I --> J
end
%% 详细步骤
B --> B1[图像缩放]
B --> B2[图像裁剪]
B --> B3[图像归一化]
B1 --> D
B2 --> D
B3 --> D
C --> C1[文本分词]
C --> C2[文本编码]
C1 --> E
C2 --> E
D --> D1[提取图像特征]
D1 --> F
E --> E1[生成 input_ids]
E1 --> G
F --> F1[重采样图像特征]
F1 --> H
G --> G1[生成文本特征]
G1 --> H
H --> H1[拼接图像和文本特征]
H1 --> H2[Transformer 编码]
H2 --> I
I --> I1[生成文本 token]
I1 --> I2[自回归生成文本]
I2 --> J
2. 推理流程的详细说明
2.1 输入: 图像和文本
- 输入:
- 图像:RGB 图像文件(如 JPEG 或 PNG)。
- 文本:对话格式的列表,包含用户和助手的对话轮次。
2.2 图像预处理
步骤:
- 图像缩放:将图像调整到模型指定的输入尺寸(如 224x224)。
- 图像裁剪:对图像进行中心裁剪。
- 图像归一化:使用预定义的均值和标准差对图像进行归一化。
代码:
1
2image = Image.open(io.BytesIO(base64.b64decode(input['image']))).convert('RGB')
image = self.image_transform(image)
2.3 图像编码器 (Vision Tower)
作用:将预处理后的图像转换为图像特征。
实现:
- 使用预训练的视觉模型(如 EVA02)提取图像特征。
代码:
1
vision_embedding = vision_tower.forward_features(pixel_values.type(dtype))
2.4 图像特征重采样 (Resampler)
作用:对图像特征进行重采样,使其与文本特征的维度匹配。
实现:
- 使用多头注意力机制对图像特征进行重采样。
代码:
1
res = self.resampler(vision_embedding)
2.5 文本预处理
步骤:
- 文本分词:将文本分割为 token。
- 文本编码:将 token 转换为
input_ids
。
代码:
1
2
3msgs = json.loads(input['question'])
input_ids = wrap_question_for_omni_lmm(msgs, self.image_token_len, self.tokenizer)['input_ids']
input_ids = torch.as_tensor(input_ids)
2.6 文本编码器 (Tokenizer)
作用:将预处理后的文本转换为文本特征。
实现:
- 使用 Transformer 模型(如 Mistral)对
input_ids
进行编码,生成文本特征。
- 使用 Transformer 模型(如 Mistral)对
代码:
1
inputs_embeds = self.embed_tokens(data['input_ids'])
2.7 多模态特征融合 (OmniLMMModel)
作用:将图像特征和文本特征拼接在一起,形成联合特征。
实现:
- 如果文本中包含
<image>
标记,系统会将图像特征插入到对应的位置。 - 拼接后的联合特征形状为
(batch_size, sequence_length + num_queries, embed_dim)
。
- 如果文本中包含
代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28new_input_embeds = []
cur_image_idx = 0
for cur_input_ids, cur_input_embeds in zip(input_ids, inputs_embeds):
if (cur_input_ids == self.vision_config.im_patch_token).sum() == 0:
cur_input_embeds = cur_input_embeds + (0. * dummy_image_features).sum()
new_input_embeds.append(cur_input_embeds)
continue
if self.vision_config.use_im_start_end:
cur_image_features = vision_hidden_states[cur_image_idx]
num_patches = cur_image_features.shape[0]
if (cur_input_ids == self.vision_config.im_start_token).sum() != (cur_input_ids == self.vision_config.im_end_token).sum():
raise ValueError("The number of image start tokens and image end tokens should be the same.")
image_start_tokens = torch.where(cur_input_ids == self.vision_config.im_start_token)[0]
for image_start_token_pos in image_start_tokens:
cur_image_features = vision_hidden_states[cur_image_idx].to(device=cur_input_embeds.device)
num_patches = cur_image_features.shape[0]
if cur_input_ids[image_start_token_pos + num_patches + 1] != self.vision_config.im_end_token:
raise ValueError("The image end token should follow the image start token.")
if orig_embeds_params is not None:
cur_new_input_embeds = torch.cat((cur_input_embeds[:image_start_token_pos].detach(), cur_input_embeds[image_start_token_pos:image_start_token_pos+1], cur_image_features, cur_input_embeds[image_start_token_pos + num_patches + 1:image_start_token_pos + num_patches + 2], cur_input_embeds[image_start_token_pos + num_patches + 2:].detach()), dim=0)
else:
cur_new_input_embeds = torch.cat((cur_input_embeds[:image_start_token_pos+1], cur_image_features, cur_input_embeds[image_start_token_pos + num_patches + 1:]), dim=0)
cur_image_idx += 1
new_input_embeds.append(cur_new_input_embeds)
else:
raise NotImplementedError
inputs_embeds = torch.stack(new_input_embeds, dim=0)
2.8 生成文本输出 (OmniLMMForCausalLM)
作用:根据联合特征生成文本输出。
实现:
- 使用
lm_head
对联合特征进行解码,生成文本 token。 - 通过自回归生成逐步生成文本输出。
- 使用
代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14output = self.model.generate_vllm(
input_ids=input_ids.unsqueeze(0).cuda(),
images=image.unsqueeze(0).half().cuda(),
temperature=0.6,
max_new_tokens=1024,
do_sample=True,
output_scores=True,
return_dict_in_generate=True,
repetition_penalty=1.1,
top_k=30,
top_p=0.9,
)
response = self.tokenizer.decode(output.sequences[0], skip_special_tokens=True)
response = response.strip()
2.9 输出: 生成的文本
- 输出:生成的文本被返回给用户。
3. 总结
- 推理流程:
- 图像预处理:对图像进行缩放、裁剪和归一化。
- 图像编码:使用 Vision Tower 提取图像特征。
- 图像特征重采样:使用 Resampler 对图像特征进行重采样。
- 文本预处理:对文本进行分词和编码。
- 文本编码:使用 Tokenizer 生成文本特征。
- 多模态特征融合:将图像特征和文本特征拼接在一起。
- 生成文本输出:使用 OmniLMMForCausalLM 生成文本输出。
- 输出:生成的文本返回给用户。
文章合集:chongzicbo/ReadWriteThink: 博学而笃志,切问而近思 (github.com)
个人博客:程博仕
微信公众号:
MiniCPM-V多模态模型源码解析-03:模型推理详细流程
https://chongzicbo.github.io/2025/01/14/人工智能/multi-modal/源码解析:MiniCPM-V多模态模型源码解析-03:模型推理详细流程/