公众号“看图学”试题合集(5) 1. RoPE 旋转位置编码这么解释 RoPE 旋转位置编码,女朋友睁大了双眼(上) RoPE 旋转位置编码,详细解释(下)NLP 面试的女生彻底说明白了 初中生能看懂的绝对位置编码和旋转位置编码(RoPE),甚至会认表的小学生也行 2. Transformers 中的 Layer Norm 可以并行么?NLP 面试八股:“Transformers 中的 Layer Norm 可以并行么?” 拿 2025-02-12 笔试面试 > AI算法 > nlp #nlp #笔试面试 #算法面试
公众号“看图学”试题合集(4) 1. 为什么 output token 的价格比 input token 更贵?翻一翻各大厂家的 API 定价,会发现基本上 输出 token 的价格是输入 token 价格的好几倍。 首先从计算量的角度来看,对于输入的 D 个 token,和输出 D 个token来说,FLOPs 都大约是 2ND,其中 N 为参数量。至于为什么 FLOPs 为什么是 2ND, 可以看这篇:学妹问:“反向传播的 2025-02-12 笔试面试 > AI算法 > nlp #nlp #笔试面试 #算法面试
公众号“看图学”试题合集(3) 1. tanh 和 sigmoid 什么关系?为什么 tanh 作为激活函数比 sigmoid 要好?sigmoid 的性质导致其导数全为正数,详细看:我用Sigmoid 作为激活函数,导师建议延毕,导致这样的其中一个原因(并不是全部的原因)是:sigmoid 的值的范围在 0-1 之间。 如果将 sigmoid 函数变成 zero centered, 那么其值就有正有负, sigmoid 收敛慢 2025-02-12 笔试面试 > AI算法 > nlp #nlp #笔试面试 #算法面试
公众号“看图学”试题合集(2) 1. 大模型的参数量为什么设计成 7B,13B,33B,65B 等如此怪异的数字?1.1 从推理出发很多答案都是从推理出发,认为之所以这么设计,是为了适配常见的显卡。 比如,采用半精度的话 7B 的模型参数占14G, 可以放到16G 的 T4 上 13B 的模型参数占26G, 可以放到 32G 的 V100 上 33B 的模型参数占66G, 可以放到 80G 的 A100 上 65B 的模型参数 2025-02-11 笔试面试 > AI算法 > nlp #nlp #笔试面试 #算法面试
公众号“看图学”试题合集(1) 1.如何让大模型输出合法的Json格式后处理最容易想到的当然是重试机制,在 Prompt 中要求 LLM 输出 json,拿到 LLM 的完整输出,判断是否是合法的 json。如果不是,则再重新生成一遍。 当然这里也有优化空间,比如可以通过 json parser 来判断解析到哪里出错了,重试的时候不需要从头输出了,而只需要从出错的地方往后输出即可。 比如 strict-json 库就采用的这种方 2025-02-10 笔试面试 > AI算法 > nlp #nlp #笔试面试 #算法面试
MiniCPM-V多模态模型源码解析-04:核心模块omnilmm.py 1. 导入模块123456789101112131415import gc # 垃圾回收模块import math # 数学计算模块import timm # 视觉模型库import torch # PyTorch深度学习框架from torch import Tensor # PyTorch中的张量类型import torch.nn as nn # PyTorch中的神经网络模块fr 2025-01-14 人工智能 > multi-modal #多模态 #llm #源码解析 #MiniCPM
MiniCPM-V多模态模型源码解析-03:模型推理详细流程 1. MiniCPM-V 推理流程图graph TD A[输入: 图像和文本] --> B[图像预处理] A --> C[文本预处理] B --> D[图像编码器 Vision Tower] C --> E[文本编码器 Tokenizer] D --> F[图像特征重采样 Resampler] E --> G[文本 2025-01-14 人工智能 > multi-modal #多模态 #llm #源码解析 #MiniCPM
MiniCPM-V多模态模型源码解析-02:模型训练详细流程 1. 详细训练流程graph TD A[输入: 图像和文本] --> B[图像预处理] A --> C[文本预处理] B --> D[图像编码器 Vision Tower] C --> E[文本编码器 Tokenizer] D --> F[图像特征重采样 Resampler] E --> G[文本特征编码] 2025-01-13 人工智能 > multi-modal #多模态 #llm #源码解析 #MiniCPM
MiniCPM-V多模态模型源码解析-01:整体代码结构及模块功能 MiniCPM-V 是一个多模态大模型项目,旨在处理图像和文本的联合任务。 1. 项目整体架构MiniCPM-V 项目主要由以下几个部分组成: 模型核心模块:负责处理多模态输入(图像和文本),并生成相应的输出。 数据处理模块:负责预处理图像和文本数据,将其转换为模型可以处理的格式。 训练模块:负责模型的训练和优化。 推理模块:负责模型的推理和生成。 工具模块:提供一些辅助功能,如日志记录、图像处 2025-01-13 人工智能 > multi-modal #多模态 #llm #源码解析 #MiniCPM
HTTP基础03:简单的HTTP协议 简单的 HTTP协议1. HTTP协议用于客户端和服务器端之间的通信 定义:HTTP协议用于客户端和服务器之间的通信。 角色:请求访问资源的一端称为客户端,提供资源响应的一端称为服务器端。 通信线路:在一条通信线路上,必定有一端是客户端,另一端是服务器端。 角色互换:在某些情况下,两台计算机可能会互换客户端和服务器端的角色,但在一条通信路线上,角色是确定的。 2. 通过请求和响应的交换达成通信 2025-01-02 计算机基础 > 计算机网络 #计算机网络 #计算机基础 #HTTP