目录
第一层:大模型本质(软件层面)
- 大模型 = 一个巨大的概率函数,核心操作是“根据上文猜下一个Token”。
- 物理实体:由几百GB到几TB的参数文件(一堆小数) + 几千行Python推理代码组成。
- 运行依赖:代码跑在PyTorch/TensorFlow等计算框架上,框架负责把数学运算翻译成GPU指令。
第二层:GPU硬件参数(物理层面)
| 参数 | 一句话作用 | 谁最关心 |
|---|---|---|
| 显存容量(VRAM) | 决定能不能装下模型(包括参数+KV Cache) | 个人玩家/小公司(单卡部署) |
| 显存带宽 | 决定生成Token的速度(低并发时是绝对瓶颈) | API服务商(响应延迟) |
| 算力(TFLOPS) | 决定高并发时的吞吐量(Batch大时是瓶颈) | 云厂商/大厂训练集群 |
| 多卡互联(NVLink) | 决定多卡协作效率(能否线性加速) | 训练千亿级模型的大厂 |
优先级排序(推理场景):
显存容量 > 显存带宽 > 算力 > 多卡互联
第三层:选型速查表(直接抄作业)
| 你的需求 | 推荐GPU | 关键理由 |
|---|---|---|
| 个人尝鲜(跑7B~13B模型) | RTX 3060 12GB / 4060Ti 16GB | 显存刚好够,价格亲民 |
| 极客玩家(跑70B量化版) | RTX 4090 24GB | 消费级天花板,推理速度飞快 |
| 企业级推理(稳定服务) | A100 80GB / H100 80GB | 支持ECC纠错+多卡互联,7×24小时不宕机 |
| 训练千亿级模型 | 数千张H100集群 | 算力+带宽+互联全部拉满 |
一句话终极总结(记这一句就够了)
大模型是“住”在GPU显存里的一个巨型数学函数,它的“体重”由显存容量决定,“语速”由显存带宽决定,“脑力”由算力决定。
0 条评论