liulong 889c9232fb feat:镭射新链路,旧链路清理,迁移脚本

2026-05-29 12:35:37 +08:00

10 KiB

Raw Blame History

rembg 通用抠图自建方案 — 技术调研与可行性

非总方案文档。 镭射卡 DDL / API / 实施以 2026-05-25-laser-card-refactor-design.md 为准。
创建日期： 2026-05-24
状态： 仅调研，本期不落地（镭射人像抠图走魔搭 RMBG-2.0） 目标读者： 后端 / 算法 / 运维 / 产品

一、背景与触发动机

镭射卡重构方案（§七）将抠图能力从客户端直连阿里云 IVPD 迁移到服务端代理。本期实现继续对接阿里云 IVPD SegmentImage，但评审反馈指出两点局限：

IVPD 通用分割对异形主体精度不稳定：头发丝、镂空、半透明物体（例如吧唧、贴纸、徽章）抠图边缘易残留色斑或缺口。
吧唧生成器（规划中） 等后续创作工坊也需要抠图能力，类型不再局限于人像，需要更灵活的模型路由。

rembg（danielgatis/rembg）是开源的背景移除工具链，封装了 U^2-Net / ISNet / BiRefNet 等主流分割模型，支持本地或 GPU 服务部署。本文调研其作为 TopFans 通用抠图能力的可行性。

⚠️ 本期不实施。本文档目的是为后续吧唧生成器、高质量抠图选项预留技术路径，避免镭射卡接口设计锁死。

二、rembg 能力概览

2.1 项目信息

项	内容
GitHub	https://github.com/danielgatis/rembg
Star（2026-05）	18k+
License	MIT
语言	Python 3.10+
部署形态	CLI / HTTP Server / Python SDK
推理后端	ONNX Runtime（CPU / CUDA / CoreML / DirectML）

2.2 内置模型矩阵

模型	体积	训练域	适用主体	速度（T4 GPU）
`u2net`	176MB	通用前景	人像、宠物、产品图	~150ms / 1024²
`u2netp`	4.7MB	通用前景（轻量版）	同上，精度略降	~60ms
`u2net_human_seg`	176MB	人像专精	人像	~150ms
`u2net_cloth_seg`	176MB	服饰分块	衣物图（上/下/全身）	~150ms
`silueta`	43MB	轻量人像	移动端友好	~70ms
`isnet-general-use`	178MB	通用前景（DIS）	吧唧、徽章、贴纸等异形 ✅	~180ms
`isnet-anime`	178MB	二次元	IP 形象、动画头像	~180ms
`birefnet-general`	885MB	SOTA 通用	高质量发丝/透明物	~400ms
`birefnet-general-lite`	178MB	SOTA 轻量	平衡精度与速度	~200ms
`birefnet-portrait`	885MB	SOTA 人像	大头照精修	~400ms
`birefnet-massive`	885MB	复杂场景	多主体、遮挡场景	~400ms

镭射卡人像主路径推荐 u2net_human_seg；吧唧 / 异形推荐 isnet-general-use 或 birefnet-general-lite。

2.3 关键特性

服务端 HTTP 模式：rembg s --port 7000，POST /api/remove 直接返回 PNG。
批处理 / 文件夹模式：CLI rembg p input/ output/。
alpha 通道精修：--alpha-matting 启用 trimap-free matting，发丝级别更细。
后处理：--only-mask 返回纯 mask；可选 --post-process-mask 平滑边缘。
多模型同进程：可在同一进程加载多个模型，按请求路由。

三、与 IVPD 的对比

3.1 能力对比

维度	阿里云 IVPD `SegmentImage`	rembg（自建）
主体类型	通用，人像优	多模型按场景选择
精度	人像 9/10，异形 6/10	取决于模型；BiRefNet 系列 ≈ 9/10（全场景）
发丝/半透明	边缘普通	`alpha-matting` 后接近商用 PS 抠图
吧唧/异形	偶发残缺	`isnet-general-use` 显著更好
二次元/IP 形象	不擅长	`isnet-anime` 专属模型
接口稳定性	服务级 SLA 99.9%	自建需自行保障
吞吐弹性	按需扩容	GPU 实例固定上限
冷启动	无	模型加载 5-15s（首次）
审计	控制台日志	完全自控（结构化日志）
网络依赖	必须外网	可内网部署

3.2 成本对比（量化）

假设：日均抠图请求量 = N

维度	IVPD	rembg 自建（T4 GPU + 4 vCPU + 16GB）
变动成本	≈ ¥0.02/次	接近 0（电费忽略）
固定成本	0	≈ ¥2,000 / 月（阿里云 GN6i T4 抢占式实例）
盈亏平衡点	—	N ≈ 3,300 张/日
峰值吞吐	弹性	T4 单卡 ~10 QPS（U2Net），~3 QPS（BiRefNet）
运维人力	0	≈ 0.2 人月（监控/模型更新）

结论：日均 < 3,000 张时 IVPD 更划算；> 5,000 张或对精度有强需求时自建更优。

四、可行性评估

4.1 技术可行性 ✅

ONNX Runtime CUDA 后端在 T4 / A10 上跑通 U2Net / ISNet / BiRefNet 均无障碍
rembg 已有 Docker 镜像 danielgatis/rembg:latest-gpu（基于 nvidia/cuda 11.8）
HTTP 接口契约简单（multipart file 字段，PNG 返回），可直接被 Go 网关代理调用
模型权重一次性下载（首次启动 ≈ 1.5GB 流量），后续可挂载到 PVC 复用

4.2 风险与挑战

风险	等级	缓解
GPU 资源紧缺（阿里云 T4 抢占式偶发被回收）	中	双 AZ 部署 / 准备 CPU 兜底节点（U2NetP，~600ms/图）
模型更新断更（rembg 主仓更新频率有时下降）	低	模型权重独立托管在 OSS，与代码解耦
License 边界（部分预训练权重为研究用途）	中	商用前逐一审查：U2Net Apache 2.0 ✅；BiRefNet MIT ✅；ISNet Apache 2.0 ✅
冷启动延迟	低	预热加载常用模型；首次请求超时由网关重试覆盖
图片合规	高	前置 OSS bucket 已做合规扫描；自建链路同样接入审核
私有部署运维	中	增加 0.2 人月监控（GPU 利用率、显存、推理延迟 P99）

4.3 与现有架构契合度

flowchart LR
  C[客户端] -->|POST /api/v1/segment| GW[Gin 网关]
  GW -->|scene=portrait| IVPD[阿里云 IVPD]
  GW -.->|scene=bajis/sticker（未来）.-> RB[rembg GPU Service]
  IVPD --> OSS[(OSS bucket)]
  RB -.-> OSS
  OSS --> RES[返回 oss_key + signed_url]

关键设计要求（指导本期镭射卡接口）：

服务端接口必须保留 scene 字段 —— 即便本期仅 scene=portrait 走 IVPD，也要在 schema 中预留 scene 枚举位，为未来 bajis / sticker 接 rembg 留路。
响应必须返回 oss_key —— 而不是直接返回阿里云域名 URL，避免后续切换后端时影响前端缓存逻辑。
熔断粒度按 backend 分 —— provider=ivpd 与 provider=rembg 独立熔断阈值。

五、推荐演进路径（仅供规划）

Phase 1（本期，2026-05~06）

镭射卡服务端代理上线，仅对接 IVPD SegmentImage
接口 schema 预留 scene 字段，但只接受 scene=portrait
不部署 rembg

Phase 2（吧唧生成器立项时，时间未定）

部署 1 个 T4 GPU 节点，运行 rembg isnet-general-use + birefnet-general-lite
扩展 scene=bajis / scene=sticker
流量灰度：5% → 20% → 100%
与 IVPD 做 A/B：对同一图片双跑，人工标注 200 张验证质量

Phase 3（成本拐点 / 高精度需求）

镭射卡人像引入 scene=portrait_hd，路由到 BiRefNet
IVPD 降级为兜底（rembg 熔断时回退）
评估部署到自有 IDC（数据合规要求强时）

六、Phase 2 部署技术要点（参考用，本期不实施）

6.1 部署拓扑

# rembg-deployment.yaml（K8s 参考）
apiVersion: apps/v1
kind: Deployment
metadata:
  name: rembg-server
spec:
  replicas: 1
  template:
    spec:
      nodeSelector:
        accelerator: nvidia-t4
      containers:
        - name: rembg
          image: danielgatis/rembg:latest-gpu
          args: ["s", "--host", "0.0.0.0", "--port", "7000"]
          resources:
            limits:
              nvidia.com/gpu: 1
              memory: 12Gi
          volumeMounts:
            - mountPath: /root/.u2net
              name: model-cache
          readinessProbe:
            httpGet:
              path: /api
              port: 7000
            initialDelaySeconds: 30
      volumes:
        - name: model-cache
          persistentVolumeClaim:
            claimName: rembg-models-pvc

6.2 网关代理实现要点（Go 伪代码）

// gateway/controller/segment_controller.go
func (c *SegmentController) Portrait(ctx *gin.Context) {
    scene := ctx.DefaultPostForm("scene", "portrait")
    provider := pickProvider(scene)
    // provider 路由策略：
    // - portrait        -> ivpd
    // - portrait_hd     -> rembg/birefnet-portrait (Phase 3)
    // - bajis / sticker -> rembg/isnet-general-use (Phase 2)
    switch provider {
    case "ivpd":
        c.proxyToIVPD(ctx)
    case "rembg":
        c.proxyToRembg(ctx, modelForScene(scene))
    }
}

6.3 监控指标

指标	类型	告警阈值
`segment_request_total{provider}`	counter	—
`segment_duration_seconds{provider}`	histogram	P99 > 5s
`segment_error_total{provider, code}`	counter	5xx 率 > 5% / 5min
`rembg_gpu_utilization`	gauge	持续 > 90%
`rembg_gpu_memory_used`	gauge	> 80% 显存
`rembg_queue_depth`	gauge	> 20（堆积）

七、决策清单

决策项	推荐	状态
镭射卡本期是否接 rembg	否，仅 IVPD	已决
接口是否预留 `scene` 字段	是	已决，写入镭射卡设计 §七
Phase 2 启动条件	吧唧生成器立项或日均 > 5000 张抠图	待评审
rembg 优先模型	`isnet-general-use`（异形）+ `u2net_human_seg`（人像兜底）	待评审
部署形态	K8s Deployment，1×T4 GPU 起步	待评审
与 IVPD 的关系	并行 + 按 scene 路由，互为熔断兜底	已决

八、参考资料

rembg GitHub：https://github.com/danielgatis/rembg
U^2-Net 论文：https://arxiv.org/abs/2005.09007
BiRefNet 论文：https://arxiv.org/abs/2401.03407
DIS (ISNet) 论文：https://arxiv.org/abs/2203.03041
阿里云 IVPD 文档：https://help.aliyun.com/product/134618.html
ONNX Runtime CUDA 部署：https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html

文档结束。 本期镭射卡重构请参考 2026-05-18-laser-card-refactor-design.md §七中的 IVPD 单一对接方案；rembg 议题将在吧唧生成器立项或抠图量达阈值后另立 RFC 推进。

10 KiB Raw Blame History Unescape Escape