关于 use cross-face 训练 #33

sunjian2015 · 2024-12-25T11:12:50Z

我看论文中有 “use cross-face (e.g., reference images are sourced from video frames outside the training frames) as inputs with probability β” 这种训练方法，想问一下，如果使用训练帧之外的图像作为参考图像，这就不是同一个 id 了，loss 怎么计算呢？

SHYuanBest · 2024-12-25T12:14:02Z

感谢关注。我们的数据pipeline会使用yolo+sam2为视频中每一帧的同一个人打上唯一的id标注，cross face loss只会选取训练帧之外的同一个id标注的参考图像进行loss计算。

sunjian2015 · 2024-12-26T03:57:01Z

感谢关注。我们的数据pipeline会使用yolo+sam2为视频中每一帧的同一个人打上唯一的id标注，cross face loss只会选取训练帧之外的同一个id标注的参考图像进行loss计算。

明白了，感谢您的回复。另外，计算 loss 的时候，我看代码中是这么写的

model_pred = scheduler.get_velocity(model_output, noisy_video_latents, timesteps)
...
target = video_latents
...
loss = (weights * (model_pred - target) ** 2).reshape(batch_size, -1)

这里有些不大明白，scheduler.get_velocity 不应该是根据 video_latents 和 noise 获取 target_v 吗？这里的 model_pred 不是 v 吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 use cross-face 训练 #33

关于 use cross-face 训练 #33

sunjian2015 commented Dec 25, 2024

SHYuanBest commented Dec 25, 2024

sunjian2015 commented Dec 26, 2024

关于 use cross-face 训练 #33

关于 use cross-face 训练 #33

Comments

sunjian2015 commented Dec 25, 2024

SHYuanBest commented Dec 25, 2024

sunjian2015 commented Dec 26, 2024