Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

不能复现对论文里对moshi的评测 #141

Closed
UltraEval opened this issue Dec 18, 2024 · 14 comments
Closed

不能复现对论文里对moshi的评测 #141

UltraEval opened this issue Dec 18, 2024 · 14 comments
Assignees

Comments

@UltraEval
Copy link

感谢开源👍🏻

在论文《Scaling speech-text pre-training with synthetic interleaved data》里
对moshi的评测,

image
其他模型的评测结果都可以复现,但是无法复现Moshi这个评测,可以分享下Moshi的推理吗?🙏🙏🙏

@tianzhangwu
Copy link

请问你这里测试时,输入音频是采用什么TTS工具合成的呢呢?不同TTS工具分数也会不同。

@Sengxian Sengxian assigned Sengxian and Btlmd and unassigned Sengxian Dec 25, 2024
@UltraEval
Copy link
Author

请问你这里测试时,输入音频是采用什么TTS工具合成的呢呢?不同TTS工具分数也会不同。

火山引擎seed TTS

我现在推理时,moshi基本上只回复“How are you”类似的开场白,偶尔能在开场白之后正式回复

@tianzhangwu
Copy link

不知道你有没有测试过开源出来的GLM-4-voice的效果?

@UltraEval
Copy link
Author

不知道你有没有测试过开源出来的GLM-4-voice的效果?

复现了,和论文里的结果基本一致

@tianzhangwu
Copy link

指的是3.69这个指标吗?

@tianzhangwu
Copy link

他们技术报告的结果是5.40,不知道你这里复现出来更接近哪一个啊
image

@UltraEval
Copy link
Author

我这里尝试用meloTTS和chattts分别测试过开源出来的GLM-4-voice,比他们论文里的结果要高一些,比技术报告里的分数要低。在4.5分上下。

Moshi我还没测过,不过之前看过知乎的讨论,这个模型经常不能正常回答问题。这里的现象看起来是prompt mismatch了。

Moshi 的推理好像有些问题,我之前要给他们提过issue, 还没有官方回复,有人说开源和论文里的不一样kyutai-labs/moshi#159

@UltraEval
Copy link
Author

他们技术报告的结果是5.40,不知道你这里复现出来更接近哪一个啊 image

是5.4这个,前面的Speech2Text虽然论文里是用Base模型,我使用开源的chat模型结果也差不多

@tianzhangwu
Copy link

谢谢,我估计可能是这个细节没对齐:
For a fair comparison with the English-only baseline models, we restrict the output of GLM-4-Voice to English tokens when evaluating the tasks reported in Table 6.

实测确实发现不少问英文,回答中文的case。

@UltraEval
Copy link
Author

谢谢,我估计可能是这个细节没对齐: For a fair comparison with the English-only baseline models, we restrict the output of GLM-4-Voice to English tokens when evaluating the tasks reported in Table 6.

实测确实发现不少问英文,回答中文的case。

这个情况我在review case的时候发现了,但是论文里的这个限制有点不合理,不过也无伤大雅。
这里的Knowledge也无法复现,因为是随机了100个数据;
UTMOS的测试llama-omni和论文里对不上,这里的有可能是使用音频数据问题,不过听了下Llama-Omni的音频问题还是很明显的生硬停顿,不知道为什么这么高分

@Btlmd
Copy link
Member

Btlmd commented Dec 26, 2024

我现在推理时,moshi基本上只回复“How are you”类似的开场白,偶尔能在开场白之后正式回复

这个我们会给 Moshi 的评测输入前拼接 3 秒的全空白输入,让 Moshi 完成开场白之后再提问

Moshi is fine-tuned for full duplex conversations and each conversation must begin with a greeting from
the model. Therefore, we wait 3 seconds for the greeting to end before asking the speech query. (Section 3.1)

@UltraEval
Copy link
Author

我现在推理时,moshi基本上只回复“How are you”类似的开场白,偶尔能在开场白之后正式回复

这个我们会给 Moshi 的评测输入前拼接 3 秒的全空白输入,让 Moshi 完成开场白之后再提问

Moshi is fine-tuned for full duplex conversations and each conversation must begin with a greeting from
the model. Therefore, we wait 3 seconds for the greeting to end before asking the speech query. (Section 3.1)

🙏🙏这个方法我也尝试过,但是输出还是只有开场白,你们使用的推理代码是 moshi/moshi/readme.md里吗?还是moshi/moshi/service.py?
image

@Btlmd
Copy link
Member

Btlmd commented Dec 27, 2024

我们的代码是修改了 commit d654de31 中 moshi/moshi/server.pyServerState.handle_chat 接口,直接在用户已有输入的基础上拼接了 3s 长度的空白音频

@UltraEval
Copy link
Author

发现使用拼接前面空白不够,还是需要在音频后面拼接空白

    def encode(self, audio_path):
        print(self.mimi.sample_rate)
        wav = load_wav(audio_path, self.mimi.sample_rate)
        current_length = wav.shape[-1]
        target_length = ((current_length - 1) // 1920 + 1) * 1920
        if current_length < target_length:
            # 如果长度不足,以零填充至目标长度
            padding = target_length - current_length
            wav = torch.nn.functional.pad(wav, (0, padding))
        wav = torch.nn.functional.pad(wav, (1920 * 50, 1920 * 100))
        wav = wav.unsqueeze(0)  # [B, T]

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants