在5090上使用最新的流式生成的代码,不管是对话还是独白,首包在1s左右,总耗时要十多秒,150字左右的独白甚至耗时38s,这是正常的吗?请问有什么优化的办法?
在5090上使用最新的流式生成的代码,不管是对话还是独白,首包在1s左右,总耗时要十多秒,150字左右的独白甚至耗时38s,这是正常的吗?请问有什么优化的办法?