5090推理耗时很久

在5090上使用最新的流式生成的代码，不管是对话还是独白，首包在1s左右，总耗时要十多秒，150字左右的独白甚至耗时38s，这是正常的吗？请问有什么优化的办法？