语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传播、推理延迟和无法翻译无文字系统的语言等,因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上,详细分析和归纳了端到端S2ST的各种模型,综述了已有的相关技术,将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题,并重点探讨了现有工作是如何解决这三类问题的。大语言模型(LLM)强大的理解和生成能力为S2ST提供了新的可能性,同时也带来了更多的挑战。因此,讨论了LLM在S2ST中的应用,并设想了未来可能的发展方向。