随着深度学习技术的发展,人工智能正从单模态智能向多模态智能演进。视觉语言模型(VLM)作为连接视觉与语言的关键技术,已成为核心研究领域。针对VLM的技术演进历程,系统地综述它的架构发展,并总结该领域的核心技术和最新研究进展。首先,回顾VLM从早期探索到当前蓬勃发展的演进历程,分析关键技术节点和发展趋势,进而勾勒出以“架构发展”为核心主线的VLM技术发展图谱;其次,深入剖析当前VLM的基础技术,包括围绕视觉编码器、语言编码器和跨模态融合机制构建的核心架构,以及掩码语言建模(MLM)、掩码图像建模(MIM)和对比学习(CL)等关键预训练优化目标;同时,系统梳理当前VLM预训练所依赖的主流数据集如COCO和LAION-5B等;最后,对比分析代表性VLM,以阐明模型性能与数据规模、架构创新及训练策略间的关联,并评述相关核心技术的优势与局限性,从而为相关领域研究者提供全面的VLM技术图谱,助力把握发展脉络,并为未来研究提供参考与启发。