余昌黔
构建能看、能懂、能创造的多模态 AI。
我在快手可灵AI负责 图像模型中心,统筹可灵AI全部图像基础模型的研发。研究方向聚焦 Diffusion 模型和视觉语言模型。华中科技大学博士(🏆 CSIG 全国优博),连续三年斯坦福全球前 2% 顶尖科学家。
作为 图像模型中心负责人,统筹可灵AI全部图像基础模型的研发与落地。当前重点方向:理解生成一体化——在统一架构中实现多模态理解与生成。
带领 Kling-Image-Omni 团队,构建大规模视觉生成与理解产品。核心交付包括 Kling-Image-O1——将视觉推理引入图像生成,以及 Kling-Image 3.0 & 3.0 Omni,可灵AI最新一代图像基础模型。
主导多模态 AI 研究。交付了 Skywork-VL-32B 视觉语言模型,以及 SkyReels 中的分镜生成大模型,驱动影视级镜头规划。同时构建了可扩展的 Diffusion(MoE)训练流水线,支持文生图。
自动配送部研究科学家,为自动配送车队开发轨迹预测和运动规划模型。提出的基于 Transformer 的预测模型部署在真实配送车上,服务百万级订单。
博士,研究方向为语义分割与全景分割。在 ECCV 2018 的 COCO & Mapillary 全景分割挑战赛中获得第一名。创建了 TorchSeg(2000+ GitHub star)。赴阿德莱德大学联合培养。在微软亚洲研究院(明日之星)和旷视科技实习。
我们正在构建理解生成一体化的多模态模型,并向视觉智能体(Visual Agentic Intelligence)延伸——让模型能看、能想、能行动。
- 理解生成一体化
- 视觉分词器与表征学习
- 视觉智能体
- 多模态数据与基建
我们持续招募优秀人才,欢迎联系! yuchangqian@kuaishou.com
- VQRAE [paper] — 面向多模态理解、生成与重建的表征量化自编码器。
- SkyReels-V1 — 以人为中心的视频基座模型。2700+ ⭐
- SkyReels-A1 [paper] — 基于视频 Diffusion Transformer 的表情肖像动画生成。500+ ⭐
- LiteHRNet [paper] — 轻量级高分辨率网络。900+ ⭐
- TorchSeg — PyTorch 语义分割代码库 — BiSeNet、DFN、DenseASPP 等。1400+ ⭐
-
2026
论文 GCPO (Group Chunking Policy Optimization) 于 5 月 1 日被 ICML 2026 接收。
-
2026
论文 CoTyle 被 CVPR 2026 接收为 Oral。
-
2026
论文 VQRAE 被 CVPR 2026 接收为 Poster。
- 2025