余昌黔
构建能看、能懂、能创造的多模态 AI。
我在快手可灵AI负责 图像模型中心,统筹可灵AI全部图像基础模型的研发。研究方向聚焦 Diffusion 模型和视觉语言模型。华中科技大学博士(🏆 CSIG 全国优博),连续三年斯坦福全球前 2% 顶尖科学家。
经历
快手可灵AI
2026.04 – Present
算法总监
作为 图像模型中心负责人,统筹可灵AI全部图像基础模型的研发与落地。当前重点方向:理解生成一体化——在统一架构中实现多模态理解与生成。
技术主管
带领 Kling-Image-Omni 团队,构建大规模视觉生成与理解产品。核心交付包括 Kling-Image-O1——将视觉推理引入图像生成,以及 Kling-Image 3.0 & 3.0 Omni,可灵AI最新一代图像基础模型。
昆仑万维(天工)
2023 – 2025
主导多模态 AI 研究。交付了 Skywork-VL-32B 视觉语言模型,以及 SkyReels 中的分镜生成大模型,驱动影视级镜头规划。同时构建了可扩展的 Diffusion(MoE)训练流水线,支持文生图。
美团
2021 – 2023
自动配送部研究科学家,为自动配送车队开发轨迹预测和运动规划模型。提出的基于 Transformer 的预测模型部署在真实配送车上,服务百万级订单。
华中科技大学
2016 – 2021
博士,研究方向为语义分割与全景分割。在 ECCV 2018 的 COCO & Mapillary 全景分割挑战赛中获得第一名。创建了 TorchSeg(2000+ GitHub star)。赴阿德莱德大学联合培养。在微软亚洲研究院(明日之星)和旷视科技实习。
团队招聘
我们正在构建理解生成一体化的多模态模型,并向视觉智能体(Visual Agentic Intelligence)延伸——让模型能看、能想、能行动。
- 理解生成一体化
- 视觉分词器与表征学习
- 视觉智能体
- 多模态数据与基建
我们持续招募优秀人才,欢迎联系! yuchangqian@kuaishou.com
开源项目
- CoTyle [demo] — CVPR 2026 Award Candidate。基于离散风格空间的开源 code-to-style 图像生成方法。
- VQRAE [paper] — 面向多模态理解、生成与重建的表征量化自编码器。
- SkyReels-V1 — 以人为中心的视频基座模型。2700+ ⭐
- SkyReels-A1 [paper] — 基于视频 Diffusion Transformer 的表情肖像动画生成。500+ ⭐
- LiteHRNet [paper] — 轻量级高分辨率网络。900+ ⭐
- TorchSeg — PyTorch 语义分割代码库 — BiSeNet、DFN、DenseASPP 等。1400+ ⭐
代表论文
查看全部 →
最新博客
查看全部 →
动态