余昌黔

构建能看、能懂、能创造的多模态 AI。

我在快手可灵AI负责 图像模型中心，统筹可灵AI全部图像基础模型的研发。研究方向聚焦 Diffusion 模型和视觉语言模型。华中科技大学博士（🏆 CSIG 全国优博），连续三年斯坦福全球前 2% 顶尖科学家。

经历

作为 图像模型中心负责人，统筹可灵AI全部图像基础模型的研发与落地。当前重点方向：理解生成一体化——在统一架构中实现多模态理解与生成。

带领 Kling-Image-Omni 团队，构建大规模视觉生成与理解产品。核心交付包括 Kling-Image-O1——将视觉推理引入图像生成，以及 Kling-Image 3.0 & 3.0 Omni，可灵AI最新一代图像基础模型。

主导多模态 AI 研究。交付了 Skywork-VL-32B 视觉语言模型，以及 SkyReels 中的分镜生成大模型，驱动影视级镜头规划。同时构建了可扩展的 Diffusion（MoE）训练流水线，支持文生图。

自动配送部研究科学家，为自动配送车队开发轨迹预测和运动规划模型。提出的基于 Transformer 的预测模型部署在真实配送车上，服务百万级订单。

博士，研究方向为语义分割与全景分割。在 ECCV 2018 的 COCO & Mapillary 全景分割挑战赛中获得第一名。创建了 TorchSeg（2000+ GitHub star）。赴阿德莱德大学联合培养。在微软亚洲研究院（明日之星）和旷视科技实习。

团队招聘

我们正在构建理解生成一体化的多模态模型，并向视觉智能体（Visual Agentic Intelligence）延伸——让模型能看、能想、能行动。

我们持续招募优秀人才，欢迎联系！ yuchangqian@kuaishou.com

开源项目

代表论文查看全部 →

Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu†, Guoliang Kang†

CVPR CVPR 2026 Award Candidate 论文 arXiv 代码演示

Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

arXiv 49 引用 arXiv 代码

Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

arXiv 49 引用 arXiv 代码

Changqian Yu, Changxin Gao†, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang

IJCV ESI Highly Cited Paper 1592 引用论文 arXiv 代码

Changqian Yu, Bin Xiao, Changxin Gao, Lu Yuan, Lei Zhang, Nong Sang, Jingdong Wang

CVPR 405 引用论文 arXiv 代码

Changqian Yu*, Jingbo Wang*, Chao Peng, Changxin Gao†, Gang Yu, Nong Sang

ECCV ECCV 2018 Top-10 Influential Papers 2670 引用论文 arXiv 代码

最新博客查看全部 →

Welcome to my new blog. I'll be sharing thoughts on AI research, engineering insights, and lessons learned from building large-scale models.

动态

2026
论文 GCPO (Group Chunking Policy Optimization) 于 5 月 1 日被 ICML 2026 接收。
2026
论文 CoTyle 入选 CVPR 2026 Award Candidate。代码 · Demo · 可灵公众号宣传稿。
2026
论文 VQRAE 被 CVPR 2026 接收为 Poster。
2025
荣获中国电子学会科学技术奖——自然科学奖二等奖