余昌黔

余昌黔

构建能看、能懂、能创造的多模态 AI。

我在快手可灵AI带领 可灵图片多模态生成 团队，构建视觉理解与生成的多模态基座模型。研究方向聚焦 Diffusion 模型和视觉语言模型。华中科技大学博士（🏆 CSIG 全国优博），连续三年斯坦福全球前 2% 顶尖科学家。

经历

Present

Kling

在快手可灵AI带领 Kling-Image-Omni 团队，构建大规模视觉生成与理解产品。核心交付包括 Kling-Image-O1——将视觉推理引入图像生成，以及 Kling-Image 3.0 & 3.0 Omni，可灵AI最新一代图像基础模型。

2023 – 2025

Kunlun/Skywork

在昆仑万维（天工）主导多模态 AI 研究。交付了 Skywork-VL-32B 视觉语言模型，以及 SkyReels 中的分镜生成大模型，驱动影视级镜头规划。同时构建了可扩展的 Diffusion（MoE）训练流水线，支持文生图。

2021 – 2023

Meituan

在美团自动配送部担任研究科学家，为自动配送车队开发轨迹预测和运动规划模型。提出的基于 Transformer 的预测模型部署在真实配送车上，服务百万级订单。

2016 – 2021

HUST

在华中科技大学攻读博士，研究方向为语义分割与全景分割。在 ECCV 2018 的 COCO & Mapillary 全景分割挑战赛中获得第一名。创建了 TorchSeg（2000+ GitHub star）。赴阿德莱德大学联合培养。在微软亚洲研究院（明日之星）和旷视科技实习。

开源项目

VQRAE [paper] — 面向多模态理解、生成与重建的表征量化自编码器。
SkyReels-V1 — 以人为中心的视频基座模型。2700+ ⭐
SkyReels-A1 [paper] — 基于视频 Diffusion Transformer 的表情肖像动画生成。500+ ⭐
LiteHRNet [paper] — 轻量级高分辨率网络。900+ ⭐
TorchSeg — PyTorch 语义分割代码库 — BiSeNet、DFN、DenseASPP 等。1400+ ⭐

代表论文查看全部 →

Scaling Diffusion Transformers to 16 Billion Parameters

Scaling Diffusion Transformers to 16 Billion Parameters

Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

arXiv arXiv 代码

Scalable Diffusion Models with State Space Backbone

Scalable Diffusion Models with State Space Backbone

Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang

arXiv arXiv 代码

BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation

BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation

Changqian Yu, Changxin Gao†, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang

IJCV ESI Highly Cited Paper 1900+ 引用论文 arXiv 代码

Lite-HRNet: A Lightweight High-Resolution Network

Lite-HRNet: A Lightweight High-Resolution Network

Changqian Yu, Bin Xiao, Changxin Gao, Lu Yuan, Lei Zhang, Nong Sang, Jingdong Wang

CVPR 600+ 引用论文 arXiv 代码

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

Changqian Yu*, Jingbo Wang*, Chao Peng, Changxin Gao†, Gang Yu, Nong Sang

ECCV ECCV 2018 Top-10 Influential Papers 3700+ 引用论文 arXiv 代码

Learning a Discriminative Feature Network for Semantic Segmentation

Learning a Discriminative Feature Network for Semantic Segmentation

Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

CVPR 1000+ 引用论文 arXiv 代码

最新博客查看全部 →

2026-02-26 General

Hello World: A New Beginning

Welcome to my new blog. I'll be sharing thoughts on AI research, engineering insights, and lessons learned from building large-scale models.

动态

2025
论文 VQRAE 被 CVPR 2026 录用。
2025
论文 CoTyle 被 CVPR 2026 录用。
2025
荣获中国电子学会科学技术奖——自然科学奖二等奖