余昌黔

余昌黔

构建能看、能懂、能创造的多模态 AI。

我在快手可灵AI带领 可灵图片多模态生成 团队,构建视觉理解与生成的多模态基座模型。研究方向聚焦 Diffusion 模型视觉语言模型华中科技大学博士(🏆 CSIG 全国优博),连续三年斯坦福全球前 2% 顶尖科学家。


经历

在快手可灵AI带领 Kling-Image-Omni 团队,构建大规模视觉生成与理解产品。核心交付包括 Kling-Image-O1——将视觉推理引入图像生成,以及 Kling-Image 3.0 & 3.0 Omni,可灵AI最新一代图像基础模型。

昆仑万维(天工)主导多模态 AI 研究。交付了 Skywork-VL-32B 视觉语言模型,以及 SkyReels 中的分镜生成大模型,驱动影视级镜头规划。同时构建了可扩展的 Diffusion(MoE)训练流水线,支持文生图。

美团自动配送部担任研究科学家,为自动配送车队开发轨迹预测和运动规划模型。提出的基于 Transformer 的预测模型部署在真实配送车上,服务百万级订单。

华中科技大学攻读博士,研究方向为语义分割与全景分割。在 ECCV 2018 的 COCO & Mapillary 全景分割挑战赛中获得第一名。创建了 TorchSeg(2000+ GitHub star)。赴阿德莱德大学联合培养。在微软亚洲研究院(明日之星)和旷视科技实习。

开源项目
  • VQRAE [paper] 面向多模态理解、生成与重建的表征量化自编码器。
  • SkyReels-V1 以人为中心的视频基座模型。2700+ ⭐
  • SkyReels-A1 [paper] 基于视频 Diffusion Transformer 的表情肖像动画生成。500+ ⭐
  • LiteHRNet [paper] 轻量级高分辨率网络。900+ ⭐
  • TorchSeg PyTorch 语义分割代码库 — BiSeNet、DFN、DenseASPP 等。1400+ ⭐
代表论文 查看全部 →
Scaling Diffusion Transformers to 16 Billion Parameters
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang
arXiv arXiv 代码
Scalable Diffusion Models with State Space Backbone
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
arXiv arXiv 代码
BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation
Changqian Yu, Changxin Gao†, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang
IJCV ESI Highly Cited Paper 1900+ 引用 论文 arXiv 代码
Lite-HRNet: A Lightweight High-Resolution Network
Changqian Yu, Bin Xiao, Changxin Gao, Lu Yuan, Lei Zhang, Nong Sang, Jingdong Wang
CVPR 600+ 引用 论文 arXiv 代码
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
Changqian Yu*, Jingbo Wang*, Chao Peng, Changxin Gao†, Gang Yu, Nong Sang
ECCV ECCV 2018 Top-10 Influential Papers 3700+ 引用 论文 arXiv 代码
Learning a Discriminative Feature Network for Semantic Segmentation
Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang
CVPR 1000+ 引用 论文 arXiv 代码
最新博客 查看全部 →
2026-02-26 General

Hello World: A New Beginning

Welcome to my new blog. I'll be sharing thoughts on AI research, engineering insights, and lessons learned from building large-scale models.

动态