Other

报告信息

个人简介与照片:https://mmcheng.net/cmm

高效能个性化图像生成

以大模型为代表的多模态图像生成技术可以有效地根据文本信息生成高质量的图像。然而,现有多模态生成技术在模型训练和个性化生成方面表现出较低的效率。例如,作为最近AI顶流的Sora模型虽然可以生成数十秒的流畅视频,但其训练代价相当高。Sora核心组件Difussion Transformer (DiT) 经常需要数十万次地迭代训练才能生成高质量的图像。此外,在图像生成中引入个性化的信息虽然富有吸引力,但是经典通过模型微调的形式经常耗费数十分钟才能得到高质量的结果。这些问题给生成式模型的大规模推广造成了障碍。本报告将介绍如何通过引入结构信息建模能力和个性化信息编码能力,有效地避免上述问题,并将该领域主流方法的性能提升2个数量级以上。

[pptx, 104MB]

粒度自适应的图像感知技术

图像中蕴含着丰富的多粒度信息。不论是简单的分类任务,还是更加复杂的目标检测、语义分割、物体跟踪、姿态估计等,几乎所有的视觉感知任务都需要丰富的多粒度信息的共同配合才能够进行鲁棒的判断。卷积神经网络中,小尺度信息可以通过卷积操作进行高效的建模,大尺度特征的建模通常计算量需求较大。本报告面向视觉感知任务需求,重点介绍如何高效地提取多粒度信息,并且通过神经网络架构高效搜索的方式对神经网络中的不同层自适应地选择特征提的粒度。本报告所介绍的粒度自适应视觉感知技术在多种计算机视觉任务中展现出了优越的性能,包括但不限于:图像分类、目标检测、语义分割、实例分割、关键点估计等。这些技术的应用范围也不局限于视觉信息处理,也被众多国际同行应用在语音合成、蛋白质结构预测、对抗样本鲁棒性研究等领域。

[带视频讲解45min PPT,911MB]

算力自适应与数据自适应的图像感知

从图像中快速准确地获取目标信息是计算机视觉的核心任务。计算层面,受体积、功耗等限制,智能算法如何适应这些算力受限设备至关重要。数据层面,许多现实应用无法收集足够标注,传统依赖数据覆盖目标场景的模式不可用。为了解决这些问题,急需设计算力自适应和数据自适应能力强的图像感知算法。本报告将介绍设备特性敏感的高效神经网络架构搜索技术,仅通过一次训练,就可以通过设备敏感的算子延时查找表得到适用于各种设备特性的高效模型。此外,为了适应许多现实任务中标注数据不足的问题,本报告还将讨论如何利用通用属性知识实现弱监督和无监督的像素级图像感知技术。

[45min PPT]

Granularity adaptive image scene understanding

Images contain rich multi-granularity information. Whether a simple classification task or more complex object detection, semantic segmentation, object tracking, pose estimation, etc., almost all visual perception tasks require the cooperation of rich multi-granularity information to make robust judgments. In convolutional neural networks, small-scale information can be efficiently modeled through convolution operations, and the modeling of large-scale features usually requires a large amount of computation. This talk is oriented to the needs of visual perception tasks. It focuses on how to extract and fuse multi-granularity information efficiently and adaptively. An efficient neural network architecture search for selecting the granularity of feature extraction for different layers will also be introduced. The granular adaptive visual perception technology introduced in this report has demonstrated superior performance in various computer vision tasks, including but not limited to: image classification, object detection, semantic segmentation, instance segmentation, key point estimation, etc. The scope of these technologies is not limited to visual information processing. Still, it has also been applied by many international colleagues in speech synthesis, protein structure prediction, and the robustness of adversarial examples.

[Slides with voice-over, 108MB, 50min]

学术诚信与写作规范

科技创新总是建立在前人的研究基础上,通过不断突破与创新,推动科学的进步。科技论文和专著作为传递这些最新成果的关键媒介,其撰写过程必须严格遵循学术诚信和规范。在撰写科技论文时,我们既要充分尊重并引用他人的研究成果,也要准确、客观地呈现自己的科学发现。维护学术诚信、遵循学术规范,对于保障学术生态的健康有序发展至关重要。对于初涉科研领域的学生而言,深入了解学术规范是开启创新之旅的必备前提。本报告旨在全面阐述学术规范的具体要求,剖析常见问题,并通过实际案例加以说明。特别地,报告还列举了多种因疏忽大意而非主观故意导致的学术不端行为案例,旨在提醒学生们在科研活动中始终保持警惕,养成良好的学术习惯,有效规避学术规范相关的风险。

(Visited 830 times, 1 visits today)
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments