ETH Zurich提出轻量级点云模型LitePT：参数少3.6倍，速度快2倍，性能超越SOTA！_财经

ETH Zurich提出轻量级点云模型LitePT：参数少3.6倍，速度快2倍，性能超越SOTA！

创始人

2025-12-20 00:42:48

0次

这是一篇新出的3D点云领域非常有意义的论文——《LitePT: Lighter Yet Stronger Point Transformer》。顾名思义，LitePT意为“更轻量但更强大的点云Transformer”，核心目标就是要在保持甚至超越现有最佳性能的同时，大幅度降低3D点云处理模型的参数量、运行速度和内存占用。在自动驾驶、机器人和AR/VR等对效率要求极高的应用场景中，模型的轻量化和高性能是至关重要的。

LitePT-S模型在参数、运行时长和内存占用上与现有SOTA模型的对比，及其在各类基准测试中的性能表现。

在3D点云处理的神经网络架构中，卷积层（Convolutional Layers）和注意力机制（Attention Blocks）常常并存。但它们俩到底该怎么配合，才能发挥最大作用，一直是个悬而未决的问题。传统的做法，比如当下最先进的Point Transformer V3 (PTv3)，通常在网络的每个层级都同时使用这两种操作。然而，这真的高效吗？LitePT的作者们对此进行了深入分析和实践探索，并给出了一个令人信服的答案。

论文标题: LitePT: Lighter Yet Stronger Point Transformer
作者机构: 苏黎世联邦理工学院；牛津大学；苏黎世大学
论文地址: https://arxiv.org/abs/2512.13689
项目主页: https://litept.github.io/
代码仓库（代码和模型已经开源啦）: https://github.com/prs-eth/LitePT

研究背景：卷积与注意力的“博弈”

在3D点云领域，如何有效地从无序点集中提取几何特征和语义信息，一直是研究热点。卷积层因其局部感受野和权值共享特性，在捕捉局部几何结构方面表现出色。而Transformer中引入的注意力机制，则能通过捕捉长距离依赖来建模全局上下文信息。近年来，结合二者的混合架构，尤其是以Point Transformer V3为代表的模型，在多个基准测试中取得了SOTA（State-of-the-Art）性能。

然而，这种“全都要”的设计也带来了效率上的挑战。卷积层可能在网络的深层阶段引入过多的参数，而注意力机制在早期的高分辨率点云数据上计算成本过高。这种资源消耗，尤其是在高分辨率点云数据上，往往得不偿失。论文作者们正是看到了这一点，才开始思考：有没有可能让卷积和注意力“各司其职”，在最适合自己的位置发挥最大作用呢？

核心发现：分层协同的智慧

通过对PTv3架构的深入分析，研究团队发现了一个非常直观但此前常被忽视的规律：

早期阶段：卷积是效率之选。在网络处理高分辨率点云的早期阶段，主要任务是提取局部几何特征。此时，卷积层以其天然的局部性归纳偏置，能够高效地完成任务。而注意力机制虽然也能达到类似效果，但由于点数众多，其二次方复杂度的计算成本变得异常昂贵，性价比不高。
深层阶段：注意力更显身手。随着网络层级加深，点云分辨率逐渐降低，通道维度增加，网络开始聚焦于捕捉高层语义和全局上下文。这时，注意力机制的优势就显现出来了，它能更有效地处理少量但信息丰富的token。而卷积层在此阶段则可能导致参数冗余。

这一发现为LitePT的设计提供了核心指导原则：在早期阶段使用卷积，在后期阶段切换到注意力。这就像是让专业的人做专业的事，在不同阶段选择最合适的工具。

图中展示了PTv3模型中参数数量和延迟的分布。上方子图显示PTv3中，条件位置编码（通过卷积块实现）占据了大部分参数，尤其是在后期阶段。相比之下，LitePT的PointROPE是无参数的。下方子图则揭示了PTv3中早期阶段注意力模块带来的显著延迟。LitePT将注意力限制在后期阶段，使其既有效又成本较低。

上图清晰地展示了PTv3模型中，卷积模块（特别是其实现位置编码的部分）在参数量上占据了主导，尤其是在深层阶段；而注意力模块则在早期阶段带来了巨大的计算延迟。LitePT正是抓住了这些痛点进行优化。

LitePT架构：轻量而强大的秘密武器

LitePT的模型设计遵循了经典的U-Net结构，并创造性地将其分阶段混合策略应用于编码器。它主要由两大部分组成：

分阶段定制计算块

相比于PTv3中通过卷积学习位置编码的方式，PointROPE的巨大优势在于它是完全无参数的，极大地降低了模型的复杂度和内存占用，并且天生对旋转操作友好。

LitePT-S的架构概览。模型包含五个阶段，早期阶段采用卷积块，后期阶段采用PointROPE增强的注意力块。LitePT-S使用轻量级解码器，而LitePT-S*则在解码器中对称地添加了卷积或注意力块。

上图展示了LitePT-S的整体架构，它清晰地描绘了编码器中卷积块和注意力块的分阶段应用，以及PointROPE在注意力块中的整合方式。

实验结果：效率与性能的“双丰收”

论文在多个主流的3D点云任务和数据集上对LitePT进行了详尽的实验，包括语义分割、实例分割和目标检测，验证了其卓越的效率和领先的性能。

效率对比：轻若鸿毛，快如闪电

最令人印象深刻的是LitePT-S与SOTA模型PTv3的效率对比。LitePT-S在参数量、运行速度和内存占用上实现了颠覆性的优化：

参数量：比PTv3少3.6倍 (12.7M vs 46.1M)。
运行速度：快2倍 (推理延迟 21ms vs 51ms)。
内存占用：少2倍 (2.0G vs 4.1G)。

不同模型在ScanNet数据集上的效率对比。

上表的效率对比数据进一步证实了LitePT在保持高性能的同时，能够大幅降低资源消耗。

策略有效性与最佳实践

论文还通过一系列消融实验验证了其分阶段混合策略的有效性：

性能-效率权衡分析。左图显示了在早期阶段逐渐减少注意力模块对性能和效率的影响；右图显示了在后期阶段逐渐减少卷积模块的影响。

上图直观地展示了随着注意力或卷积模块在不同阶段被移除时，模型性能和效率的变化趋势，从而验证了作者的阶段性设计假设。

PointROPE的决定性作用

PointROPE的消融实验也证实了其不可或缺性。移除PointROPE会导致mIoU性能显著下降2.6个百分点。这表明，即使是无参数的位置编码，也对捕捉3D点云的几何信息至关重要。

任务性能：全面领先或持平SOTA

语义分割：在NuScenes和Waymo等户外数据集上，LitePT-S相较于PTv3实现了显著的性能提升，mIoU提升1.8个百分点。在ScanNet和Structured3D等室内数据集上，LitePT-S在参数量远少于PTv3的情况下，性能与之持平或更优。特别是在更大的Structured3D数据集上，LitePT-S始终优于包括PTv3在内的所有竞争方法。