Multi-Modal Manipulation via Multi-Modal Policy Consensus

로봇은 다음과 같은 다양한 modality(RGB images, Point clouds, Tactile signals, Learned visual features)를 사용함. modality는 서로 보완적일 수 있고 (예: vision vs. touch), 중복될 수도 있음 (예: RGB-D vs. point cloud). 이를 효과적으로 통합하는 것은 여전히 어려운 문제

기존 방법들은 각 modality의 feature를 하나의 큰 벡터로 이어붙이는 방식을 사용함. 하지만 다음과 같은 한계를 가짐
- modality 간 기여도를 균형 있게 조절하는 원리가 없음
- 새로운 modality가 추가되거나 일부 modality가 사라질 경우 유연하게 대응하지 못함
- 결과적으로 suboptimal performance 발생 가능

또한 기존의 monolithic architecture는 새로운 센서가 추가될 경우나 기존 센서가 고장/누락될 경우 전체 모델을 다시 학습해야 함

따라서, 각 modality를 강제로 fusion하는 대신 각각을 distinct contributor로 취급하는 구조적 대안이 필요하다고 주장

논문에서는 compositional generative models에서 영감을 받아서, 로봇 policy를 하나의 monolithic policy 가 아닌 modality-specific experts로 factorization

여러 expert의 출력을 하나의 unified policy로 결합하기 위해 router network를 사용함. router는 학습 과정에서 consensus weights를 학습. 이 weight를 통해 각 expert의 기여도를 조절

Contribution

monolithic feature concatenation의 대안으로 modality-specific expert + learned consensus weights 구조 제안

RLBench multi-task simulation benchmark에서 성능 검증. physical perturbation, runtime disturbance, sensor corruption에 대한 robustness 검증

perturbation-based importance analysis 수행. task context 변화에 따라 modality 의존성이 어떻게 이동하는지 정량적으로 분석

Approach

Problem Formulation

dataset of expert demonstration
$\mathcal{D}=\{ (s_t,a_t) \}_{t=1}^T$
- $a_t$ : action at timestep t
- $s_t=\{m_{1,t}, m_{1,t}, … , m_{1,t} \}$ : N sensory modalities

$s_t$ 안의 각자다른 정보를 이용해서 $\pi(a_t|s_t)$ 를 학습하는것이 목표

각 modality $m_{i,t}$ 는 modality specific encoder를 통해서 latent embedding $e_{i,t}$ 인코딩됨. embedding $e_{i,t}$ 은 modality 정보 + robot state 정보 (joint angle, gripper status 등)를 포함함

$a_t$ (ground-truth action), $a$ (action 후보), $a^k$ (diffusion timestep k에서 noise가 추가된 action)

각 modality i 에 대해서 $K_i$ 개의 sub policy $p_{i,j}$ (parameter $\theta_{i,j}$ ) 를 학습. 각 sub policy에 대해서 energy function $E_{\theta_{i,j}} (a , m_{i,t})$ 와 diffusion score $\epsilon_{\theta_{i,j}}$ 을 정의
- modality index: i → $K_i$ 개의 sub policy $p_{i,j}$ 존재
- 각 sub-policy는 $p_{i,j}, \quad j = 1, ..., K_i$
- 각 sub-policy는 파라미터 $\theta_{i,j}$ 를 가짐

논문에서는 $K_i = 2$ 로 설정해서 complementary behavioral mode를 capture했다고 함

router network $R_ψ$ 는 embedding $e_{i,t}$ 를 consensus weight $w_i$ 에 매핑. softmax로 정규화됨 $\sum_i w_i = 1$

Energy-Based Policy Composition

policy는 energy fuction으로 봄. 낮은 energy는 선호되는 action, 높은 energy는 비선호 action. base policy $p_{i,j}(a∣m_{i,t})$ 는 다음과 같음.

p_{i,j}(a∣m_{i,t})∝exp(−E_{θ_{i,j}}(a,m_{i,t}))

이러한 policy들을 조합하는 것은 확률 분포를 곱하는 것과 동일. 에너지 관점에서는 에너지 합과 동일

router weight $\{ w_i \}$ 가 현재의 state에 따라서 각 modality의 영향을 결정함.

feature concatenation은 모든 modality를 shared network에 통과 → 통계적으로 드문 signal은 suppression 가능

논문에서 제안한 방식은 modality별 energy를 분리 유지. sparse하지만 중요한 신호가 유지됨 → energy function을 개별적으로 보존

Compositional Policy Factorization

policy를 두 단계로 factorize해서 inter/intra-modality structure를 포착하고자함

$p_i$ 는 composite policy for modality i, $p_{i,j}$ 는 complementary sub-policies(modality i 내부의 sub-policy, 서로 보완적인 behavioral mode를 담당). $w_i$ 는 router가 결정하는 weight

각 modality-specific policy는 최종 action에 대해 특정 behavioral constraint를 부과함

기존 Feature Concatenation은 모든 modality를 하나의 네트워크에 통과 sparse signal이 suppression될 수 있음

논문의 제안 방식은 $p_i$ 는 독립적으로 학습됨.,tactile처럼 드물지만 중요한 modality도 유지됨. 최종 영향력은 router weight $w_i$ 를 통해 조절됨

Score-Based Implementation via Diffusion Models

각 base policy $p_{i,j}$ 는 Denoising Diffusion Probabilistic Model (DDPM) 로 구현됨

Diffusion 모델은 score-matching energy-based model로 해석 가능. distribution 곱은 score 합으로 구현 가능

Intra-Modality Composition: 한 modality 내부 sub-policy들의 score 평균

Inter-Modality Composition: Router weight를 이용한 최종 score 계산

각 modality score는 gradient field 역할. router가 weight를 부여해 이 gradient들을 결합. energy-based composition과 diffusion score composition을 연결

Router Network

Router R_ψ는 modality-specific embeddings $\{e_i\}$ 를 consensus weights $\{w_i\}$ 로 매핑

weight들은 softmax로 정규화. $w_i > 0, \sum_i w_i = 1$ . modality의 상대적 영향력 의미

weight들이 역할. 각 expert의 action proposal을 조정

training 동안 학습됨, 실행 시 고정됨

Advantages Over Existing Fusion

논문에서 제시하는 장점은 다음과 같음
- Robustness to Sparsity: tactile처럼 드문 modality도 suppression되지 않음
- Modularity: expert 독립적 학습 가능, 새로운 modality 추가 시 전체 재학습 불필요
- Interpretability: $w_i$ 가 modality 영향력 직접 표현
- Principled Consensus: energy-based composition 원리에 기반, 단순 feature fusion이 아님

Experiment

논문은 다음 세 가지 연구 질문을 검증하기 위해 실험을 수행
- Modality sparsity가 존재하는 작업에서 compositional architecture가 feature-level fusion보다 성능이 좋은가?
- 모델이 context-dependent modality reliance를 학습하는가? 또한 새로운 expert를 재학습 없이 추가할 수 있는가?
- 정책이 physical perturbation, sensor corruption 상황에서도 robustness를 유지하는가?

Experimental Setup

Simulation
- Benchmark: RLBench
- 사용한 4개 task: open box, open drawer, take umbrella out of stand, toilet seat up
- Train: 200 demonstration episodes
- 평가: 200 unseen configurations

Real-World
- 로봇: UR5e manipulator
- 장비: dual cameras, tactile sensors
- 수행 task: occluded marker picking, spoon reorientation puzzle insertion
- 수집한 teleoperation demonstration 수
  - marker picking: 80
  - spoon reorientation: 60
  - puzzle insertion: 50

Sensory Modalities

Simulation
- 사용 modality:
  RGB images (2 cameras)
  Point Cloud (PCD)
  3D semantic features (pretrained DINO model로 추출)

Real-World
- RGB: Intel RealSense D415 2대, 해상도: 96 × 128
- Tactile: FlexiTac sensors
- 각 finger에 tactile pad 장착, 12 × 32 sensing units, 각 unit 공간 해상도: 2mm

Baselines

Simulation Baselines
- Single-modality policies:
  RGB-only
  PCD-only
  DINO-only
- Feature concatenation baseline
  모든 modality embedding을 결합
- Factorized MoE fusion
  soft routing 기반 mixture-of-experts

Real-World Baselines
- RGB-only policy
- RGB + Tactile feature concatenation

Metrics

Primary metric: Success rate

Secondary metric: Completion time (성공한 trial에 한해 측정)

Main Results

Simulation Performance
- 제안 방법의 평균 성공률: 66%
- Feature concatenation baseline: 56%
- 상대적 개선: 18%
- 파라미터 증가량: +0.7M (전체 대비 0.3% 증가). 매우 작은 파라미터 증가로 성능 향상을 달성했다고 보고

Real-World Performance
- 각 real-world task에서 가장 높은 성공률을 기록:
  Occluded Picking: 65%
  Spoon Reorientation: 75%
  Puzzle Insertion: 52%
- 성공한 trial 기준 평균 completion time도 가장 낮음

[AAAI 2026] Learning Diffusion Policy from Primitive Skills for Robot Manipulation (0)	2026.02.28
[CoRL 2025] Humanoid Policy ∼ Human Policy (2)	2026.02.22
[ICCV 2025] 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting (2)	2026.02.07
[CVPR 2025] OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints (1)	2026.01.31
[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction (2)	2026.01.26

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

거대고슴도치

Multi-Modal Manipulation via Multi-Modal Policy Consensus

Multi-Modal Manipulation via Multi-Modal Policy Consensus

Contribution

Approach

Experiment

'DL' 카테고리의 다른 글

'DL'의 다른글

티스토리툴바

Multi-Modal Manipulation via Multi-Modal Policy Consensus

Contribution

Approach

Experiment

'DL' 카테고리의 다른 글

'DL'의 다른글

관련글

티스토리툴바