DL

Multi-Modal Manipulation via Multi-Modal Policy Consensus

gomduribo 2026. 2. 16. 21:19

Multi-Modal Manipulation via Multi-Modal Policy Consensus

  • 로봇은 다음과 같은 다양한 modality(RGB images, Point clouds, Tactile signals, Learned visual features)를 사용함. modality는 서로 보완적일 수 있고 (예: vision vs. touch), 중복될 수도 있음 (예: RGB-D vs. point cloud). 이를 효과적으로 통합하는 것은 여전히 어려운 문제
  • 기존 방법들은 각 modality의 feature를 하나의 큰 벡터로 이어붙이는 방식을 사용함. 하지만 다음과 같은 한계를 가짐
    • modality 간 기여도를 균형 있게 조절하는 원리가 없음
    • 새로운 modality가 추가되거나 일부 modality가 사라질 경우 유연하게 대응하지 못함
    • 결과적으로 suboptimal performance 발생 가능

  • 또한 기존의 monolithic architecture는 새로운 센서가 추가될 경우나 기존 센서가 고장/누락될 경우 전체 모델을 다시 학습해야 함

  • 따라서, 각 modality를 강제로 fusion하는 대신 각각을 distinct contributor로 취급하는 구조적 대안이 필요하다고 주장
  • 논문에서는 compositional generative models에서 영감을 받아서, 로봇 policy를 하나의 monolithic policy 가 아닌 modality-specific experts로 factorization
  • 여러 expert의 출력을 하나의 unified policy로 결합하기 위해 router network를 사용함. router는 학습 과정에서 consensus weights를 학습. 이 weight를 통해 각 expert의 기여도를 조절

Contribution

  • monolithic feature concatenation의 대안으로 modality-specific expert + learned consensus weights 구조 제안
  • RLBench multi-task simulation benchmark에서 성능 검증. physical perturbation, runtime disturbance, sensor corruption에 대한 robustness 검증
  • perturbation-based importance analysis 수행. task context 변화에 따라 modality 의존성이 어떻게 이동하는지 정량적으로 분석

Approach

Problem Formulation

  • dataset of expert demonstration
    D={(st,at)}t=1T\mathcal{D}=\{ (s_t,a_t) \}_{t=1}^T
    • ata_t: action at timestep t
    • st={m1,t,m1,t,,m1,t}s_t=\{m_{1,t}, m_{1,t}, … , m_{1,t} \} : N sensory modalities

  • sts_t 안의 각자다른 정보를 이용해서 π(atst)\pi(a_t|s_t) 를 학습하는것이 목표
  • 각 modality mi,t m_{i,t} 는 modality specific encoder를 통해서 latent embedding ei,te_{i,t} 인코딩됨. embedding ei,te_{i,t} 은 modality 정보 + robot state 정보 (joint angle, gripper status 등)를 포함함

  • ata_t (ground-truth action), aa (action 후보), aka^k (diffusion timestep k에서 noise가 추가된 action)
  • 각 modality i 에 대해서 KiK_i 개의 sub policy pi,jp_{i,j} (parameter θi,j\theta_{i,j}) 를 학습. 각 sub policy에 대해서 energy function Eθi,j(a,mi,t)E_{\theta_{i,j}} (a , m_{i,t}) 와 diffusion score ϵθi,j\epsilon_{\theta_{i,j}} 을 정의
    • modality index: i → KiK_i 개의 sub policy pi,jp_{i,j} 존재
    • 각 sub-policy는 pi,j,j=1,...,Ki p_{i,j}, \quad j = 1, ..., K_i
    • 각 sub-policy는 파라미터 θi,j\theta_{i,j} 를 가짐
  • 논문에서는 Ki=2K_i = 2 로 설정해서 complementary behavioral mode를 capture했다고 함
  • router network RψR_ψ​ 는 embedding ei,te_{i,t} 를 consensus weight wiw_i 에 매핑. softmax로 정규화됨 iwi=1 \sum_i w_i = 1

Energy-Based Policy Composition

  • policy는 energy fuction으로 봄. 낮은 energy는 선호되는 action, 높은 energy는 비선호 action. base policypi,j(ami,t) p_{i,j}(a∣m_{i,t}) 는 다음과 같음.
pi,j(ami,t)exp(Eθi,j(a,mi,t))p_{i,j}(a∣m_{i,t})∝exp(−E_{θ_{i,j}}(a,m_{i,t}))
  • 이러한 policy들을 조합하는 것은 확률 분포를 곱하는 것과 동일. 에너지 관점에서는 에너지 합과 동일

  • router weight {wi}\{ w_i \} 가 현재의 state에 따라서 각 modality의 영향을 결정함.
  • feature concatenation은 모든 modality를 shared network에 통과 → 통계적으로 드문 signal은 suppression 가능
  • 논문에서 제안한 방식은 modality별 energy를 분리 유지. sparse하지만 중요한 신호가 유지됨 → energy function을 개별적으로 보존

Compositional Policy Factorization

  • policy를 두 단계로 factorize해서 inter/intra-modality structure를 포착하고자함
  • pip_i는 composite policy for modality i, pi,j p_{i,j} 는 complementary sub-policies(modality i 내부의 sub-policy, 서로 보완적인 behavioral mode를 담당). wiw_i  는 router가 결정하는 weight
  • 각 modality-specific policy는 최종 action에 대해 특정 behavioral constraint를 부과함
  • 기존 Feature Concatenation은 모든 modality를 하나의 네트워크에 통과 sparse signal이 suppression될 수 있음
  • 논문의 제안 방식은 pip_i 는 독립적으로 학습됨.,tactile처럼 드물지만 중요한 modality도 유지됨. 최종 영향력은 router weight wiw_i 를 통해 조절됨

Score-Based Implementation via Diffusion Models

  • 각 base policy pi,jp_{i,j} 는 Denoising Diffusion Probabilistic Model (DDPM) 로 구현됨
  • Diffusion 모델은 score-matching energy-based model로 해석 가능. distribution 곱은 score 합으로 구현 가능
  • Intra-Modality Composition: 한 modality 내부 sub-policy들의 score 평균

  • Inter-Modality Composition: Router weight를 이용한 최종 score 계산

  • 각 modality score는 gradient field 역할. router가 weight를 부여해 이 gradient들을 결합. energy-based composition과 diffusion score composition을 연결

Router Network

  • Router R_ψ는 modality-specific embeddings {ei}\{e_i\} 를 consensus weights {wi}\{w_i\} 로 매핑
  • weight들은 softmax로 정규화. wi>0,iwi=1w_i > 0, \sum_i w_i = 1 . modality의 상대적 영향력 의미
  • weight들이 역할. 각 expert의 action proposal을 조정
  • training 동안 학습됨, 실행 시 고정됨

Advantages Over Existing Fusion

  • 논문에서 제시하는 장점은 다음과 같음
    • Robustness to Sparsity: tactile처럼 드문 modality도 suppression되지 않음
    • Modularity: expert 독립적 학습 가능, 새로운 modality 추가 시 전체 재학습 불필요
    • Interpretability: wiw_i 가 modality 영향력 직접 표현
    • Principled Consensus: energy-based composition 원리에 기반, 단순 feature fusion이 아님

Experiment

  • 논문은 다음 세 가지 연구 질문을 검증하기 위해 실험을 수행
    • Modality sparsity가 존재하는 작업에서 compositional architecture가 feature-level fusion보다 성능이 좋은가?
    • 모델이 context-dependent modality reliance를 학습하는가? 또한 새로운 expert를 재학습 없이 추가할 수 있는가?
    • 정책이 physical perturbation, sensor corruption 상황에서도 robustness를 유지하는가?

Experimental Setup

  • Simulation
    • Benchmark: RLBench
    • 사용한 4개 task: open box, open drawer, take umbrella out of stand, toilet seat up
    • Train: 200 demonstration episodes
    • 평가: 200 unseen configurations

  • Real-World
    • 로봇: UR5e manipulator
    • 장비: dual cameras, tactile sensors
    • 수행 task: occluded marker picking, spoon reorientation puzzle insertion
    • 수집한 teleoperation demonstration 수
      • marker picking: 80
      • spoon reorientation: 60
      • puzzle insertion: 50

Sensory Modalities

  • Simulation
    • 사용 modality:

      RGB images (2 cameras)

      Point Cloud (PCD)

      3D semantic features (pretrained DINO model로 추출)

  • Real-World
    • RGB: Intel RealSense D415 2대, 해상도: 96 × 128
    • Tactile: FlexiTac sensors
    • 각 finger에 tactile pad 장착, 12 × 32 sensing units, 각 unit 공간 해상도: 2mm

Baselines

  • Simulation Baselines
    • Single-modality policies:

      RGB-only

      PCD-only

      DINO-only

    • Feature concatenation baseline

      모든 modality embedding을 결합

    • Factorized MoE fusion

      soft routing 기반 mixture-of-experts

  • Real-World Baselines
    • RGB-only policy
    • RGB + Tactile feature concatenation

Metrics

  • Primary metric: Success rate
  • Secondary metric: Completion time (성공한 trial에 한해 측정)

Main Results

  • Simulation Performance
    • 제안 방법의 평균 성공률: 66%
    • Feature concatenation baseline: 56%
    • 상대적 개선: 18%
    • 파라미터 증가량: +0.7M (전체 대비 0.3% 증가). 매우 작은 파라미터 증가로 성능 향상을 달성했다고 보고

  • Real-World Performance
    • 각 real-world task에서 가장 높은 성공률을 기록:

      Occluded Picking: 65%

      Spoon Reorientation: 75%

      Puzzle Insertion: 52%

    • 성공한 trial 기준 평균 completion time도 가장 낮음