[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

기존 hand-held object reconstruction 방법들은 dynamic scene이나 texture-less / thin object 를 recon하는데 어려움을 겪음

한손이나 양손으로 dynamic하게 manipulating되는 object의 정확한 recon을 위해서 generated 3D object priors, joint optimization for object poses, pose outlier voting을 도입

Contribution

한손/양손과 dynamic interaction 을 하는 hand-held object를 recon하는 task에서 3d generation model의 prior를 사용

frame-to-model alignment method with semantic consistency 를 통해서 생성된 3D prior와 input rgb sequence간의 shape, texture 부조화를 해결

Sampson distance를 사용하는 pose outlier voting strategy를 제안해서 프레인간 pose 일관성을 확인하고, pose 정확도와 recon 퀄리티를 올림

3. Methods

rigid object와 손이 상호작용하는 monocular RGB video sequence $\{ I_k \}_{k=1,N}$ 이 있을때, 3D object를 recon하는게 목표

초기 object pose $\hat ξ$ 를 추정하기 위해서, text description에 기반한 3D mesh V를 생성

이렇게 생성된 3D mesh와 실제 object간의 shape, texture에서 discrepancy가 있지만 semantic은 비슷할것이기 때문에 pose space를 constrain할 수 있음

input image $I_k$ 와 생성된 3D mesh의 rendering을 semantic-feature space $\mathcal{F}_{DINO}$ 에서 align해서 k번째 프레임의 object pose $\hat ξ_k$ 를 추정

이후, initial pose $\{ ξ_k \}_{k=1,N}$ 를 사용해서 object implicit representation SDF $Φ$ 와 pose를 동시에 최적화

pose outlier voting strategy를 통해서 정확한 object geometry와 pose를 추정

3.1. Preliminaries: Object Representation

논문에서는 두개의 MLP를 통해서 geometry와 apperance정의
- Geometry network:
  $\Phi_g:\mathbb{R}^3 \to \mathbb{R}$
  Given 3D point $x$ , outputs SDF value $\Phi_g(x)$
- Color network:
  $\Phi_g:\mathbb{R}^3 \times \mathbb{S}^2 \to \mathbb{R}^3$
  Given 3D point $x$ and view direction $d$ , outputs color $\Phi_c(x,d)$

각 픽셀에서 camera ray를 따라서 set of points를 샘플링
- $p(t_i)$ : 샘플링된 3d point
- $o$ : 카메라 위치
- $[t_n,t_f]$ : 샘플링된 ray의 범위

\{p(t_i)=o+t_id∣t_i∈[t_n,t_f]\}

rendered color는 다음과 같이 쓸수 있음
- $\alpha_i = 1 - \exp\left(-\int_{t_i}^{t_{i+1}} \rho(t) dt\right)$ : 각 점의 불투명도 (opacity)
- $ρ(t)$ : opacity density

다음과 같은 loss로 $\Phi$ 최적화
- Photometric Loss
- Eikonal loss
- Mask loss

3.2. Pose Initialization via Generated 3D Prior and Semantic Consistency

textured mesh $V$ 를 만드는건 아래와 같이 3단계를 거침
- 첫프레임 $I_1$ 의 hand-held object의 모양과 외형을 묘사하기 위해서 ChatGPT 사용
- ChatGPT에서 나온 text를 Text-to-3D 모델인 Genie에 넣어서 고퀄리티 3D texture mesh 생성
- $N_V$ 개 mesh를 생성하고 OpenShape을 이용해서 3D-image similarity를 계산해서 가장 높은 score인 mesh를 $V$ 로 선정

RGB frame $I_k$ 와 생성된 3D textured mesh $V$ 가 있을때 object pose $\hat ξ_k$ 를 추정함
- 기존의 방법처럼 3D mesh를 pose로 돌려놓고 랜더링해서 2D mask로 만들고, 이미지의 object mask랑 비교하면 shape discrepancies 때문에 정확한 pose를 얻을 수 없음
- 따라서 DINO를 이용해서 각각에서 feature를 뽑고, semantic feature similarity를 통해서 $V$ 를 랜더링한 이미지와 input image $I_k$ 를 비교
- pixel-wise semantic similarity는 다음과 같음
- semantic difference between rendered image $DR(V, \hat ξ_k)$ and the input image $I_k$
- 다음과 같은 목적함수 가짐
- 각 프레임에 대해 개별적으로 최적화를 수행한 후, temporal smoothness을 강제하는 항을 추가하여 전체 시퀀스에 대해 최적화를 수행

3.3. Joint Optimization with Geometric Constraints

coarse pose $\hat ξ$ 를 얻고 난 이후에 비디오 프레임들을 object중심의 multi-view이미지로 바꿔서 implicit representation optimization을 하고자함

BARF(ICCV 2021) 에 따르면 implicit representation과 camera pose를 같이 최적화 하는것이 pose noise를 줄이는데 효과적이라고 함

따라서 논문에서는 camera pose도 최적화 parameter로 두고, on-surface geometry cues, multi-view correspondence, monocular normal prior를 constraint로 두고 joint shape-pose optimization을 진행

Normal consistency loss
- $\bar N$ : predicted monocular normal
- $\hat N$ : rendered normal

Multi-view correspondence objective
- 이미지 $I_i$ 와 랜덤으로 선택된 $I_j$ 이미지간의 dense correspondence를 DKM으로 추출해서 matching pixel $(p_i, p_j)$ 과 confidence $w_p$ 추출
- $\pi(.)$ : camera projection operator
- $\hat z(.;\Phi)$ : predicted surface depth computed from implicit representation $\Phi$

Total loss

3.4. Pose Outlier Voting with Sampson Distance

hand와 object간의 심한 occulsion 때문에 initial poses가 틀어질 수 있고, 이는 이후의 optimization에 영향을 줄 수 있음

따라서 pose outlier voting strategy 를 이용하여 pose를 detect하고 correct하고자함

PSNR이 낮으면 해당 pose $ξ_k$ 가 부정확하다고 판단
→ 하지만 한 프레임의 잘못된 pose는 implicit network가 잘못된 shape/texture를 학습하게 만들고 이 영향이 이웃 프레임의 렌더링 품질에도 전파
→이웃 프레임 PSNR까지 왜곡 PSNR만 쓰면 오탐지 가능성이 있음

이를 보완하기 위해, 기하적으로 pose만을 평가하는 지표를 추가
- F: 이전 절에서 얻은 2d correspondence $(p_i, p_j)$ 와 현재 camera pose $(ξ_i,ξ_j)$ 로 계산한 fundamental matrix

대응점 쌍 $(p_i, p_j)$ 이 현재 camera pose로 정의된 epipolar geometry를 얼마나 위반하는지 측정

$d_{Sampson}$ 을 넘는 대응쌍의 개수 비율인 Sampson inconsistency rate $\beta$ 를 정의하고 rendering quality PSNR 와 같이 pose outlier를 탐지하는 기준으로 삼음

프레임 k를 기준으로 앞뒤로 K 프레임씩 포함한 총 2K+1 프레임을 하나의 local window로 설정

window 안의 ${PSNR}_k$ 와 Sampson inconsistency rate의 평균인 $mean({β_k})$ 계산

다음과 같은 기준에 PSNR과 Sampson이 걸리면 pose $ξ_k$ 이 low-quality (outlier) 라고 판단
- ${PSNR}_k≤mean({{PSNR}_i}_{i=k−K}^{k+K})−λ⋅std({{PSNR}_i}_{i=k−K}^{k+K})$
- $mean({β_k}) ≥ threshold$

outlier로 판정된 pose $\xi_k$ 는 주변의 high-quality pose들을 사용해서 spherical interpolation를 통해 reinitialize

4. Experiments

[ICCV 2025] 6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting (2)	2026.02.07
[CVPR 2025] OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints (1)	2026.01.31
[ECCV 2024] Grounding Image Matching in 3D with MASt3R (2)	2026.01.25
[ICCV 2025] MagicHOI: Leveraging 3D Priors for Accurate Hand-object Reconstruction from Short Monocular Video Clips (2)	2026.01.25
[Paper Review] Grounded Language-Image Pre-training(GLIP) 논문 정리 (0)	2023.11.14

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

거대고슴도치

[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

'DL' 카테고리의 다른 글

'DL'의 다른글

티스토리툴바

[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

'DL' 카테고리의 다른 글

'DL'의 다른글

관련글

티스토리툴바