[CVPR 2025] Hand-held Object Reconstruction from RGB Video with Dynamic Interaction
- 기존 hand-held object reconstruction 방법들은 dynamic scene이나 texture-less / thin object 를 recon하는데 어려움을 겪음
- 한손이나 양손으로 dynamic하게 manipulating되는 object의 정확한 recon을 위해서 generated 3D object priors, joint optimization for object poses, pose outlier voting을 도입
Contribution
- 한손/양손과 dynamic interaction 을 하는 hand-held object를 recon하는 task에서 3d generation model의 prior를 사용
- frame-to-model alignment method with semantic consistency 를 통해서 생성된 3D prior와 input rgb sequence간의 shape, texture 부조화를 해결
- Sampson distance를 사용하는 pose outlier voting strategy를 제안해서 프레인간 pose 일관성을 확인하고, pose 정확도와 recon 퀄리티를 올림
3. Methods

- rigid object와 손이 상호작용하는 monocular RGB video sequence 이 있을때, 3D object를 recon하는게 목표
- 초기 object pose 를 추정하기 위해서, text description에 기반한 3D mesh V를 생성
- 이렇게 생성된 3D mesh와 실제 object간의 shape, texture에서 discrepancy가 있지만 semantic은 비슷할것이기 때문에 pose space를 constrain할 수 있음
- input image 와 생성된 3D mesh의 rendering을 semantic-feature space 에서 align해서 k번째 프레임의 object pose 를 추정
- 이후, initial pose 를 사용해서 object implicit representation SDF 와 pose를 동시에 최적화
- pose outlier voting strategy를 통해서 정확한 object geometry와 pose를 추정
3.1. Preliminaries: Object Representation
- 논문에서는 두개의 MLP를 통해서 geometry와 apperance정의
- Geometry network:
Given 3D point , outputs SDF value
- Color network:
Given 3D point and view direction , outputs color
- Geometry network:
- 각 픽셀에서 camera ray를 따라서 set of points를 샘플링
- : 샘플링된 3d point
- : 카메라 위치
- : 샘플링된 ray의 범위
- rendered color는 다음과 같이 쓸수 있음

- : 각 점의 불투명도 (opacity)
- : opacity density
- 다음과 같은 loss로 최적화
- Photometric Loss

- Eikonal loss

- Mask loss

- Photometric Loss
3.2. Pose Initialization via Generated 3D Prior and Semantic Consistency
- textured mesh 를 만드는건 아래와 같이 3단계를 거침
- 첫프레임 의 hand-held object의 모양과 외형을 묘사하기 위해서 ChatGPT 사용
- ChatGPT에서 나온 text를 Text-to-3D 모델인 Genie에 넣어서 고퀄리티 3D texture mesh 생성
- 개 mesh를 생성하고 OpenShape을 이용해서 3D-image similarity를 계산해서 가장 높은 score인 mesh를 로 선정
- RGB frame 와 생성된 3D textured mesh 가 있을때 object pose 를 추정함
- 기존의 방법처럼 3D mesh를 pose로 돌려놓고 랜더링해서 2D mask로 만들고, 이미지의 object mask랑 비교하면 shape discrepancies 때문에 정확한 pose를 얻을 수 없음

- 따라서 DINO를 이용해서 각각에서 feature를 뽑고, semantic feature similarity를 통해서 를 랜더링한 이미지와 input image 를 비교
- pixel-wise semantic similarity는 다음과 같음

- semantic difference between rendered image and the input image

- 다음과 같은 목적함수 가짐

- 각 프레임에 대해 개별적으로 최적화를 수행한 후, temporal smoothness을 강제하는 항을 추가하여 전체 시퀀스에 대해 최적화를 수행

- 기존의 방법처럼 3D mesh를 pose로 돌려놓고 랜더링해서 2D mask로 만들고, 이미지의 object mask랑 비교하면 shape discrepancies 때문에 정확한 pose를 얻을 수 없음
3.3. Joint Optimization with Geometric Constraints
- coarse pose 를 얻고 난 이후에 비디오 프레임들을 object중심의 multi-view이미지로 바꿔서 implicit representation optimization을 하고자함
- BARF(ICCV 2021) 에 따르면 implicit representation과 camera pose를 같이 최적화 하는것이 pose noise를 줄이는데 효과적이라고 함
- 따라서 논문에서는 camera pose도 최적화 parameter로 두고, on-surface geometry cues, multi-view correspondence, monocular normal prior를 constraint로 두고 joint shape-pose optimization을 진행
- Normal consistency loss
- : predicted monocular normal
- : rendered normal

- Multi-view correspondence objective
- 이미지 와 랜덤으로 선택된 이미지간의 dense correspondence를 DKM으로 추출해서 matching pixel 과 confidence 추출
- : camera projection operator
- : predicted surface depth computed from implicit representation

- Total loss

3.4. Pose Outlier Voting with Sampson Distance
- hand와 object간의 심한 occulsion 때문에 initial poses가 틀어질 수 있고, 이는 이후의 optimization에 영향을 줄 수 있음
- 따라서 pose outlier voting strategy 를 이용하여 pose를 detect하고 correct하고자함
- PSNR이 낮으면 해당 pose 가 부정확하다고 판단
→ 하지만 한 프레임의 잘못된 pose는 implicit network가 잘못된 shape/texture를 학습하게 만들고 이 영향이 이웃 프레임의 렌더링 품질에도 전파
→이웃 프레임 PSNR까지 왜곡 PSNR만 쓰면 오탐지 가능성이 있음
- 이를 보완하기 위해, 기하적으로 pose만을 평가하는 지표를 추가
- F: 이전 절에서 얻은 2d correspondence 와 현재 camera pose 로 계산한 fundamental matrix

- 대응점 쌍 이 현재 camera pose로 정의된 epipolar geometry를 얼마나 위반하는지 측정
- 을 넘는 대응쌍의 개수 비율인 Sampson inconsistency rate 를 정의하고 rendering quality PSNR 와 같이 pose outlier를 탐지하는 기준으로 삼음
- 프레임 k를 기준으로 앞뒤로 K 프레임씩 포함한 총 2K+1 프레임을 하나의 local window로 설정
- window 안의 와 Sampson inconsistency rate의 평균인 계산
- 다음과 같은 기준에 PSNR과 Sampson이 걸리면 pose 이 low-quality (outlier) 라고 판단
-
-
- outlier로 판정된 pose 는 주변의 high-quality pose들을 사용해서 spherical interpolation를 통해 reinitialize
4. Experiments
