논문 리뷰/간단 리뷰

Learning Physically Simulated Tennis Skills from Broadcast Videos

남하욱 2024. 3. 31. 15:45

이 논문은 SIGGRAPH2023에 발표된 논문으로, 다음 링크에서 논문 원본을 볼 수 있다.

논문 : https://research.nvidia.com/labs/toronto-ai/vid2player3d/data/tennis_skills_main.pdf

유튜브 링크 : https://www.youtube.com/watch?v=ZZVKrNs7_mk

요약

이 논문은 테니스 방송 비디오에서 얻은 많은 테니스 경기 data로부터 다양하고 복잡한 테니스 기술을 학습하는 시스템을 제시하였다. 큰 틀은 아래 그림과 같은데, input인 방송 비디오로부터 저수준 모방 정핵과 고수준 모방 정책, motion embedding 기술을 결합한 계층적 모델을 사용한다.

최종적으로 이 시스템은 물리적으로 시뮬레이션된 캐릭터가 다양한 기술(서브, 백핸드, 포핸드, 스핀 등등)을 사용하여 들어오는 공을 목표 위치로 정확히 칠 수 있도록 한다. 이때, 물리적으로 시물레이션 되었기 때문에 라켓과 공 사이의 동역학이 잘 적용되어 있는 테니스 랠리를 보여줄 수 있다.

 

 

디테일

  • 방송 비디오에서 추출된 동작은 저품질인데, 이 저품질 동작을 해결하기 위해, 물리 기반 모방과 하이브리드 제어 정책을 사용하여 학습된 motion embedding의 잘못된 부분을 수정한다.
  • 이 시스템은 서로 이기기 위한 랠리를 하는 것이 아니라, 시뮬레이션된 캐릭터가 테니스 공을 다양한 기술을 사용하여 랠리를 지속할 수 있도록 하는 것에 초점을 두었다. 즉, 공을 다양한 기술로 정확한 위치에 다양한 테니스 기술을 시뮬레이션 하는 것이 목표이다.
  • 이 논문은 공의 물리적 영향을 고려하여 시뮬레이션 하기 때문에 크게 공기 저항, 마그누스 힘 이 두 가지를 고려하여 공의 궤적과 착지 후의 움직임을 계산한다.
  • 위 그림에서 보여주는 전체 시스템 프로세스는 크게 4 단계로 나눌 수 있는데, 디테일은 다음과 같다.
    1. Video Annotation:
      비디오에서 테니스 선수의 2D 및 3D 자세를 추정하고, 이를 통해 테니스 모션 데이터셋을 생성. 선수의 위치, 자세, 그리고 공과 라켓의 상호작용을 자동으로 탐지하고 추적.
    2. Low-level Imitation Policy:
      추정된 모션 데이터는 물리적으로 가능하지 않은 움직임을 포함할 수 있다. 이러한 문제를 해결하기 위해, 저수준 모방 정책이 학습되어 실제 물리법칙을 준수하는 모션으로 원본 데이터를 수정함. 이 단계에서는 물리 시뮬레이션을 사용하여 선수의 움직임을 보다 현실적으로 재현한다.
    3. Motion Embedding:
      수정된 모션 데이터를 사용하여 MVAE 모델을 통해 낮은 차원의 모션 임베딩을 학습한다. 이 임베딩은 테니스 모션의 다양한 가능성을 포함하는 공간을 생성한다. 모션 임베딩은 테니스 동작의 다양한 샷, 스핀, 그리고 플레이 스타일을 모델링한다.
    4. High-level Motion Planning Policy:
      마지막으로, 고수준 모션 계획 정책이 학습되어 테니스 캐릭터가 실제 경기에서 사용할 수 있는 다양한 테니스 기술을 실행할 수 있도록 함. 이 정책은 VAE 모델로부터 생성된 모션 임베딩을 활용하여 캐릭터의 움직임을 계획하고, 목표 위치로 공을 치기 위해 필요한 동작을 생성한다. 이 단계에서는 실제 경기와 유사하게 공을 정확하게 치고 목표 위치에 도달하기 위한 전략을 학습한다.