89
4
장
이미지, 오디오, 영상을 처리하는 심층 신경망
성에 상응하는 단어로 매핑되지 않습니다 ). 따라서 이 부분의 처리에서는 언어, 시퀀스
확률, 철자와 문법, 실제 이름에 대한 정보를 인코딩하는 ‘언어 모델’을 사용합니다.
4.3
영상
영상
Video
은 움직이는 이미지와 오디오의 조합입니다. 앞에서 오디오를 다뤘으니 완성도를 높이
기 위해 동영상을 간략하게 살펴보겠습니다.
4.3.1
영상의 디지털 표현
영상은 단순히 ‘프레임’이라는 일련의 이미지 모음입니다. 따라서 영상의 정밀도는 이미지 정밀
도와 초당 캡처된 프레임 수 (프레임 속도 )의 조합입니다.
4.3.2
영상 처리를 위한 심층 신경망
각 이미지를 개별적으로 고려해 영상을 간단히 분석하는 것이 가능한데, 이는 여러 시나리오에
완벽하게 적합합니다. 예를 들어, 얼굴 검출 및 인식은 각 프레임을 신경망에 한 장씩 공급함
으로써 프레임 단위로 수행할 수 있습니다. 그러나 시간이라는 추가 차원은 움직임을 이해하는
기회를 열어줍니다. 이를 통해 영상 이해는 다음과 같은 복잡한 의미 이해로 확장됩니다.
엔터티 추적
시간 경과에 따른 특정 물체(예: 사람, 차량 등)의 경로를 추적합니다. 경로 추적에는 엔터티
가 가려지거나 장면을 떠날 때 위치 정보를 유추하는 것도 포함됩니다.
활동 인식
움직임과 관련된 추가 정보를 사용해 장면에서 활동을 탐지하도록 객체 인식의 아이디어를 확
장합니다. 예를 들어, 장치를 제어하는 데 사용되는 제스처를 이해하거나 장면 내 동작 (예: 침
략)을 탐지하는 것입니다. 영상 ...