Anime Search Project: CLIP으로 멀티모달 검색 엔진 만들기
AI 모델을 활용해서 “상황, 분위기, 시각적 단서” 등 자연어 검색으로 애니메이션의 특정 장면을 찾아내는 멀티모달 시맨틱 검색 엔진을 만들어 보려고합니다. 그 전에 앞서 멀티모달 임베딩의 원리와 CLIP에 대해 알아보려 합니다. 1. 멀티모달 임베딩 공간의 이해 멀티모달 임베딩 공간(Multimodal Embedding Space) 은 텍스트, 이미지, 동영상 프레임 등 서로 다른 형태의 데이터(모달리티)를 하나의 통일된 다차원 벡터 공간에 매핑하는 기술입니다, 멀티모달이 다양한 리소스를 의미하고 임베딩은 그 데이터를 의미가 보존된 저차원 벡터로 변환하는 과정을 말합니다. ...