텍스트 입력만으로 정밀한 영상 분할과 편집 가능해졌다

  • 등록 2025.07.08 22:07:22
크게보기

건국대 김원준 교수팀, 컴퓨터 비전과 AI 분야 최고 권위 학술대회에서 발표

 

뉴스노믹스 전상천 기자 |

 

건국대학교 공과대학 김원준 교수(전기전자공학부) 연구팀이 개발한 ‘고성능 개방형 어휘 3차원 영상 분할 알고리즘’이 컴퓨터 비전 및 인공지능 분야 세계 최고 권위 학술대회 중 하나인 ICCV 2025(IEEE/CVF International Conference on Computer Vision, 국제 컴퓨터 비전학회(h5-index = 291))에서 발표된다.

 

연구팀은 텍스트 입력만으로 3차원 영상 내에서 사용자가 원하는 객체를 정밀하게 분할하고 편집할 수 있는 개방형 어휘(Open-vocabulary) 기반의 3차원 영상 분할 기술을 구현했다.

 

이 논문은 오는 10월 미국 하와이에서 열리는 ‘ICCV 2025’에서 소개될 예정이다.

이번 연구는 서로 다른 시점에 존재하는 객체에 대한 언어 임베딩(Language Embedding)의 일관성을 유지하면서, 새로운 시점의 이미지를 생성할 수 있도록 언어 임베딩과 가우시안 스플래팅(Gaussian Splatting) 파라미터를 동시에 학습하는 전략을 새롭게 제안한 것이 핵심이다.

 

또한 대조적 학습(Contrastive Learning) 기법을 접목해 새로운 시점 이미지 내 객체 검출 성능을 크게 향상시켰다.

이를 통해 정밀한 3차원 장면 렌더링은 물론, 생성된 이미지상에서 텍스트 명령어를 기반으로 사용자 지정 객체 분할 및 편집이 가능해졌다.

 

해당 기술은 향후 3D 콘텐츠 생성, 3차원 장면 이해, 이머시브 서비스 분야 등에서 핵심적으로 활용될 수 있을 것으로 기대된다.

이번 논문의 제1저자는 건국대학교 장성민 석사과정생이며, 교신저자는 김원준 교수다. 본 연구는 과학기술정보통신부의 연구비 지원을 받아 수행됐다.

 

전상천 기자 spindoctorjeon@thenewsmomics.com
Copyright @뉴스노믹스 Corp. All rights reserved.


프로필 사진
전상천 기자

뉴스노믹스는 글로벌 클라우드소싱 플랫폼을 구축하는데 모든 관심을 쏟고 있습니다. 한국내 이주민들이 자신의 삶을 스스로 기록, 스토리텔링 할 수 있도록 협업해 디지털 콘텐츠를 만들기 위해 다양한 내용과 방향을 모색하고 있습니다. 더 나아가 한국을 해외로, 해외 각국가의 이야기를 국내에 소개하는데 '올인'한 상태입니다.

정치경제 분석, 메콩강유역 탐사보도, 아시아 근현대사, 난민, 탈북자, 소수민족, DMZ, 지뢰, 재래식 무기 등 폐기되어야 할 전쟁 유물로 인해 고통을 겪고 있는 현장을 누비고, 그 피해자들의 이야기를 다뤄왔습니다.


주소 : 서울특별시 서초구 강남대로6길 28-12, 5층(양재동) 등록번호: 서울,아54319| 등록일 : 2022-06-22 | 발행인 : 전상천 | 편집인 : 권경희 | 전화번호 : 02-573-7268 Copyright @뉴스노믹스 Corp. All rights reserved.