연사소개

행사소개 프로그램 연사소개 사전등록

초청강연

대구경북과학기술원 전기전자컴퓨터공학과

임성훈 교수

Recent Trend in Physical AI

본 세미나는 로봇의 navigation과 manipulation을 중심으로 한 최신 연구 동향을 다룹니다. 먼저 Visual Language Action(VLA) with reasoning을 통해 로봇이 언어와 시각 정보를 통합하여 복잡한 지시를 이해하고 상황에 맞게 경로를 탐색·수행하는 능력을 소개합니다. 이어서 Diffusion Policy 및 이를 확장한 Diffusion Policy + X 연구를 살펴보며, 고차원 연속 제어 문제에서 안정적이고 일반화 가능한 정책 학습 방법을 논의합니다. 또한 Online Multi-agent RL with Diffusion Policy를 통해 다중 로봇이 협력적 학습을 수행하며 navigation과 manipulation 과제를 효율적으로 해결하는 접근법을 다룹니다. 마지막으로 World Model 기반 연구를 통해 로봇이 내재적 세계 표현을 학습하고, 이를 활용해 미래 상태를 예측하며 더 정교한 계획과 조작을 가능하게 하는 기술을 소개합니다. 본 발표는 차세대 로봇의 자율적 이동과 정밀한 조작 능력 강화를 위한 핵심 기술 발전 방향을 조망하는 데 목적이 있습니다.

계명대학컴퓨터공학과

이용현 교수

Predicting Local Normal Reference Values with Artificial Intelligence: A Digital Twin Lung Approach for Detecting Regional Abnormalities in Quantitative CT

폐의 국소적 기능 이상(local functional abnormality)을 정량 평가하는 일은 의료 영상에서 본질적으로 까다로운 문제입니다. 동일한 연령대의 폐라 할지라도 중력 의존성, 해부학적 위치, 기도 분기 구조에 따라 정상값이 폐 내부에서 크게 변화하기 때문입니다. 즉 "어떤 값이 정상인가"는 폐의 각 위치마다 다르며, 단일 임계값 기반 이상 탐지나 환자 단위의 평균값 비교만으로는 명확하게 판별하기 어렵습니다. 본 강연은 이러한 문제를 정상 참조값(normal reference value) 모델링 문제로 재정의하고, 이를 디지털 트윈 폐(Digital Twin Lung)라는 개념으로 확장한 연구를 소개합니다. 흡기-호기 CT 영상 정합으로부터 한 피험자당 국소 폐 실질 단위에 대해 환기성(ventilation), 체적 변형(Jacobian determinant), 변위 벡터(displacement) 등 다중 기능적 특징을 계산한 뒤, 건강한 피험자 집단으로만 학습된 인공지능 모델이 비기능적 해부학적 입력만으로 각 국소 위치에서 "해당 폐가 건강할 경우 가져야 할" 정상 참조값을 예측하도록 합니다. 이렇게 환자별 해부학에 조건화되어 생성된 가상의 정상 폐는 그 환자의 기초적인 단계의 디지털 트윈 폐이며, 폐질환 환자의 실측 기능적 특징값과 정상 가정 디지털 트윈의 예측 특징값의 차이는 국소 위치별 과기능 및 저기능을 정량적으로 정의할 수 있게 해줍니다. 이는 의료 데이터 분야에서 이상성(Abnormality)을 데이터 주도적으로 정의하는 접근이라 할 수 있으며, 개인 맞춤형 의료 서비스 제공의 의사결정 보조 수단으로 작동할 수 있습니다.

경북대학교 컴퓨터공학부

윤겨레 교수

From Sound to Touch: 청각에서 촉각으로

Beyond the current mobile era, many global companies predict that extended reality (XR) technologies will significantly transform our daily lives in the near future. Haptics (a research field including sensory modalities such as tactile, kinesthetic, thermal, and vestibular senses) is regarded as a core technology in the XR era. In particular, active research efforts about the automatic generation of haptic effects are currently underway to commercialize haptic technologies. Among various approaches, the automatic generation of haptic effects using sound has been evaluated as one of the most intuitive and efficient methods. Indeed, numerous studies have demonstrated that combined auditory and tactile stimulation can significantly enhance immersion and satisfaction. As a result, its potential applications are rapidly expanding across a range of domains, including mobile devices, interactive games, and immersive virtual reality content. This seminar will introduce recent research on the automatic generation of haptic signals using auditory information.

연구성과 발표

한국전자통신연구원
AI 인프라연구실

김동영 석사후연구원

From street to orbit: Training-free cross-view retrieval via location semantics and llm guidance

This talk addresses the cross-view retrieval problem of finding the correct satellite image given a single street-view photo. Prior approaches typically rely on large-scale supervised training with paired ground truth, or assume unrealistic inputs such as panoramas or drone views, which limits real-world deployment. This work proposes a training-free pipeline that combines pretrained vision encoders with LLM guidance. The key idea is to bridge the domain gap via location semantics: starting from the street image, the method gathers textual context through web image search, then an LLM infers a specific, geocodable place name (e.g., landmark or building). This name is converted into GPS coordinates, and a satellite tile centered at that location is generated as the satellite query. The query and the satellite gallery are embedded using the same pretrained vision encoder (e.g., DINOv2) for similarity-based retrieval, with PCA-whitening refinement to suppress low-level noise and improve zero-shot robustness. Experiments on the University-1652 Street→Satellite benchmark show zero-shot SOTA performance without any additional training, while also demonstrating a scalable way to automatically construct street–satellite pairs for future research.

경북대학교
컴퓨터학부

신호경 박사과정

Improving the Generalizability and Stability of Explanations for Diverse Neural Networks

딥러닝 모델의 활용이 확대되면서, 모델이 어떤 과정을 통해 판단을 내리는지 이해하는 설명 가능성(Explainability)의 중요성이 더욱 커지고 있다. 기존의 설명 기법은 크게 사후적 설명(post-hoc)과 내재적 설명(intrinsic) 방식으로 구분되며, 각각 고유한 한계점을 가진다. 먼저, 사후적 설명 기법이 가지는 한계 중 하나인 모델 간 일반화 부족 문제를 다룬다. 이를 극복하기 위한 방향으로, 활성화 위치 정보 전달을 활용하여 다양한 모델에 적용 가능한 설명 메커니즘을 소개한다. 또한 내재적 설명 기법 중 널리 연구되는 프로토타입 기반 모델은 입력의 작은 변화에도 설명이 크게 달라지는 불안정성 문제를 갖는다. 이를 해결하기 위해, 인간이 실제 사물을 보지 않아도 대략적 형태를 떠올릴 수 있는 Phantasia(시각적 심상) 개념에서 영감을 받아 설계한, 불확실한 입력 표현을 활용하는 프로토타입 학습 프레임워크 ‘PINet’을 제안한다.

DGIST
전기전자컴퓨터공학과

최원혁 석박통합과정

Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining

기존 단안 깊이 추정(SSMDE) 기술은 하나의 카메라로 깊이를 예측하려 하지만, 빛이 불규칙하게 반사되는 금속이나 매끄러운 표면에선 예측이 부정확하게 이루어지는 문제가 있다. 본 연구팀은 로봇이나 자율주행차의 인식 능력을 떨어뜨려 정밀도나 안전에 직접적으로 영향을 주는 문제를 해결하기위해 Triplet Mining 이라는 새로운 학습 전략을 제안했고 이에 관한 강연을 진행한다.

방법론:
- 반사 영역 식별 (삼중항 마이닝): 여러 시점의 카메라 기하학 정보를 활용해서, 뷰가 바뀔 때 기하학적으로 일치하지 않는 픽셀을 특정하여 반사 표면을 탐색함.
- 반사 손실 무시: 이렇게 식별된 반사 영역에서는 광도 오차에 대한 패널티를 가함으로써, 모델이 잘못된 반사 정보에 낚여 학습되는 것을 원천적으로 방지함.
- 세부 정보 유지를 위한 지식 증류: 반사 문제가 없는 일반 영역의 정확도와 세부 정보를 잃지 않기 위해 지식 증류(Knowledge Distillation) 기법을 결합, 이를 통해 기존 방식이 만드는 '블랙홀 효과' 같은 심각한 오류를 없애고, 복잡한 실내 환경에서 매우 정확하고 신뢰성 있는 깊이 지도를 만들 수 있음.

계명대학교
컴퓨터공학과

안다솜 박사과정

설명 가능한 로봇 학습을 위한 Diffusion Policy 연구

최근 로봇 조작 작업에서는 영상 기반 제어 정책이 널리 활용되고 있으며, 특히 Diffusion Policy는 연속적인 동작 생성에서 우수한 성능을 보이고 있다. 그러나 기존 방법은 모델이 어떤 근거로 행동을 결정하는지 파악하기 어려워, 오류 분석이나 정책 개선 과정에서 한계가 존재한다.
본 발표에서는 이러한 문제를 해결하기 위한 연구로, CLIP 기반의 라벨 없이 생성된 개념 정보와 시간 정보를 Diffusion Policy에 결합하는 방식을 소개한다. 이를 통해 정책이 단순히 행동을 생성하는 수준을 넘어, 행동의 근거를 개념 단위로 표현하고 자연어 형태로 설명할 수 있는 구조(COTRA) 를 제안하였다. 또한 Push-T 및 MimicGen 로봇 조작 데이터셋을 활용한 실험을 통해, 개념 정확도, 정책 성능, 개입 가능성 등을 비교 분석하였으며, 실험 결과 제안 방식이 기존 정책 대비 해석 가능성과 제어 안정성을 동시에 확보할 수 있음을 확인하였다.
본 발표에서는 전체 연구 과정, 모델 구조, 실험 결과 및 적용 가능성에 대해 공유한다.