대구 AI 연구자 포럼

초청강연

한국과학기술기획평가원 정두엽 부연구위원: 이재명 정부 국정과제 및 상위계획 중 AI, 대구 지역 관련 내용 소개

본 발제에서는 이재명 정부 국정과제 및 상위계획의 내용을 대구AI연구자포럼 청취자의 수요와 기대에 최대한 부합하는 형태로 소개 및 해석하여 전달하고자 한다. 먼저 올해 국정기획위원회를 통해 123대 국정과제가 수립된 과정을 간단히 설명하고, 전체 과제 중 AI 기술·산업과 유관한 내용을 모두 발췌하여 연구자들이 정책의 방향을 이해하고 사업·과제 기획 및 제안서 작성 등에 손쉽게 활용할 수 있도록 제공한다. 이어서 국정운영 5개년 계획 내 지역공약 추진방향 내용, 대통령 직속 지방시대위원회에서 9월 30일에 공개한 『5극3특 국가균형성장 추진전략 설계도』 내용 등을 기반으로 중앙정부 관점에서의 대구 지역 과학·산업 기술정책 최신 이슈를 분석하고, 현장의 연구자들이 대응할 수 있는 시사점을 발굴해 보고자 한다.

THE AI 김동원 편집국장: AI가 가는 길, 그리고 가야 하는 길

이 강연은 AI G2라 불리는 미국, 중국과 더불어 국내 AI 현황을 취재한 내용을 주로 다룹니다.

1. AI가 가는 길
현재 AI 기술이 가고 있는 방향과 트렌드, 과제를 소개합니다. 생성형 AI에서 에이전틱 AI, 피지컬 AI 등에 대한 트렌드와 현재 해외에서 실제 진행되는 상황을 전합니다.

2. AI가 닥친 과제들
AI 기술을 활용하는 사례가 많아졌지만 여전히 조심스러운 기술입니다. AI 신뢰성부터 안전, 수익성 확보, 일자리 문제까지 닥친 과제가 있습니다. 특히 중국의 경우 자국 내에서도 제품 신뢰도를 높이자는 의견이 많습니다. 또 일자리 문제에 대해 접근하는 기업들의 시각이 다릅니다. 최근 엔비디아에서 구매를 확정한 GPU 26만 장을 어떻게 사용할 것인지에 대한 의문도 있습니다. 우리에게 닥친 과제와 극복 방안을 소개합니다.

3. AI가 가야하는 길
그렇다면, AI 기술을 제대로 활용하기 위해서는 어떤 길이 있을까요? AI 전용 디바이스 등장과 일자리를 해치지 않는, 여러 난제를 푸는데 해결하는 방법 드잉 있습니다. 국내외에서 진행되고 있는 AI 연구 방향을 소개합니다.

연구성과 발표

한국전자통신연구원 AI 인프라연구실 김동영 석사후연구원: From street to orbit: Training-free cross-view retrieval via location semantics and llm guidance

This talk addresses the cross-view retrieval problem of finding the correct satellite image given a single street-view photo. Prior approaches typically rely on large-scale supervised training with paired ground truth, or assume unrealistic inputs such as panoramas or drone views, which limits real-world deployment. This work proposes a training-free pipeline that combines pretrained vision encoders with LLM guidance. The key idea is to bridge the domain gap via location semantics: starting from the street image, the method gathers textual context through web image search, then an LLM infers a specific, geocodable place name (e.g., landmark or building). This name is converted into GPS coordinates, and a satellite tile centered at that location is generated as the satellite query. The query and the satellite gallery are embedded using the same pretrained vision encoder (e.g., DINOv2) for similarity-based retrieval, with PCA-whitening refinement to suppress low-level noise and improve zero-shot robustness. Experiments on the University-1652 Street→Satellite benchmark show zero-shot SOTA performance without any additional training, while also demonstrating a scalable way to automatically construct street–satellite pairs for future research.

경북대학교 컴퓨터학부 신호경 박사과정: Improving the Generalizability and Stability of Explanations for Diverse Neural Networks

딥러닝 모델의 활용이 확대되면서, 모델이 어떤 과정을 통해 판단을 내리는지 이해하는 설명 가능성(Explainability)의 중요성이 더욱 커지고 있다. 기존의 설명 기법은 크게 사후적 설명(post-hoc)과 내재적 설명(intrinsic) 방식으로 구분되며, 각각 고유한 한계점을 가진다. 먼저, 사후적 설명 기법이 가지는 한계 중 하나인 모델 간 일반화 부족 문제를 다룬다. 이를 극복하기 위한 방향으로, 활성화 위치 정보 전달을 활용하여 다양한 모델에 적용 가능한 설명 메커니즘을 소개한다. 또한 내재적 설명 기법 중 널리 연구되는 프로토타입 기반 모델은 입력의 작은 변화에도 설명이 크게 달라지는 불안정성 문제를 갖는다. 이를 해결하기 위해, 인간이 실제 사물을 보지 않아도 대략적 형태를 떠올릴 수 있는 Phantasia(시각적 심상) 개념에서 영감을 받아 설계한, 불확실한 입력 표현을 활용하는 프로토타입 학습 프레임워크 ‘PINet’을 제안한다.

DGIST 전기전자컴퓨터공학과 최원혁 석박통합과정: Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining

기존 단안 깊이 추정(SSMDE) 기술은 하나의 카메라로 깊이를 예측하려 하지만, 빛이 불규칙하게 반사되는 금속이나 매끄러운 표면에선 예측이 부정확하게 이루어지는 문제가 있다. 본 연구팀은 로봇이나 자율주행차의 인식 능력을 떨어뜨려 정밀도나 안전에 직접적으로 영향을 주는 문제를 해결하기위해 Triplet Mining 이라는 새로운 학습 전략을 제안했고 이에 관한 강연을 진행한다.

방법론:
- 반사 영역 식별 (삼중항 마이닝): 여러 시점의 카메라 기하학 정보를 활용해서, 뷰가 바뀔 때 기하학적으로 일치하지 않는 픽셀을 특정하여 반사 표면을 탐색함.
- 반사 손실 무시: 이렇게 식별된 반사 영역에서는 광도 오차에 대한 패널티를 가함으로써, 모델이 잘못된 반사 정보에 낚여 학습되는 것을 원천적으로 방지함.
- 세부 정보 유지를 위한 지식 증류: 반사 문제가 없는 일반 영역의 정확도와 세부 정보를 잃지 않기 위해 지식 증류(Knowledge Distillation) 기법을 결합, 이를 통해 기존 방식이 만드는 '블랙홀 효과' 같은 심각한 오류를 없애고, 복잡한 실내 환경에서 매우 정확하고 신뢰성 있는 깊이 지도를 만들 수 있음.

계명대학교 컴퓨터공학과 안다솜 박사과정: 설명 가능한 로봇 학습을 위한 Diffusion Policy 연구

최근 로봇 조작 작업에서는 영상 기반 제어 정책이 널리 활용되고 있으며, 특히 Diffusion Policy는 연속적인 동작 생성에서 우수한 성능을 보이고 있다. 그러나 기존 방법은 모델이 어떤 근거로 행동을 결정하는지 파악하기 어려워, 오류 분석이나 정책 개선 과정에서 한계가 존재한다.
본 발표에서는 이러한 문제를 해결하기 위한 연구로, CLIP 기반의 라벨 없이 생성된 개념 정보와 시간 정보를 Diffusion Policy에 결합하는 방식을 소개한다. 이를 통해 정책이 단순히 행동을 생성하는 수준을 넘어, 행동의 근거를 개념 단위로 표현하고 자연어 형태로 설명할 수 있는 구조(COTRA) 를 제안하였다. 또한 Push-T 및 MimicGen 로봇 조작 데이터셋을 활용한 실험을 통해, 개념 정확도, 정책 성능, 개입 가능성 등을 비교 분석하였으며, 실험 결과 제안 방식이 기존 정책 대비 해석 가능성과 제어 안정성을 동시에 확보할 수 있음을 확인하였다.
본 발표에서는 전체 연구 과정, 모델 구조, 실험 결과 및 적용 가능성에 대해 공유한다.

연사소개

초청강연

연구성과 발표