Projects/AI 아이트래킹 모델 프로젝트

[프로젝트 A-EYE] 1. 개요

ha2yong 2025. 9. 16. 21:41
  • 프로젝트명 : A-EYE
  • 프로젝트 팀 명 : AI 방범대
  • 진행 기간 : 2025.09.01 ~ 2025.09.25
  • 프로젝트 소개 : 프로젝트 A-EYE는 실시간 시점 추점 기술을 기반으로 AI-Agent 서비스를 제공하는 웨어러블 디바이스 개발 프로젝트입니다. 사용자는 시각만으로 객체를 탐지하고 llm을 통해 음성으로 명령을 내릴 수 있습니다.
  • 프로젝트 주요 기술 : 
    • 시선 추적 : mediapipe 기반 안구 및 홍채 탐지
    • 월드 깊이맵 추정 : Depth-Anything(2024) 모델 기반 단안카메라 깊이 추정 
    • 객체 탐지 : yoloe(2025) 기반 객체탐지
    • STT : openAI Whisper 음성인식 모델
    • LLM : openAI GPT-4o mini 자연어처리 모델
    • LangGraph : RAG(tavily) 및 사용자 정의 tool 처리 모델
  • 프로젝트 목표 및 핵심 과제
    • 목표: 실시간으로 사용자의 시점을 추정하여 시각과 음성만으로 명령을 수행하는 AI Agent 웨어러블 기기를 만든다.
    • [시선추적] 하나의 아이카메라로 홍채를 인식하고 3D안구에 투영하여 각 안구의 시선벡터를 구하고 교차점(시점)을 3차원 좌표로 반환한다.
    • [시선추적] 하나의 월드카메라로 월드를 인식하고 깊이맵을 구현하여 3차원 좌표로 반환한다.
    • [시선추적] 시점과 깊이맵을 동일한 3차원 좌표로 정합한다.
    • [객체탐지] 시점에 대응하는 객체를 탐지한다.
    • [NLP] 음성인식을 대기하는 모델을 준비한다.
    • [NLP] STT 모델을 통해 음성명령을 텍스트로 반환한다.
    • [NLP] LLM 모델을 통해 변환된 텍스트 명령을 처리한다.
    • [NLP] LangGraph를 이용해서 web 검색 또는 사용자 정의 tool을 추가한다.
    • [하드웨어] 라즈베리 파이와 파이썬 백엔드를 연동해서 카메라 입력장치를 연결한다.