논문 링크: [2409.06223v3] Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models 0. AbstractAQA 작업에는 오디오 이벤트 분류, 오디오 캡션 및 추론이 포함된다. 최근 AQA는 LALM(Large Audio Language Model)의 등장으로 주목을 받고 있다. 현 문헌에서는 projection module을 통해 오디오 인코더를 텍스트 전용 대규모 언어 모델과 통합하여 LALM을 구성하는데 중점을 뒀다. LALM은 일반적인 오디오 이해에는 탁월한 반면, 시간적인 추론이 제한되어 상용 애플리케이션과 장치 배포에 방해가 될 수 있다. 본 논문은 오디오 시간 추론의 이런..