전체 글 73

Large Audio Language Models의 시간적 추론 능력 강화: 오디오 질문 응답 시스템(AQA)을 위한 논문 리뷰

논문 링크: [2409.06223v3] Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models  0. AbstractAQA 작업에는 오디오 이벤트 분류, 오디오 캡션 및 추론이 포함된다. 최근 AQA는 LALM(Large Audio Language Model)의 등장으로 주목을 받고 있다. 현 문헌에서는 projection module을 통해 오디오 인코더를 텍스트 전용 대규모 언어 모델과 통합하여 LALM을 구성하는데 중점을 뒀다. LALM은 일반적인 오디오 이해에는 탁월한 반면, 시간적인 추론이 제한되어 상용 애플리케이션과 장치 배포에 방해가 될 수 있다. 본 논문은 오디오 시간 추론의 이런..

끄적 2025.01.24

QLoRA 논문 리뷰

1. Abstract본 논문은 16비트 finetuning task 수행을 보존하면서도 65B 파라미터 모델을 48 GP GPU를 사용해서 효율적으로 finetuning할 수 있는 접근 법인 QLoRA를 제안한다.QLoRA는 동결된 4비트 양자화된 사전 학습 언어 모델을 통해 LoRA로 역전파한다.이 모델은 단일 GPU로 24시간의 finetuning만으로 이런 성과에 도달하면서도 성능을 희생하지 않고, 메모리를 절약할 수 있다. 아래가 QLoRA에서 메모리 절약을 위해 도입된 혁신 기술들이다.정규 분포 가중치에 대해 정보 이론적으로 최적인 새로운 데이터 유형, 4-bit NormalFloat(NF4),양자화 상수를 다시 양자화하여 평균 메모리 사용량을 줄이는 Double Quantizationmemor..

끄적 2025.01.17

LLM의 Knowledge Update

1. Temporal MisalignmentLLM이 새로운 지식을 배우지 못해 발생하는 문제들 LLM은 최신 정보를 모른다.고정된 데이터에 대해서 학습된 모델이기 때문에 시간에 따른 새로운 지식을 학습하지 못한다. 과거 데이터로 학습한 모델이 현재 정보를 모른다는 것은 실제 정확도에 얼마나 영향을 끼칠까?Temporal alignment가 존재하며, 시간이 지날수록 틀어진다. 그렇다면 매번 새로운 데이터를 학습하면 안될까?Catastrophic forgetting 문제가 있다. Catastrophic forgetting란?단순하게 여러 태스크를 순차적으로 배울 경우, 앞선 태스크에서 학습한 정보를 잊어버리는 것이다.따라서 최신 지식을 학습하면서 과거 정보를 기억하는 것 또한 중요하다.(ex 역사적 사실이..

끄적 2025.01.09