본문 바로가기
  • AI 개발자가 될래요

Category105

[데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET [데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET https://arxiv.org/pdf/2004.14368https://github.com/hche11/VGGSound?tab=readme-ov-file GitHub - hche11/VGGSound: VGGSound: A Large-scale Audio-Visual DatasetVGGSound: A Large-scale Audio-Visual Dataset. Contribute to hche11/VGGSound development by creating an account on GitHub.github.com ABSTRACT대규모의 오디오-시각 데이터셋을 만드는 것이 목표.오디오 인식 모델의 학습과 평가에.. 2024. 9. 2.
[논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation [논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation https://openaccess.thecvf.com/content/CVPR2024/papers/Kweon_From_SAM_to_CAMs_Exploring_Segment_Anything_Model_for_Weakly_CVPR_2024_paper.pdf AbstractWeakly Supervised Semantic Segmentation (WSSS)은 image-level class label만 사용하여 세그멘테이션을 수행하는 것을 목적으로 한다.최근 WSSS는 세그멘테이션 foundation 모델인 SAM(Segment A.. 2024. 8. 28.
[논문 리뷰] Unsupervised Object Localization with Representer Point Selection Unsupervised Object Localization with Representer Point Selection  https://openaccess.thecvf.com/content/ICCV2023/papers/Song_Unsupervised_Object_Localization_with_Representer_Point_Selection_ICCV_2023_paper.pdf Abstract새로운 unsupervised object localization 방법을 소개한다.기존의 unsupervised, self-supervised 모델은 class-agnostic activation map이나 self-similarity map 등을 사용했다. 이 방식은 가치 있었지만, 여전히 모델이 어떻게 추론을 하는.. 2024. 8. 23.
[논문 요약] Sound Source Localization is All about Cross-Modal Alignment [논문 요약] Sound Source Localization is All about Cross-Modal Alignment  https://arxiv.org/pdf/2309.10724 Abstract인간은 이미지에서 소리의 근원지를 쉽게 알 수 있다. 이 task를 "sound source localizaion"이라 칭한다.이 논문은 SOTA localization 성능을 보여주는 audio-visual cross-modal semantic understanding 기법을 소개한다. 1. Introduction인간은 쉽게 소리의 근원지를 알 수 있으며, 이벤트를 쉽게 이해할 수 있다.인간의 인식 기법에 착안한 기존의 모델들은 audio와 visual 신호에 상관이 있다고 가정했다.이 가정을 기반한 여러 .. 2024. 8. 7.
[자율주행] 다중센서기반 물체 탐지/인식 기술 조사 [자율주행] 다중센서기반 물체 탐지/인식 기술 조사 관련 기술에 대한 논문을 읽고 배경지식 / 중심 내용 발췌 정리 1. 열악한 환경에서의 자율주행을 위한 다중센서 데이터셋 구축https://jkros.org/_common/do.php?a=full&b=33&bidx=3021&aidx=33759 Journal of Korea Robotics Society[ ARTICLE ]The Journal of Korea Robotics Society - Vol. 17, No. 3, pp. 245-254 Abbreviation: J. Korea Robot. Soc.ISSN: 1975-6291 (Print) 2287-3961 (Online) Print publication date 31 Aug 2022 Received .. 2024. 5. 27.
[주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing [주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing https://arxiv.org/abs/2304.10530 Collaborative Diffusion for Multi-Modal Face Generation and EditingDiffusion models arise as a powerful generative tool recently. Despite the great progress, existing diffusion models mainly focus on uni-modal control, i.e., the diffusion process is driven by only one modality of c.. 2024. 5. 21.