본문 바로가기
  • AI 개발자가 될래요

논문 리뷰10

[데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET [데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET https://arxiv.org/pdf/2004.14368https://github.com/hche11/VGGSound?tab=readme-ov-file GitHub - hche11/VGGSound: VGGSound: A Large-scale Audio-Visual DatasetVGGSound: A Large-scale Audio-Visual Dataset. Contribute to hche11/VGGSound development by creating an account on GitHub.github.com ABSTRACT대규모의 오디오-시각 데이터셋을 만드는 것이 목표.오디오 인식 모델의 학습과 평가에.. 2024. 9. 2.
[논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation [논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation https://openaccess.thecvf.com/content/CVPR2024/papers/Kweon_From_SAM_to_CAMs_Exploring_Segment_Anything_Model_for_Weakly_CVPR_2024_paper.pdf AbstractWeakly Supervised Semantic Segmentation (WSSS)은 image-level class label만 사용하여 세그멘테이션을 수행하는 것을 목적으로 한다.최근 WSSS는 세그멘테이션 foundation 모델인 SAM(Segment A.. 2024. 8. 28.
[논문 리뷰] Unsupervised Object Localization with Representer Point Selection Unsupervised Object Localization with Representer Point Selection  https://openaccess.thecvf.com/content/ICCV2023/papers/Song_Unsupervised_Object_Localization_with_Representer_Point_Selection_ICCV_2023_paper.pdf Abstract새로운 unsupervised object localization 방법을 소개한다.기존의 unsupervised, self-supervised 모델은 class-agnostic activation map이나 self-similarity map 등을 사용했다. 이 방식은 가치 있었지만, 여전히 모델이 어떻게 추론을 하는.. 2024. 8. 23.
[논문 요약] Sound Source Localization is All about Cross-Modal Alignment [논문 요약] Sound Source Localization is All about Cross-Modal Alignment  https://arxiv.org/pdf/2309.10724 Abstract인간은 이미지에서 소리의 근원지를 쉽게 알 수 있다. 이 task를 "sound source localizaion"이라 칭한다.이 논문은 SOTA localization 성능을 보여주는 audio-visual cross-modal semantic understanding 기법을 소개한다. 1. Introduction인간은 쉽게 소리의 근원지를 알 수 있으며, 이벤트를 쉽게 이해할 수 있다.인간의 인식 기법에 착안한 기존의 모델들은 audio와 visual 신호에 상관이 있다고 가정했다.이 가정을 기반한 여러 .. 2024. 8. 7.
[주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing [주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing https://arxiv.org/abs/2304.10530 Collaborative Diffusion for Multi-Modal Face Generation and EditingDiffusion models arise as a powerful generative tool recently. Despite the great progress, existing diffusion models mainly focus on uni-modal control, i.e., the diffusion process is driven by only one modality of c.. 2024. 5. 21.
[논문 리뷰] Effective Adapter for Face Recognition in the Wild [논문 리뷰] Effective Adapter for Face Recognition in the Wild https://arxiv.org/abs/2312.01734 Effective Adapter for Face Recognition in the WildIn this paper, we tackle the challenge of face recognition in the wild, where images often suffer from low quality and real-world distortions. Traditional heuristic approaches-either training models directly on these degraded images or their enhanced count.. 2024. 4. 30.