본문 바로가기
  • AI 개발자가 될래요

Category150

[데이터셋 조사] Audio-Visual 데이터셋 조사 [데이터셋 조사] Audio-Visual 데이터셋 조사  LRS3This dataset introduced by Afouras et al. exclusively comprises of real videos. It consists of 5594 videos spanning over 400 hours of TED and TED-X talks in English. The videos in the dataset are processed such that each frame contains faces and the audio and visual streams are in sync.https://mmai.io/datasets/lip_reading/ Explore -->" data-og-host="mmai.io" d.. 2024. 11. 20.
[논문 리뷰] Intra- and Inter-Modal Curriculum for Multimodal Learning [논문 리뷰] Intra- and Inter-Modal Curriculum for Multimodal Learning https://dl.acm.org/doi/abs/10.1145/3581783.3612468 Intra- and Inter-Modal Curriculum for Multimodal Learning | Proceedings of the 31st ACM International Conference on MultimediaPublication History Published: 27 October 2023dl.acm.org 수식이 많은 논문이라 모든 내용을 리뷰하기엔티스토리의 수식 입력 시스템상(latex 코드 수동 입력) 한계가 많아서 아이디어 위주로만 정리! Abstract멀티 모달 러닝이 주.. 2024. 10. 15.
[데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET [데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET https://arxiv.org/pdf/2004.14368https://github.com/hche11/VGGSound?tab=readme-ov-file GitHub - hche11/VGGSound: VGGSound: A Large-scale Audio-Visual DatasetVGGSound: A Large-scale Audio-Visual Dataset. Contribute to hche11/VGGSound development by creating an account on GitHub.github.com ABSTRACT대규모의 오디오-시각 데이터셋을 만드는 것이 목표.오디오 인식 모델의 학습과 평가에.. 2024. 9. 2.
[논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation [논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation https://openaccess.thecvf.com/content/CVPR2024/papers/Kweon_From_SAM_to_CAMs_Exploring_Segment_Anything_Model_for_Weakly_CVPR_2024_paper.pdf AbstractWeakly Supervised Semantic Segmentation (WSSS)은 image-level class label만 사용하여 세그멘테이션을 수행하는 것을 목적으로 한다.최근 WSSS는 세그멘테이션 foundation 모델인 SAM(Segment A.. 2024. 8. 28.
[논문 리뷰] Unsupervised Object Localization with Representer Point Selection Unsupervised Object Localization with Representer Point Selection  https://openaccess.thecvf.com/content/ICCV2023/papers/Song_Unsupervised_Object_Localization_with_Representer_Point_Selection_ICCV_2023_paper.pdf Abstract새로운 unsupervised object localization 방법을 소개한다.기존의 unsupervised, self-supervised 모델은 class-agnostic activation map이나 self-similarity map 등을 사용했다. 이 방식은 가치 있었지만, 여전히 모델이 어떻게 추론을 하는.. 2024. 8. 23.
[논문 요약] Sound Source Localization is All about Cross-Modal Alignment [논문 요약] Sound Source Localization is All about Cross-Modal Alignment  https://arxiv.org/pdf/2309.10724 Abstract인간은 이미지에서 소리의 근원지를 쉽게 알 수 있다. 이 task를 "sound source localizaion"이라 칭한다.이 논문은 SOTA localization 성능을 보여주는 audio-visual cross-modal semantic understanding 기법을 소개한다. 1. Introduction인간은 쉽게 소리의 근원지를 알 수 있으며, 이벤트를 쉽게 이해할 수 있다.인간의 인식 기법에 착안한 기존의 모델들은 audio와 visual 신호에 상관이 있다고 가정했다.이 가정을 기반한 여러 .. 2024. 8. 7.