- ChatGPT4 프롬프트로 DALL·E3 사용법 2023.11.13
- 컬러 영상의 히스토그램 매칭(Histogram Matching) / 파이썬 코드 2023.05.02
- Latent Space에 대한 이해 2023.03.22
- Object Detection, Segmentation 분야에 자주 사용되는 MIoU에 대하여.. 2022.12.22
- [C++/OpenCV] 주파수 영역 필터링 / 저주파 및 고주파 통과 필터링 2022.07.20
- [OpenCV] PCA (Principal Component Analysis), 주성분 분석이란 무엇일까? 2022.07.18
최신 글
- [데이터셋 조사] Audio-Visual 데이터셋 조사 [데이터셋 조사] Audio-Visual 데이터셋 조사 LRS3This dataset introduced by Afouras et al. exclusively comprises of real videos. It consists of 5594 videos spanning over 400 hours of TED and TED-X talks in English. The videos in the dataset are processed such that each frame contains faces and the audio and visual streams are in sync.https://mmai.io/datasets/lip_reading/ Explore -->" data-og-host="mmai.io" d..
- [데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET [데이터셋 소개] VGG-SOUND: A LARGE-SCALE AUDIO-VISUAL DATASET https://arxiv.org/pdf/2004.14368https://github.com/hche11/VGGSound?tab=readme-ov-file GitHub - hche11/VGGSound: VGGSound: A Large-scale Audio-Visual DatasetVGGSound: A Large-scale Audio-Visual Dataset. Contribute to hche11/VGGSound development by creating an account on GitHub.github.com ABSTRACT대규모의 오디오-시각 데이터셋을 만드는 것이 목표.오디오 인식 모델의 학습과 평가에..
- [논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation [논문 리뷰] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation https://openaccess.thecvf.com/content/CVPR2024/papers/Kweon_From_SAM_to_CAMs_Exploring_Segment_Anything_Model_for_Weakly_CVPR_2024_paper.pdf AbstractWeakly Supervised Semantic Segmentation (WSSS)은 image-level class label만 사용하여 세그멘테이션을 수행하는 것을 목적으로 한다.최근 WSSS는 세그멘테이션 foundation 모델인 SAM(Segment A..
- [논문 리뷰] Unsupervised Object Localization with Representer Point Selection Unsupervised Object Localization with Representer Point Selection https://openaccess.thecvf.com/content/ICCV2023/papers/Song_Unsupervised_Object_Localization_with_Representer_Point_Selection_ICCV_2023_paper.pdf Abstract새로운 unsupervised object localization 방법을 소개한다.기존의 unsupervised, self-supervised 모델은 class-agnostic activation map이나 self-similarity map 등을 사용했다. 이 방식은 가치 있었지만, 여전히 모델이 어떻게 추론을 하는..
- [논문 요약] Sound Source Localization is All about Cross-Modal Alignment [논문 요약] Sound Source Localization is All about Cross-Modal Alignment https://arxiv.org/pdf/2309.10724 Abstract인간은 이미지에서 소리의 근원지를 쉽게 알 수 있다. 이 task를 "sound source localizaion"이라 칭한다.이 논문은 SOTA localization 성능을 보여주는 audio-visual cross-modal semantic understanding 기법을 소개한다. 1. Introduction인간은 쉽게 소리의 근원지를 알 수 있으며, 이벤트를 쉽게 이해할 수 있다.인간의 인식 기법에 착안한 기존의 모델들은 audio와 visual 신호에 상관이 있다고 가정했다.이 가정을 기반한 여러 ..
- [자율주행] 다중센서기반 물체 탐지/인식 기술 조사 [자율주행] 다중센서기반 물체 탐지/인식 기술 조사 관련 기술에 대한 논문을 읽고 배경지식 / 중심 내용 발췌 정리 1. 열악한 환경에서의 자율주행을 위한 다중센서 데이터셋 구축https://jkros.org/_common/do.php?a=full&b=33&bidx=3021&aidx=33759 Journal of Korea Robotics Society[ ARTICLE ]The Journal of Korea Robotics Society - Vol. 17, No. 3, pp. 245-254 Abbreviation: J. Korea Robot. Soc.ISSN: 1975-6291 (Print) 2287-3961 (Online) Print publication date 31 Aug 2022 Received ..
- [주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing [주관적 논문 내용 정리] Collaborative Diffusion for Multi-Modal Face Generation and Editing https://arxiv.org/abs/2304.10530 Collaborative Diffusion for Multi-Modal Face Generation and EditingDiffusion models arise as a powerful generative tool recently. Despite the great progress, existing diffusion models mainly focus on uni-modal control, i.e., the diffusion process is driven by only one modality of c..