keypoint : computation complexity, shifted window Abstract 컴퓨터 비전의 범용 백본 역할을 할 수 있는 새로운 비전 트랜스포머(Swin Transformer)를 소개. NLP에서 vision으로 트랜스포머를 적응(adapting)시키는 문제는 두 domains 간의 차이에서 발생. 예) visual entities의 scale의 visual entities와 텍스트의 단어와 비교하여 이미지의 픽셀 해상도가 높음. 이러한 차이를 해결하기 위해 논문은 representation이 shifted windows으로 계산되는 계층적 트랜스포머를 제안. shifted windowing scheme는 cross-window connection을 허용하는 동시에 self-..
'본 포스팅은 모두의연구소(home.modulabs.co.kr) 풀잎스쿨에서 진행된 'semantic-segmenation' 과정 내용을 공유 및 정리한 자료입니다.' 1. introduction Sementic Segmentation 분야에서 가장 유명하다 할 수 있는 논문인 Unet paper(https://arxiv.org/abs/1505.04597) 의 내용 중. 3.1 에서 Data Augmentation 에 관련하여 언급된 부분이 있었습니다. 더보기 We generate smooth deformations using random displacement vectors on a coarse 3 by 3 grid . The displacements are sampled from a Gaussian ..
요즘 딥러닝이나 데이터사이언스 분야 뿐만 아니라 컴퓨터 과학, 물리학, 수학 등 모든 학문에서 주목하고 있는 컴퓨터 비전에 대해서 알아보도록 하겠습니다. 주로 참고하는 서적은 "Hands-On Computer Vision with TensorFlow2" 이며 추가적으로 참고하는 글은 글 하단에 Reference 를 달아두도록 하겠습니다. 1. 컴퓨터 비전이란? 컴퓨터과학(알고리즘, 데이터 처리, 그래픽), 물리학(광학, 센서), 수학(미적분학, 정보이론), 생물학(시각, 신경) 등 여러 연구 개발 분야가 결합되어 정확한 정의가 어려움 눈 : 끊임없이 포착하는 시각 자극 판독 > 객체 구분 > 인식 컴퓨터 : RGB값 행렬인 픽셀의 한 덩어리. 그 이상의 의미를 갖지 않음 > 컴퓨터 비전의 목표 : 컴..
Comment