AI metacog

computer vision 최근 연구 동향

잘 배우고, 잘 익히기 2021. 8. 10. 20:25
딥러닝의 구성요소 데이터, HW, 알고리즘(ADMIN, attention, batch norm) 
딥러닝의 적용 분야 컴퓨터 비전
자연어 처리 
음성인식
게임 인공지능
의료
법률
금융
음악 : OpenAI(Jukebox)
컴퓨터비전 기본 태스크 인식 태스크 : 과거 
생성 및 변환 태스크 : 현재 활발
인식 태스크  존재 이미지/비디오를 통해 판단 
생성 태스크 thispersondoesnotexist.com : 사람 얼굴을 생성 
 - 2019년도 StyleGAN2 
변환 태스크  이미지에서 원하는 요소를 변경(CycleGAN) 
CNN 컴퓨터비전 분야에서 가장 큰 성공을 가져온 모델 
입력-Feature 학습 - 분류
 - 부분별로 인식하고 조합해서 최종 판단
상세 
 - convol. + relu pooling convol. + relu  pooling  
ViT  - 쪼개진 정보를 이용해서 transformer encoder에서 처리 
- transformer인코딩
transformer attention 
self attention 이 핵심 
RNN->LSTM/GRU 를 transformer가 대체 
Residual Networks CNN 모델의 한 종류
모델을 bypass 해서 차이에 대한 정보만 활용하여 학습에 성공
인식 태스크  실제하는 이미지
이미지 레벨 : point cloud 정보도 포함
비디오 레벨
로컬라이제이션 : object detection 
segmentation : 영역 분할, 물체 분할 
panoptic segmentation
facial landmark detection : 얼굴에서 특징 이미지 위치 
face localization
pose estimation : keypoint estimation 

 

advanced data augmentation   - hard label의 한계 및 데이터 부족 문제를 해결하고자 하는 기술 
 - mixup, cutout, cutmix, attentive cutmix
효과 : 분류 성능 향상에 기여 
knowledge distillation(증류) hard label의 한계를 개선하고, 모델 경량화에 활용 
 - teacher model(heavy model), student model(경량화 모델)
 - soft labels : 70%:30%식으로 분류한 예측을 적용해서 추가 모델 학습

 

컴퓨터 비전 분야의 기본 태스크 이미지/비디오
multi-modal 모델 : 텍스트 등의 이종 데이터 활용 종합적 판단
 - image captioning 
최신 연구 동향
데이터의 생성 및 변환 모델 
가짜 얼굴 영상, 음성, 텍스트 등을 자유로이 생성 
최신 연구 동향
비지도 및 자가지도 학습 
 self-supervised learning
대규모 데이터 활용 : 레이블은 없는데 데이터가 많은 경우
디지털화되어 저장된 데이터를 별도의 레이블링 없이 학습함 
특정 목적만이 아닌 보다 일반화 가능한 지식을 학습함
이미지에서의 자가지도 학습
 - 이미지에서 가려진 부분을 그릴 수 있게 함 : 얼굴에서 가려진 눈을 그리기
벡터 표현형을 통한 이종 데이터의 통합 및 변환 영상과 자연어
기본 베이스 모델의 진화 CNN --> transformer model 
ViT
3D-aware 모델 및 컴퓨터 그래픽스 기술과의 결합  이론 기반으로 만들어진 3D 모델을 학습 기반의 딥러닝과 결합함
NeRF
Vision transformer(ViT) CNN의 국소적 패턴 위주로 정보를 추출하는 것이 아닌 이미지 전체를 한 번에 보고 예측을 수행함 
Style Transfer 영상 합성 및 생성 
 - 고호 스타일로 이미지 변환
Style GAN https://thispersondoesnotexist.com/
컴퓨터비전 생성 모델 기술 동향 CycleGAN : 일반말을 얼룩말로 
DeepFake
 - 다른 사람의 말하는 입모양까지도 생성 
 - living portratits : 움직이는 초상화 
 - Video Motion Retargeting : 댄서의 춤사위를 일반인에 연출
image manipulation 
인공지능 기반 자동 채색 : petalica-paint 
 - referene-based sketch image colorization 
컴퓨터비전 합성 
closed-form factorization of latent semantics in GANs
 - 레이블링이 관건이 됨 : 일반적인 레이블링 없이도 가능하게 하는 기술로 발전
swapping autoencoder for deep image manipulation 
 - 특정 이미지로 swap 
온라인 쇼핑몰에서 옷 fitting 
2D to 3D Modeling  NeRF : neural radiance fields for view synthesis 
 - 사진 한 장으로 3차원 모델 생성 
Implicit neural representing 
 - CNN 이미지 변환 후 3차원 텐서로 구성
 - MLP 기반으로 구성 
 - 영상을 확대 시에도 고해상도 이미지 출력 가능 기술 
멀티 모달 image captioning 
 - neural talk : scene에 대한 텍스트 설명 
DALL E 
 - text를 입력하면 이미지 생성 
StyleGAN 
- text로 이미지 변경 
Intelligent Data Labeling 
 - 인공지능이 개입하여 레이블링 
Repurposing GAN 
Semantic segmentation with Generative Models
기타 초거대 AI모델
 - 규모의 경제 
실제 활용될 때의 이슈 대두 및 보완책 
 - 판단 근거 
 - 취약점 및 보안 문제 
MLOps
 - ML 모델의 서비스화 적용 전체 파이프라인 
 - 데이터 확보, 정체, 라벨링, 하이퍼파라미터 튜닝, 하드웨어 구성 등 다른 과정 중요
 - 유지보수 측면 고려 필요 

트렌드 작은 부분부터 자동화 전략
데이터 축적되고 AI기술 적용으로 가치 영역 확대 중임
AI 기술 리소스 

auto labeling : 자동 레이블링에 대해  레이블링 된 정보에 대해서 오류를 정정하는 단계 함께 정정 필요