AI metacog
computer vision 최근 연구 동향
잘 배우고, 잘 익히기
2021. 8. 10. 20:25
딥러닝의 구성요소 | 데이터, HW, 알고리즘(ADMIN, attention, batch norm) |
딥러닝의 적용 분야 | 컴퓨터 비전 자연어 처리 음성인식 게임 인공지능 의료 법률 금융 음악 : OpenAI(Jukebox) |
컴퓨터비전 기본 태스크 | 인식 태스크 : 과거 생성 및 변환 태스크 : 현재 활발 |
인식 태스크 | 존재 이미지/비디오를 통해 판단 |
생성 태스크 | thispersondoesnotexist.com : 사람 얼굴을 생성 - 2019년도 StyleGAN2 |
변환 태스크 | 이미지에서 원하는 요소를 변경(CycleGAN) |
CNN | 컴퓨터비전 분야에서 가장 큰 성공을 가져온 모델 입력-Feature 학습 - 분류 - 부분별로 인식하고 조합해서 최종 판단 상세 - convol. + relu pooling convol. + relu pooling |
ViT | - 쪼개진 정보를 이용해서 transformer encoder에서 처리 - transformer인코딩 |
transformer | attention self attention 이 핵심 RNN->LSTM/GRU 를 transformer가 대체 |
Residual Networks | CNN 모델의 한 종류 모델을 bypass 해서 차이에 대한 정보만 활용하여 학습에 성공 |
인식 태스크 | 실제하는 이미지 이미지 레벨 : point cloud 정보도 포함 비디오 레벨 로컬라이제이션 : object detection segmentation : 영역 분할, 물체 분할 panoptic segmentation facial landmark detection : 얼굴에서 특징 이미지 위치 face localization pose estimation : keypoint estimation |
advanced data augmentation | - hard label의 한계 및 데이터 부족 문제를 해결하고자 하는 기술 - mixup, cutout, cutmix, attentive cutmix 효과 : 분류 성능 향상에 기여 |
knowledge distillation(증류) | hard label의 한계를 개선하고, 모델 경량화에 활용 - teacher model(heavy model), student model(경량화 모델) - soft labels : 70%:30%식으로 분류한 예측을 적용해서 추가 모델 학습 |
컴퓨터 비전 분야의 기본 태스크 | 이미지/비디오 multi-modal 모델 : 텍스트 등의 이종 데이터 활용 종합적 판단 - image captioning |
최신 연구 동향 데이터의 생성 및 변환 모델 |
가짜 얼굴 영상, 음성, 텍스트 등을 자유로이 생성 |
최신 연구 동향 비지도 및 자가지도 학습 self-supervised learning |
대규모 데이터 활용 : 레이블은 없는데 데이터가 많은 경우 디지털화되어 저장된 데이터를 별도의 레이블링 없이 학습함 특정 목적만이 아닌 보다 일반화 가능한 지식을 학습함 이미지에서의 자가지도 학습 - 이미지에서 가려진 부분을 그릴 수 있게 함 : 얼굴에서 가려진 눈을 그리기 |
벡터 표현형을 통한 이종 데이터의 통합 및 변환 | 영상과 자연어 |
기본 베이스 모델의 진화 | CNN --> transformer model ViT |
3D-aware 모델 및 컴퓨터 그래픽스 기술과의 결합 | 이론 기반으로 만들어진 3D 모델을 학습 기반의 딥러닝과 결합함 NeRF |
Vision transformer(ViT) | CNN의 국소적 패턴 위주로 정보를 추출하는 것이 아닌 이미지 전체를 한 번에 보고 예측을 수행함 |
Style Transfer | 영상 합성 및 생성 - 고호 스타일로 이미지 변환 |
Style GAN | https://thispersondoesnotexist.com/ |
컴퓨터비전 생성 모델 기술 동향 | CycleGAN : 일반말을 얼룩말로 DeepFake - 다른 사람의 말하는 입모양까지도 생성 - living portratits : 움직이는 초상화 - Video Motion Retargeting : 댄서의 춤사위를 일반인에 연출 image manipulation 인공지능 기반 자동 채색 : petalica-paint - referene-based sketch image colorization 컴퓨터비전 합성 closed-form factorization of latent semantics in GANs - 레이블링이 관건이 됨 : 일반적인 레이블링 없이도 가능하게 하는 기술로 발전 swapping autoencoder for deep image manipulation - 특정 이미지로 swap 온라인 쇼핑몰에서 옷 fitting 2D to 3D Modeling NeRF : neural radiance fields for view synthesis - 사진 한 장으로 3차원 모델 생성 Implicit neural representing - CNN 이미지 변환 후 3차원 텐서로 구성 - MLP 기반으로 구성 - 영상을 확대 시에도 고해상도 이미지 출력 가능 기술 |
멀티 모달 | image captioning - neural talk : scene에 대한 텍스트 설명 DALL E - text를 입력하면 이미지 생성 StyleGAN - text로 이미지 변경 Intelligent Data Labeling - 인공지능이 개입하여 레이블링 Repurposing GAN Semantic segmentation with Generative Models |
기타 | 초거대 AI모델 - 규모의 경제 실제 활용될 때의 이슈 대두 및 보완책 - 판단 근거 - 취약점 및 보안 문제 MLOps - ML 모델의 서비스화 적용 전체 파이프라인 - 데이터 확보, 정체, 라벨링, 하이퍼파라미터 튜닝, 하드웨어 구성 등 다른 과정 중요 - 유지보수 측면 고려 필요 |
트렌드 | 작은 부분부터 자동화 전략 데이터 축적되고 AI기술 적용으로 가치 영역 확대 중임 |
AI 기술 리소스 | ![]() |
auto labeling : 자동 레이블링에 대해 레이블링 된 정보에 대해서 오류를 정정하는 단계 함께 정정 필요