본문 바로가기
ITPE metacog/Cloud metacog

AWS SAP : 200GB게놈 데이터 일일 Batch 분석 작업

by 잘 배우고, 잘 익히기 2021. 3. 20.

200GB 게놈 데이터 일일 Batch 분석 작업

Req) 어떤 생명과학 회사가 사용하고 있는 오픈소스 툴은 관리 영역이 데이터 분석워크플로와 도커 컨테이너입이다. 

         도커 컨테이너는 온프레미스 데이터가 있는 서버에서 구동되며 유전 데이터를 처리합니다. 

         시퀀싱 데이터를 생성/저장하는데에 로컬SAN을 사용하여 데이터를 처리합니다.

          R&D팀은 용량 이슈를 겪고 있고, re-architect를 결정하여 유전데이터 분석 플랫폼을 AWS상에서 스케일 기반으로

          워크로드 요구를 대응하고, 처리시간을 Weeks에서 Days로 줄이려고 한다. 

          회사는 고속 AWS Direct Connection연결이 있습니다. 시퀀서는 약 200GB 데이터를 각 게놈별로 생성할 것이고, 

          개별 시간 별로 데이터를 이상적 컴퓨터 용량으로 처리할 것입니다. 

          최종 결과는 S3에 저장될 것입니다. 10~15개 Job요청이 매일 예상되고 있습니다. 

          어떤 솔루션이 이런 요구사항들을 만족실까요?

 

Sol) DataSync, Lambda function, Step Functions workflow, ECR, AWS Batch 

시퀀싱 데이터 저장 용량 이슈 대응 AWS DataSync : S3로 이관
도커 컨테이너 처리 ECR : 도커 이미지 저장
데이터 분석 워크플로 S3 Event, Lambda Function, AWS Step Functions workflow
일일 10~15개 Job 처리  AWS Batch : 컨테이너 기동

    - 고속의 Direct Connection서비스를 사용하는 상황이고, 200GB 데이터 사이즈 수준으로 snowball edge 보다는 DataSync 적합