2011년 3월 22일 화요일

분산 스트림 컴퓨팅 기술 동향

- 스마트폰, CCTV, RFID, 센서 등 새로운 IT 환경이 사람, 사물, 환경의 스마트화를 가속시키며, 데이터 생성 및 소비에 있어 많은 변화를 주고 있음
- 이는, 데이터의 폭증을 야기함

- 생성 데이터의 대부분은 영상, 음성 등의 비정형 데이터

- 데이터의 적재적소 활용이 기업의 경쟁력 확보에 주요한 요인
- 그러나, 데이터량의 증대는 유용한 정보를 얻는 데 필요한 처리 시간의 지연을 야기하고 있고, 이를 해결하기 위해 분산 병렬 컴퓨팅 기술의 활용이 커지고 있음
- 최신 데이터를 기반으로 전략 수립, 의사 결정 등을 수행하기 위해서 실시간으로 데이터를 처리하여 데이터 처리 지연 시간을 최소화하려는 노력들이 가속화됨. 이를 가능케 하는 기술로 데이터 스트림 연속 처리 기술이 중요해지고 있음

- 비정형 스트림 데이터 처리를 위해 분산 스트림 처리 기술이 연구되고 있음

- 분산 스트림 처리 시스템은 데이터 흐름에 따라 연속 처리, 분산 노드에 단위 업무의 분배 및 부하 분산, 데이터 스트림 분할 및 통합에 의한 병렬 처리, 분산된 업무간의 데이터 스트림 전달 방법, 분산 노드의 장애에 대처하여 연속 서비스 제공 기술 등 분산 컴퓨팅 기술을 기반으로 스트림 연속 처리 기술을 통합하여 제공
- IBM 등 기존 DBMS 업체에서도 스트림 데이터의 폭증에 대한 확장성 제공 및 응용 로직의 유연한 통합을 위해 InfoSphere Streams라는 분산 스트림 컴퓨팅 기술을 제공
(InfoSphere Streams: 분산 스트림 처리 인프라를 기반으로 데이터 모델 기반 데이터 스트림 처리 연산이 통합되어 제공되는 분산 스트림 컴퓨팅 시스템)

- 분산 연속 처리 시스템
   1. Sprout: 인텔에서 개발한 비디오 실시간 분석 시스템인 SlipStream의 하부 시스템으로 대량의 데이터에 대한 분산 연속 처리
   2. MapReduce Online: 버클리 대학에서 대용량 데이터에 대한 일괄 처리를 지원하는 MapReduce를 확장하여 개발한 시스템
   3. S4(Simple Scalable Streaming System): 야후에서 개발 후 오픈소스화한 분산 스트림 처리 시스템
   4. iFlow: 한국전자통신연구원에서 2010년부터 개발하고 있는 분산 스트림 처리 시스템
              : 클러스터 시스템을 기반으로 폭증하는 데이터 스트림을 실시간으로 처리하는 환경을 지원
              : 시스템의 확장성과 스트림 처리 로직의 유연한 통합을 제공

- 분산 스트림 처리 기술은 모니터링&대응 서비스를 위한 기반 기술로, 데이터 처리 지연 최소화, 데이터 폭증에 대한 확장성 및 응용의 유연한 통합 환경을 제공
- 이는, 데이터량의 증가, 이로 인한 처리 시간 지연 등으로 인해 새롭게 각광받고 있는 분산 병렬 처리 기술과 데이터 처리 지연 최소화를 위해 데이터 선처리 후저장 방식의 데이터 처리 모델인 스트림 처리 기술이 통합된 기술
- 컴퓨팅 오버헤드로 인해 실현되기 힘들었던 텍스트, 영상 등 대량의 비정형 데이터 기반의 실시간 서비스를 가능케 하는 기술


** 참고: ETRI 전자통신동향분석 제 26권 제 1호 2011년 2월

댓글 없음:

댓글 쓰기