스파크와 하둡 , 악어와 악어새의 관계에서

아파치 스파크는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 하둡기반에도 적용이 되는 기술이다. 그 중에 , 첫번째는 고급분석이다. 스파크는 즉각적인 분석을 위한 프레임워크를 제공한다. 여기에는 고속 쿼리 수행 툴, 머신 학습 라이브러리, 그래프 프로세싱 엔진, 스트리밍 분석 엔진이 포함되어 있다. 구하기 힘든 데이터과학자가 있어도 분석하기 힘든 맵리듀스와는 달리 쉽고 빠르게 이용할 수 있는 라이브러리를 제공한다. 덕분에 일정 교육만 받으면 이 전보다 나은 효과를 일터에서 적용할 수 있다. 더 나아가서 분석 결과를 정확히 해석할 수 있도록 지원한다.

맵리듀스는 놀라운 기술 이지만 모든 문제를 해결하지 못한다. 하둡 도입한 기업은 중요한 질문에 대한 해답을 찾기 위해 다양한 분석 인프라와 프로세스가 필요한다. 또한 데이터 준비, 기술적 분석, 검색, 예측 분석, 기타 머신 학습과 그래프 프로세싱 등 고급 분석이 요구된다. 여기서 이런 요소들과 연동되어, 이미 보유한 기능과 자원을 이용할 수 있게끔 지우너하는 툴 세트가 필요하다, 현재까지는 이런 기준 모두를 만족시키는 하나의 프로세싱 프레임워크는 존재하지 않는다.메모리를 주기억장치에 사용하면 메모리부족과 관련된 성능문제가 생긴다,  스파크는 그래서 메모리 위에서 데이터를 공유를 해서 성능문제를 극복한다. 


하둡은 오랜 기간 이용이 어렵고, 이를 이용할 수 있는 사람을 찾기는 더 어렵다는 비판을 받아왔다. 새 버전이 발표되지만  아직은 이런 비판을 면치 못하고 있다.

스파크는 사용자가 자바와 맵리듀스 프로그래밍 패턴 등 여러 복잡한 내용을 이해할 필요가 없다. 데이터베이스 와 파이썬이나 스칼라 등듸 스크립팅 기술을 조금 갖고 있다면 누구나 이용할 수 있다는 장점이 있다. 디스크 액세스가 필요한 다른 기법보다 빨리 결과를 제시하는 병령 인-메모리 프로세싱 기능을 제공한다.

이는 기업들이 데이터를 이해하고, 틀을 이용해 이를 처리할 수 있는 사람을 더 쉽게 찾을 수 있다는 의미이다. 개발업체는 더 빨리 분석 솔루션을 개발, 개선할 수 있다.

그리고 하둡 개발업체를 가리지 않는 스파크이다. 주요 배보판 대다수가 스파크를 지원하는데, 스파크는 개발업체 중립적인 솔루션이다.사용자를 특정 개발업체에 매여 있지 않아도 된다는 의미이다. 즉 오픈소스 이기 때문이다.

이처럼 스파크가 단기간에 모멘텀을 형성할 수 있었던 이유는 기업의 요구와 일치하기 때문이다. 아직은 도입한 기업들은 없지만 머지않아 포털사이트나,카카오 같은 빅데이터 처리가 중요 사업인 기업에서는 언젠가 다양한 빅데이터 분석 환경의 핵심 기술 가운데 하나로 자리를 굳힐 것이다. 자바기술을 활용해 웹사이트를 만드는 기술중의 하나인 JSP처럼, 기업의 요구를 만족시키는 기술들은 계속해서 발전하고 개발된다. 스프링프레임워크가 표준업계로 요구된것 처럼 말이다.






0 comments:

Post a Comment