하둡, 데이터 분석과 활용하기.

현실적으로 기업에서는 한정된 예산과 자원을 가지고 문제를 해결해야 한다. 
그렇기 때문에 하둡,NOSQL같은 오픈소스 기반의 대용량 데이터 플랫폼이 주목을 받게 되었다. 예전에 관계형 데이터베이스 위주로 데이터분석과 활용을 했지만 , 
지금 NoSql이 각광받는 이유를 보면 관계형디비의 인덱스만으로 쉽게 해결할 수 없는 것들을 생각보다 빠르게 해결할 수 있는 방법이 있어서 몽고디비가 인기가 있어지지 않나 싶다. 

그리고
하둡에 대해 공부한 지 얼마안되었지만 , 서치하고 공부하고 해서 공부한 내용을 읽고,정리하고 내 생각 내 느낌대로 풀어나갈 생각입니다. 빅데이터를 활용해 기업가치를 올릴 수 있는 인재가 되기 위함이라고나 봐주셨으면 합니다.이 글이 여러분들에게 1의 가치라도 도움이 되었으면 합니다. 





하둡, 대용량 데이터 처리 부문에 있어 일부에서 표준으로 자리잡은 기술이다.
분산파일시스템(HDFS)과 맵리듀스는 오픈소스 프레임워크로 대용량 데이터를 저렴한 비용으로 기업에서 빠르게 처리하고 분석할 수 있게 도와준다.

데이터 분산 처리 시스템이란 데이터분석을 단일 노드에서 처리하도록 요청하기 보다는 클러스터나 서버에 있는 다중 노드에서 처리하도록 분산하는 방식이다. 같은 알고리즘이 모든 노드에 적용되고 데이터 서브셋을 처리하고, 처리가 끝나면 데이터 집합을 집계하거나 분석하는 것이다. 단순 요약한다면 인사이트를 가장 빠르게 도출하기, 여러 노드에 동일한 작업 배치하기 등이 있다. 선형 처리의 단일노드에서 작업한 거와는 다르게 속도면에서 빠른 처리가 가능해서 빅데이터로부터 빠른 답을 얻는데 큰 장점이 있다.

하지만 막상 기업에서 도입해 활용하기 까지는 꽤 긴시간이 걸린다. 몇년 전만 해도 단지 새로운 데이터 처리 기술 중 하나에 불과했다. 그전에는 관계형 데이터베이스 관리시스템(RDBMS) 예 오라클) 만으로도 충분히 처리할 수 있다고 믿었다. 하지만 카카오나 다음같은 하루에도 방대한 데이터량을 처리하고 활용해야 하는 기업에서는 아무리 쿼리 튜닝을 해도 좀처럼 나아지지 않는 퍼포먼스때문에 사람들이 점점 다른쪽에 관심을 가지게 되었다.
기존 솔루션으로는 데이터를 감당하기에 너무나 많은 비용과 시간이 들었던 탓이다.
정량화 할 수 없는 비정형데이터에는 시간대비 손실이 많은 것이다. 

실제로 하둡을 도입해 활용하고 있는 기업사레를 볼 수 있다.KT에서는 데이터 로그 처리와 해석을 위해 하둡을 도입했다, 통신사용자는 점차 늘어나고 있는데, 매번 장비를 사기엔 비용이 많이 들었다. 그래서 신규사업 준비가 필요한 상황에 하둡을 도입하기로 결정했다.
하지만 도입전에 고민이 많았다고 한다. 하지만 일부에서 거창하게 빅데이터 플랫폼을 고민하고 투자하기보다는 일단 한 번 시작이라도 해보는 것이 중요하다고 했다.

알고보면 빅데이터 라는것은 작은데이터들의 집합이니까, 하둡의 특징이 분산파일시스템이니 작은데이터부터 잘 모으고 분석해서 활용한다면 어떨까? 그다음 필요한 데이터 흐름을 파악한 뒤 도입 할지 알할지 결정하면 되니까. 만약 비용이 이전보다 배로 늘어난다면 철회하여 이전 시스템으로 돌아가고, 더 나으면 플랫폼을 만들어 분석활용하면 된다 생각한다. 
탁상공론보다 현장에서 데이터를 만지고 다루고, 플랫폼 프로토타입을 만들어서 결과를 만들어서 약한부분, 보완해야할 부분 나눠서 도입을 결정한다면 좋다고 생각되는 바이다.
비록 나는 실제로 대용량 데이터를 만진 부분이 없어서 이러한 부분에 확신은 없지만, 
확신한 건 직접해보는게 아닐까 생각된다. 

kt에서는 정형 데이터 분석과 리포팅엔 기존 DW를 쓰고,
   대용량 데이터 분석과 리포팅엔 하둡, 분산 검색, H베이스, 하이브, R바탕의 넥스  알빅데이터 분석 플랫폼을 활용하기 시작했다.

그 결과, 특정 지역에서 무선 데이터를 사용한 고객들의 전체지역, 시간대별 데이터 사용패턴을 파악할 수 있었고, 거의 실시간 수준에 가깝게 분석 결과가 나왔다.
기존 시스템으론 상상도 할 수 없는 일로, 서비스 규모와 질이 달라졌다.

여기서 보면 과거에는 대용량 데이터분석을 하려면 수직적 확장 구조에 단일 노드 구조라 데이터양이 증가하면 성능이 저하되고 비용이 증가하는 상황이라면, 하둡 기술의 등장으로 대용량 데이터를 손수 처리하고 분석할 수 있는 이점과 비용절감이 있다.
기업에서는 고민할 시간에 도입해보고 , 긍정적인지 부정적인지의  결과들을 지켜봐서 하는것이 어떨까라는 물음으로 이 글을 마친다. 


























0 comments:

Post a Comment