하둡, Wordcount (독립실행모드)


필자가 듣기로 하둡은 wordcount의 원리가 하둡이라고 어느 개발자가 했던 말이 생각나서 실습을 진행했다. 하둡에서 단어를 분석하는 과정은 맵리듀스로 처리한다.

input한 파일을 Map으로 받아와서 각각 저장소에 있는 파일들을 
Reduce로 잘개 쪼개서 분석을 한다. 
Map은 하둡안에 있는 wordcounting.jar 파일을 이용해서 
라인단위로 파싱하여 단어로 쪼개서 객체에 담는다.




라인을 쪼개서 단어를 키로 값은 숫자로 한것이 매퍼전부다. 



전체적인 실행흐름이다.




 모든 노드들을 실행한다. $ start-dfs.sh .




실행흐름이다. 개발자 블로그를 찾아다니며 내가 설정한 파일 경로에 맞게 다시 실행을 해줬다. 하둡2.xx버전 이후로 wordcounting 예제가 다른 경로에 있었다 .  다시 찾아서 확인한뒤 실행을 하였다.  실습하면서 내게는 경로문제가 자주 발생하였다. 아마 자주 다뤄보지않아서 그런것 같았지만, 모든 문제는 익숙해지고 노력하면 해결될 것이라 생각한다. 




결과를 확인한다. 머릿속으로 어떻게 파일을 인풋하고 가져와서 분석을 하는지 하둡의 구조를 떠올리면서 보자.





주의할 사항!
여기서 한가지 주의할 점이 있습니다.
초기 설치시에는 해당사항이 없지만 한번 서비스를 진행하다가 다시 namenode를 format 해야하는 일이 생기면, 반듯이 먼저 datanode 하위 모든 파일을 삭제하고 진행을 해야 합니다. 만약 하위 파일들을 삭제하지 않고 format을 하면 namenode의 clusterId와 datanode의 clusterId가 달라져서 정상적으로 동작하지 않을 수 있습니다.



더 자세한 정보를 볼려면 다른 개발자의 글을 참고하길 바란다. 감사합니다. 



Related Posts:

  • 하둡, 데이터 분석과 활용하기. 현실적으로 기업에서는 한정된 예산과 자원을 가지고 문제를 해결해야 한다.  그렇기 때문에 하둡,NOSQL같은 오픈소스 기반의 대용량 데이터 플랫폼이 주목을 받게 되었다. 예전에 관계형 데이터베이스 위주로 데이터분석과 활용을 했지만 ,  … Read More
  • 하둡, Wordcount (독립실행모드) 필자가 듣기로 하둡은 wordcount의 원리가 하둡이라고 어느 개발자가 했던 말이 생각나서 실습을 진행했다. 하둡에서 단어를 분석하는 과정은 맵리듀스로 처리한다. input한 파일을 Map으로 받아와서 각각 저장소에 있는 파일들을  Reduce로… Read More
  • R , 텍스트 마이닝 & 워드클라우드 비정형텍스트를 기반으로 의미있는 명사를 추출하는 기술을 텍스트마이닝이라고 한다. 단어분류 또는 문법적 구조분석 등의 자연언어 기술에 기반하며,  워드클라우드는 문서의 단어들을 분류하여 그 빈도를 한눈에 보기 쉽게 한다 영화 박열의 리뷰를 크롤링해… Read More
  • 스파크와 하둡 , 악어와 악어새의 관계에서아파치 스파크는 하둡 기반의 고급 실시간 분석이 용이하도록 도와주면서 하둡기반에도 적용이 되는 기술이다. 그 중에 , 첫번째는 고급분석이다. 스파크는 즉각적인 분석을 위한 프레임워크를 제공한다. 여기에는 고속 쿼리 수행 툴, 머신 학습 라이브러리, 그래프 프로세싱 엔진… Read More

0 comments:

Post a Comment