Image Image Image Image Image Image Image Image Image Image Image Image
Scroll to top

Top

No Comments

[빅맨]1. 김병곤 클라우다인 대표…”빅데이터 활용 편하게”

| 2013년 01월 03일, 오전 11:00

2012년 말 스토리지 전문 업체인 EMC는 IDC에 의뢰해 6번째인 ‘디지털 유니버스 연구 보고서(IDC Digital Universe Study)’ (빅데이터, 더욱 길어진 디지털 그림자, 이머징 마켓의 놀라운 성장 Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East)”의 연구 결과를 발표했습니다. 이 자료에 따르면 디지털 데이터 양 2년마다 2배씩 성장, 2012년 2.8 ZB, 2020년 40 ZB에 도달할 것으로 나타났습니다. 이는 2005년 디지털 데이터 양인 0.13 제타바이트의 300배에 해당하는 양입니다.

이렇게 많은 양의 데이터가 상당히 빠르게 늘어나면서 ‘빅데이터(Bigdata)’를 수집, 저장, 처리, 분석하려는 움직임이 나타나고 있습니다. 빅데이터를 다루기 위한 플랫폼부터 이렇게 쌓은 데이터에서 가치를 뽑아내려는 이들까지 이 분야 종사자들은 개발자, 아키텍처, 컨설턴트, 데이터과학자, 현업 사용자 등 다양합니다. 디퍼스닷넷에서는 빅데이터와 관련된 다양한 인물들을 만나 이야기를 나눠보는 ‘빅맨’ 시리즈를 마련했습니다. 빅데이터와 관련된 이들을 디퍼스닷넷에서는 빅맨(Bigman)이라고 칭하기로 했습니다. 국내외 많은 빅맨들을 만나서 빅데이터에 대한 생각들과 이를 통한 가치 창출 등 다양한 목소리들을 들어볼 계획입니다. 이 인터뷰 시리즈는 열린 장입니다. 주위에 멋진 빅맨들 있으시면 언제든지 연락을 주십시오. (eyeball@deepers.net, 010-8875-0763)

“빅데이터(Bigdata)를 다루는 이들이 아주 쉽게 잘 다룰 수 있도록 하는 것이 목표입니다.”

빅맨 첫번째 주자인 클라우다인 김병곤 대표의 말이다. 그와는 자바개발자커뮤니티(JCO) 회장을 하면서 인사를 나눴다. 지금은 전 JCO  회장이자 빅데이터 관련 전문 업체인 클라우다인 대표다. 국내 빅데이터 프로젝트에도 많이 참여했으며 여전히 관련 분야에서 일을 하고 있다. 6년전에 이미 관련 프로젝트에 참여해 경험을 했으니 국내 상황을 그 누구보다 잘 알고 있는 인물 중 한명이다.

최근 그는 ‘플라밍고(Flamingo)‘라는 빅데이터 관련 오픈소스 커뮤니티를 이끌면서 ‘플라밍고 하둡 매니저(Hadoop Manager)’를 개발하고 있다. 이 오픈소스는 하둡 사용자를 위한 워크플로우 디자이너와 잡 관리 도구다. 플라밍고는 홍학이다. 빅데이터 분야 사실상의 표준 플랫폼으로 자리잡은 하둡 생태계가 다양한 동물 이름을 넣은 코드명을 짓는 상황에서 그들도 이런 위트 있는 프로젝트를 만들어 냈다.

플라밍고 하둡 매니저 솔루션 0.1 버전은 지난 2012년 11월 초에 세계 최대 오픈소스 개발 포털 사이트인 소스포지닷넷(www.sourceforge.net) 에 공개되었다. 이 프로젝트는 2012년 6월 정보통신산업진흥원의 커뮤니티 지원 사업 중 하나인 ‘빅데이터 분석과 데이터 처리 웹 관리도구 사업’을 수주, 진행해오면서 만들어졌다.

그는 “사이트에 공개 후 우리나라보다 해외에서 다운로드가 더 많아졌어요. 특히 미국, 중국, 인도에서 가장 많이 다운을 해서 빅데이터에 관심이 많은 곳이 어디인지 대략 파악할 수 있게 되었죠. 그 외 국가를 포함해서 총 10여곳의 나라 개발자들이 관심을 보였습니다”라고 흐믓한 미소를 지었다.

플라밍고 하둡 매너저에 대해 김병곤 대표는 “하둡은 협업 사용자들이 다루기 무척 까다로운 오픈소스 소프트웨어입니다. 한두개의 오픈소스 소프트웨어가 아니라 거대한 생태계지요.  현업 사용자들이 하둡 기반으로 저장된 데이터들을 쉽게 다룰 수 있도록 만들고 있습니다. 기존 상용 업체들이 제공하는 수준의 사용자 인터페이스와 웹 브라우저를 통한 손쉬운 적용, 설계한 워크플로우를 운영에 적용할 수 있도록 배치 스케줄러 제공을 목표로 하고 있습니다”라고 밝혔다.

왜 이런 툴을 그것도 오픈소스로 만들어서 공개하려는 것일까?

김 대표는 빅데이터 분야에서는 오픈소스 소프트웨어 말고는 답이 없다고 강조한다. 이미 하둡(Hadoop) 생태계가 빅데이터 플랫폼을 위한 사실상의 표준으로 전세계 시장에서 검증이 된만큼 이를 적극 활용하는 일이 남았다는 것. 하지만 이 하둡 생태계의 소스들은 상용 제품처럼 패키지화 되어 있지 않고 반제품 형태로 제공되기 때문에 프로그래밍을 해야 한다. 이로 인해서 실제 데이터를 다루는 현업 사용자들도 이를 알아야 하지만 그게 쉽지 않다. 현업 사용자들이 편하게 하둡에 쌓은 데이터들을 활용하려면 이들이 익숙한 형태의 UI를 제공해야 된다는 것이 그의 생각이다.

특히 관련 제품을 개발한다고 해서 시장 초기 단계에 상용 제품으로 판매되기가 상당히 힘들다고 판단했다.

그는 “상용 패키지로 최근의 기술 변화를 따라갈 수도 없다는 건 이미 검증되었다고 봅니다. 따라서 관련 제품들도 오픈소스로 공개해 놓고 빠르게 이를 사용하는 고객들을 만들고 지원하는 형태로 사업 모델을 가져갈 필요가 있다고 판단했습니다. 그래서 관련 프로젝트를 제안했고, 연구 과제에 선정되면서 이를 진행하게 된 것이죠”라고 말했다.

김대표는 또 “오픈소스의 혜택을 받았으니 당연히 소스를 오픈하는 것도 그에 대한 답례”라고 덧붙였다. 많은 이들이 사용을 해야 시장에서 경쟁력이 생기는 것이니 만큼 이 방식대로 따라하고 있을 뿐이라는 설명이다.

빅데이터에 대한 기업들이나 관의 관심은 그 어느 때보다 높은 편이지만 국내 시장에서는 쉽사리 이를 진행하기가 만만치 않다는 것이 김병곤 대표의 진단이다. 그는 “여전히 고객들이 빅데이터에 대한 관심은 높지만 이게 무엇인지 전혀 이해하지 못하고 있어요. 대응 방법도 기존 IT 프로젝트 하듯이 하려고 하거든요. 당연히 실패를 하죠. 또 경기가 그래서 그런지 몰라도 돈도 없는 것 같구요”라면서 긴 호흡이 필요하다고 강조했다.

다음은 그와 나눈 일문 일답.

도 : 언제부터 빅데이터 분야에 관심을 가졌나.

레드햇의 미들웨어인 제이보스(JBoss) 책을 쓰다가 우연치 않게 모 통신사 프로젝트에 아키텍터가 없다고 해서 참여하게 되었습니다. 데이터 표준화 작업이었어요. 6년전인데 지금 보면 빅데이터 프로젝트였어요. 외산 상용 제품으로 하려고 했다가 돈이 너무 많이 드니 하둡을 들여오자는 거였죠. 정말 시장 초기에 빅데이터의 원형을 본 거죠.

빅데이터 분야가 말은 넘쳐나는데 그 실제 사례는 많지 않은 것 같다. 왜 그런가.

그간 경험으로 보면 정말 데이터를 다뤄볼 수 있는 곳 아니면 하기가 힘들어요. 그런 환경이 중요하거든요. 하둡이 사실상 업계 표준이라고 해도 이걸 적용할 수 있는 업무 부서에서 일을 해야 하는데 그런 곳이 많지 않죠.

도 : 그럼에도 진행되는 프로젝트에서 가장 힘든 점은.

백엔드 시스템부터 프론트앤드 제품 개발과 활용까지 모두 총괄해야 하는데 쉽지 않죠. 경영자들이 이 프로젝트의 중요성을 인식해야 하는데 실제는 그렇지 않은 경우도 많구요. 여전히 빅데이터가 무엇인지 잘 모르는 고객들도 많습니다. 인프라 구축, 운영, 개발, 홈페이지 구축 등 할 일은 많고 사람도 필요하잖아요. 여전히 사람들도 준비가 안되어 있고, 인건비도 기존 IT 프로젝트하듯이 매달 인당 얼마다라고 하는데 이 프로젝트는 그런 성격이 아니거든요. 또 단기간에 성과를 내라고 하는데 그것도 아니거든요. 오픈소스 소프트웨어들의 조합인데 그걸 대체할 상용 제품군은 거의 없다고 봐도 무방해요. 패키지 사서 프로젝트 하는 방식에 익숙해져 있다보니 하기도 힘들죠. 돈들도 많이 없는 것 같습니다.

또 기업 내부에서 서로 다른 부서들이 보유한 로그들을 하나로 모을 수 있도록 정책도 만들어야 하는데 이게 쉽지 않아요. 통합로그 관리라는 말은 쉽지만 이런 협력 체계를 만들어 내기가 플랫폼 만들어 내기보다 어렵다는 소리가 있습니다. 똑똑한 의사결정자가 강력하게 이를 추진해줘야 하는데 이 또한 쉬운일이 아닌 듯 보입니다. 그런 회사를 만나는 건 행운이죠. 행운.

도 : 어떤 곳들이 빅데이터 프로젝트 하기에 수월한 것 같나.

앞서 밝힌대로 인력이 무척 중요해요. 데이터도 있어야 하구요. 이런 것이 결합된 곳은 대부분 서비스 회사들이죠. 내부 인력도 있고 항상 데이터를 다룰 수 있는 곳이죠. 물론 그런 곳들도 내부 인력 양성이 쉽지 않으니 어려워하지만 그런 곳들을 위해 전문 업체들이 존재하잖아요. 포털 업체나 금융, 통신 업체, 리테일 등이 우선 적용할 수 있겠죠.

빅데이터 프로젝트는 단순히 연구개발 조직이 있다고 되는 게 아닌 것 같습니다. 항상 서비스에 적용해보고 그 피드백을 받아서 다시 플랫폼과 프로세스를 손보고 꾸준히 변화시켜야 하거든요. 그런 면에서 서비스를 직접 하는 곳들이 유리하다고 봅니다. 포털들이 가장 유리한 이유도 바로 여기에 있죠. 인력들도 있고 서비스 개선 목표도 명확하거든요. 연구개발도 중요하지만 그 조직을 서비스 조직과 연결시키는 것이 자사에 유리한 플랫폼과 인력을 모두 확보할 수 있는 방안이라고 봅니다.

도 : 플라밍고라는 커뮤니티를 만들고 하둡 매니저를 개발, 오픈소스로 공개했다. 왜 만들고 있나.

하둡 생태계는 모두 오픈소스로 구성돼 있습니다. 이게 기존 현업 사용자들이 다루기가 쉽지 않아요. 빅데이터 플랫폼 전문 회사들이 존재하는 이유기도 하죠. 이런 문제들을 해결해주니까요. 저희는 기존 업무를 보던 이들이 손쉽게 하둡 인프라에 저장되어 있는 데이터들을 다룰 수 있도록 하는 걸 목표로 하고 있어요. 상용 소프트웨어들이 제공하는 손쉬운 사용자 인터페이스를 하둡 진영도 제공해야 된다고 봐요. 그래야 확산도 더 쉬울 것 같구요. 또 오픈소스 말고는 해법도 없습니다. 소프트웨어가 많이 사용해야 힘을 가져가잖아요. 오픈소스로 해야 국내외에 많이 퍼지게 되고 저희 같은 기술 기업은 기술 지원을 하면서 지속적으로 업그레이드를 할 수 있거든요. 엄청 비싼 상용 제품을 만든다고 해서 팔지지도 않아요. 그래서 제대로 된 툴을 제공해보겠다는 데 방점을 뒀습니다.

그리고 오픈소스의 혜택을 받았으니 당연히 오픈소스로 한 것도 이유입니다.

고객들이 오픈소스에 대한 인식이 많이 바뀌었다고 하지만 여전히 공짜라는 인식이 강한편이죠. 작은 회사가 상용 패지키를 만들어서 이 시장에 뛰어들기가 쉽지 않은 것도 이유입니다.

도 : 프로젝트 하랴 제품 개발하랴 정신이 없겠다.

회사에 있을 때보다 집에 있을 때 더 개발이 잘됩니다. 하하하. 집중을 하게 되더라구요. 회사에서는 잡무가 많거든요. 그러다보면 코드도 꼬이고 진척도 잘 안되는데 조용한 환경에서 집중할 수 있어요. 가끔 커피숍에서 집중적으로 코딩을 하기도 해요. 오픈소스 프로젝트 특성상 단기간보다는 장기적으로 가야하기 때문에 여유를 가지고 하고 있습니다. 빨리 하지 않으면 안되는 게 아니라 제대로 잘 해야 되는 거거든요. 그리고 갠적으로는 20대부터 30대 초반까지 많은 경험을 한 국내 많은 인재들이 오픈소스 혜택을 많이 봐온 만큼 그들이 많이 참여를 하면 저희 뿐아니라 좋은 오픈소스들이 많이 나올 것 같습니다. 그들이 아키텍처를 잘 짜고 코딩을 하면서 많은 작품들을 내놓는다면 국내도 오픈소스들이 많이 나올 것 같습니다. 이 호기를 놓치면 안될 것 같습니다. 개발도 하고 대화도 많이 나누고 있습니다.

도 : 빅데이터 관련 업체 입장에서 많은 고객을 확보하기가 쉽지 않겠다.

프로젝트 수가 중요하기보다는 진행한 프로젝트가 정말 잘 되었다는 소리가 더 중요합니다. 제대로 성과를 낸 곳들은 계속해서 일을 할 수 있거든요. 무슨 패키지 프로젝트처럼 이곳 저것 많이 할 수 있는 성질의 프로젝트도 아닙니다. 이미 경험한 곳들은 꾸준히 인프라를 개선하고 투자를 진행하거든요. 그런 성공 고객들과 함께 성장하는 것이 작은 기업에게도 유리합니다.

도 : 빅데이터 성공 사례가 많이 발표되지 않는다. 성공한 곳들이 없어서 그런가.

빅데이터 프로젝트는 앞서 말씀드린 대로 서비스를 하는 곳들이 유리합니다. 패키지 프로젝트가 아니다보니 하기도 힘들지만 하고 나면 성과가 보이거든요. 그런데 이런 프로젝트의 성격상 굳이 경쟁 회사들이 알 수 있도록 오픈할 이유가 없는 것이죠. 이미 경쟁력 우위를 가져가는데 어떻게 했다고 굳이 자랑할 필요가 없는 것도 국내 사례를 찾아보기 힘든 이유 중 하나일 겁니다. 서비스 개선을 말처럼 쉬운 일이 아니거든요. 경쟁사는 전혀 이에 대해 인식하지 못하는데 중요하다고 할 필요가 없죠. 이미 그 회사보다 앞서서 나아가고 있으니까요. 국내 고객들이 나서서 이야기 하지 않으면 프로젝트에 참여한 회사가 먼저 발표할 수도 없잖아요. 저희는 조용히 서포트만 하면 되죠. 입이 근질 거린 건 사실이지만 말할 수 없는 일들이 많죠.

도 : 국산 소프트웨어 업체끼리 모여서 빅데이터 플랫폼을 만들겠다고 발표했었다. 김 대표도 그 프로젝트에 참여하고 있는데.

한 회사가 모든 걸 다 할 수 있는 상황이 아니다보니 모이게 되었고, 가끔 보고는 있습니다. 빅데이터 플랫폼이 필요하다는 걸 국산 소프트웨어 기업들도 인지하고 있다는 사실이 중요하죠.

참고자료

프로젝트 상세 정보 (PDF) : Introduction.pdf

 

도안구 기자
  • 디퍼스 창간. '원피스'의 몽키 D 루피, 롤로노아 조로, 나미, 우솝, 상디, 토니토니 쵸파, 니코 로빈, 프랑키, 브룩을 좋아한다. 해적왕을 꿈꾸는 그들을 보면서 나도 꿈을 꾼다. 잠시 바다를 떠나 육지에서 놀다가 다시 바다로 간다. 역시 해적은 배를 타고 바다로 가야해.

Leave a Reply