# 데이터 분석&머신러닝 플랫폼 - RapidMiner(래피드마이너)

2020. 4. 22. 00:53 개발 이야기/머신러닝(딥러닝)

 

안녕하세요. 데이터 과학에 빠진 해커의 개발일기 입니다.

오늘은 데이터 분석 툴이자 최고의 머신러닝 플랫폼인 RapidMiner에 대해서 알아보도록 하겠습니다.

 

 

저는 대학원에서 데이터 사이언스/인공지능을 전공하고 있는데요, 대학원 수업 중 알게 된 데이터 분석 && 머신러닝 플랫폼인 RapidMiner를 알게 되었습니다.

이 툴은 무엇을 하는 툴일까요?

 머신러닝을 이용해서 수많은 데이터를 이용해 예측하거나 분류를 함에 있어서 결과를 추출해내기 위해서는 소스코드로 짜서 머신러닝 후에 확인을 해야만 합니다. 하지만 결과가 매번 좋은 것은 아니죠? 일 년에도 수십수백의 알고리즘이 개발되고 논문이 나오고 있는 실정이기 때문에 최신의 트렌드를 쫓기 위해서는 정말 문서만 읽다가 코드는 짜보지도 못하고 일 년, 이년이 갈 수도 있는 상황이 정말로 와 버리고 말았습니다.

그리고, 많이 사용하는 알고리즘이 꼭 각각의 비즈니스에 맞는 최상의 결과를 뽑아줄까요?

절대, 아닙니다.

우리는 우리가 사용하는 데이터를 이용해 우리가 원하는 주제의 데이터 결과를 뽑아내기 위해서는 파라미터를 변경해가면서 최상의 파라미터를 찾아 결과를 도출해 내야 하는 소위 "최적화 작업"을 해야 하는데요. 

이 "최적화 작업"을 한다고 A 알고리즘이 우리 데이터와 맞는지 B 알고리즘이 우리 데이터와 맞는지 알아낼 수 있을까요?

우리는 최상의 결과를 도출해 내기 위해서는 결국 여러 알고리즘에서 다양한 파라미터를 조절해가며 결과를 도출해 내는 "노가다" 작업을 해야 합니다.

이런 노가다 작업을 한결 수월하게 해 줄 툴이 바로 이 데이터 분석 && 머신러닝 플랫폼인 RapidMiner입니다.

 

 

RapidMiner는 GUI 형태의 소프트웨어로 꼭 IT 종사자가 아니더라도 데이터 과학/머신러닝 관련 지식이 있는 사람이라면 누구나 손쉽게 사용할 수 있도록 개발되었습니다. 덕분에 굉장히 많은 사용자를 소유하고 있는데요.

 

초보자부터 전문가까지 모두 사용할 수 있도록 손쉬운 조작법과 넓은 스펙트럼으로 많은 사랑을 받고 있습니다.

 

소프트웨어를 한 번 구경해 보도록 하겠습니다. 아래와 같이 블록 형태로 프로세스를 나열할 수 있습니다. GUI 환경이다 보니 보기가 편하고 손쉽게 Drag && Drop으로 구성할 수 있도록 제작되어 있습니다.

파라미터 변경도 손쉽게 입력해서 다양한 결과를 도출해볼 수 있도록 구성되어 있습니다.

 

RapidMiner가 지원하는 수많은 알고리즘을 손쉽게 검색해서 더블 클릭 혹은 드래그 앤 드롭으로 구성해 볼 수 있습니다.

 

아래는 붓꽃 데이터를 이용해 SVM(Support Vector Machine)을 이용해 분류한 결과입니다.

결과를 표로도 확인할 수 있지만 다양한 plot이 지원되기 때문에 손쉽게 Visualization 할 수 있습니다.

 

그리고, 마켓을 이용해 최신의 알고리즘도 찾아보고 다양한 기능들을 확장해 사용할 수 있습니다.

 

이 외에도 다양한 기능이 있지만, 저는 아직 사용해보지는 못했습니다. 한 가지 아쉬운 점이 있다면 Document가 자세하지 못하다는 점이 있습니다. 최신 알고리즘을 지원은 하나 Document가 없는 경우가 허다한 것 같습니다.

 

하지만 우리는 이 툴을 이용해서 머신러닝 모델을 개발하기 전 손쉽게 미리 테스트를 해볼 수 있습니다. 개발이 완료된 후에도 손쉽게 파라미터를 조절해 가면서 최적화 작업을 진행할 수도 있습니다. 데이터 과학자에게는 정말 많은 시간을 세이브시켜줄 것 같습니다. 

 

하지만, 유료입니다. 저는 학생 계정을 이용해 1년 무료 라이선스를 얻었지만.. 가격은 아래와 같습니다.

 

기업에 따라 ML로 얻는 수익구조가 큰 기업의 경우에는 도입 시 큰 인건비 절약과 더불어 프로젝트 기간을 줄여줄 수 있기 때문에 도입을 고려해보는 것도 좋을 것 같습니다.

 

이상으로 데이터 분석 툴 && 머신러닝 플랫폼 RapidMiner 소개였습니다.