728x90

앞선 글에서 RapidMiner를 성공적으로 설치했다면, 이제 그것을 어떻게 활용할지 알아 볼 차례이다. 우선, 각 기능들에 대해서 하나하나 살펴보기 전에 간단하게 모든 단계를 경험해 보려고 한다. RapidMiner를 이용하여 데이터를 분석하는 것은 크게 Data Import하기, Workflow 디자인하기, 결과 분석하기의 세 단계로 이루어져 있다. 

1. Data import하기

데이터를 분석하려면 무엇이 있어야 하는가? 데이터가 있어야 한다! (당연) 이를 위해서 RapidMiner에 데이터를 불러 오도록 하겠다. 나는 지금 수강하고 있는 Business Process Intelligence 과목의 과제 csv 파일을 이용할 것이다. 원하는 데이터 파일이 있다면 다른 것을 써도 무방하다.

사실 과제를 하는 김에 블로그 글을 쓰는 것이다 ㅎㅎ

FirstAssignmentBPI-FirstDataSet.csv
0.00MB

1-1. 왼쪽 상단의 Import data 버튼을 클릭한다.

 

1-2. DB를 사용하는 것이 아니기 때문에 My Computer를 클릭한다.

1-3. 원하는 파일 경로로 들어가 해당 파일을 선택하고, Next 버튼을 누른다.

 

1-4. 원하는 설정을 하고, Next 버튼을 계속 눌러준다. 이 포스팅은 RapidMiner의 전체적인 분석 방법 흐름을 파악하기 위한 것이기 때문에 자세한 Data Import 관련 포스팅은 따로 하도록 하겠다. 

 

1-5. Where to store data? 가 나오면 data 폴더를 클릭하고 Finsih 버튼을 누른다. data 폴더에는 dataset들을, processes 폴더에는 뒤에 나올 workflow들을 저장하는 것을 기본으로 한다.

 

1-6. 데이터가 성공적으로 Import 되었음을 볼 수 있다.

 

2. Workflow 디자인하기

 이 단계가 RapidMiner를 이용하여 하는 분석의 핵심이다. 처음에는 이게 뭔가 싶지만 익숙해지면 꽤나 편한 구조이다. 기본적으로 inp(input) 노드 (혹은 dataset 노드)와 res(result) 노드를 operator들을 이용하여 연결시킨다고 생각하면 편하다. 또한 대부분의 동작들은 드래그 앤 드롭으로 행해진다.

 

2-1. 상단의 Design 버튼을 누른다. 그러면 Process 창이 나오고, 위에서 말한 inp 노드, res 노드, 왼쪽 하단에 operators가 보인다.

2-2. 아까 import했던 data를 드래그하여 process에 놓는다.

 

2-3. operators에서 원하는 분석 operator를 선택하여 드래그하여 process에 놓는다. 가장 간단한 예시를 위해 Correlation Matrix operator를 선택했다. 

 

2-4. 이제 가장 헷갈릴 수 있는 부분이다. 각 operator와 res 노드를 연결해야 한다. 기억해야 할 것은 두 가지이다.

 

첫째, 각 operator의 input과 output 타입에 주의해야 한다. 현재 있는 data와 operator를 예시로 설명하겠다. 기본적으로 각 네모의 왼쪽에는 input, 오른쪽에는 output이 위치한다.

맨 처음에 만든 retrieve (보라색 네모)는 input이 없고, output이 out이다.

다음으로 만든 correlation matrix (연두색 네모)는 input이 exa, output이 exa, mat, wei이다. 

그럼 여기서 드는 의문점이 있다. out, exa, mat, wei가 무엇인지 내가 어떻게 알아? 그걸 다 외워야 하나? 당연히 아니다. RapidMiner는 친절하게도 오른쪽 하단에 Help를 제공한다. 저 창에 input이 무엇인지, output이 무엇인지가 모두 설명되어 있다.

 

저 Help를 바탕으로 하여 각 operator를 연결할 때 맞는 타입끼리 연결해주면 된다. 이 예시의 경우에는, Correlation Matrix의 input이 example set (Data Table)이기 때문에 우리가 import 한 데이터를 input으로 연결해 주었다.

 

둘째, result로 보고 싶은 것이 무엇인지를 선택해야 한다. 마지막에 결과창으로 나오는 것은 결국에 res 노드에 무엇을 연결하는지에 따라 결정된다. 그것은 Correlation Matrix처럼 행렬일 수도, 그냥 데이터일 수도, 혹은 다른 model일 수도 있다. 이 경우에는 Correlation Matrix (mat) 를 res에 연결하도록 한다.

 

2-5. 상단의 재생 버튼처럼 생긴 Start 버튼을 눌러 준다.

 

3. 결과 분석하기

 위의 단계를 성공적으로 따라왔다면 다음과 같은 화면이 나올 것이다. 바로 우리의 데이터의 Correlation Matrix이다. 이제 이것을 해석하고 분석하는 것은 여러분의 몫이다.

 

300x250
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기