728x90

 프로세스 마이닝은 이벤트 데이터를 기반으로 한다. 하지만 이 이벤트 로그의 이벤트가 백 만 개 이상이고, 액티비티의 개수가 만 개 이상인 빅 데이터라면 우리는 프로세스 모델을 정상적으로 도출하고 이 모델의 성능을 정상적으로 확인할 수 있을까? 할 수는 있겠지만 엄청난 메모리와 시간이 필요할 것이다. 이를 위해서 프로세스 마이닝에서는 decomposition을 사용하여 데이터의 크기를 줄인다. 이번 포스팅에서는 프로세스 마이닝의 decomposition에 대해 간단하게 알아보겠다.

 

 프로세스 마이닝의 decomposition에는 case-based decomposition과 activity-based decomposition이 있다.

Case-based Decomposition

 Case-based Decomposition (vertical decomposition)은 이벤트 로그를 그것이 속해 있는 케이스 기반으로 나누는 것을 말한다. 즉, 이벤트 로그에서 같은 케이스 아이디를 가지고 있는 데이터들은 하나로 묶이게 된다. 

case-based decomposition

 이 때, 케이스를 분류하는 기준은 케이스의 액티비티의 개수, 케이스의 소요 시간 등 다양한 기준이 될 수 있다. 이러한 decomposition에 따라데이터의 크기가 줄어들게 되고, 이들을 parallel하게 연산함으로써 더 빠른 연산이 가능해진다. 하지만 inductive miner나 region-based process discovery와 같은 알고리즘에는 case-based decomposition이 사용될 수 없다. 또한 Conformance Checking의 complexity는 대부분 액티비티의 개수나 trace의 길이에 의해 결정되기 때문에 parallel한 연산으로 연산 시간을 줄이는 것에는 한계가 있다. 그래서 등장한 것이 activity-based decomposition이다. 

Activity-based decomposition

 Activity-based decomposition (Horizontal decomposition)은 이벤트 로그의 이벤트들을 그것의 액티비티에 따라 분류하는 것이다.

Activity-based decomposition

 대부분의 경우에 이벤트 로그 내의 액티비티의 개수는 케이스의 개수만큼 많지 않지만, 이 액티비티의 개수는 많은 프로세스 마이닝 알고리즘의 성능에 결정적인 영향을 준다. 그렇기 때문에 액티비티에 따라 이벤트를 분류하는 것은 많은 프로세스 마이닝 알고리즘의 성능 향상에 굉장한 도움을 준다.

 

 이번 포스팅에서는 프로세스 마이닝의 decomposition에 대해 간략하게 알아보았다. 다음 포스팅에서는 각 decomposition에 대해 process discovery, conformance checking 등이 어떻게 이루어지는지에 대해 알아보겠다.

300x250
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기