예를 들어, 참치 한 마리가 있다고 하자. 이 참치가 좋은 참치인지를 판단하기 위해서는 참치의 나이, 참치의 무게, 원산지, 대뱃살이 몇 g이나 나오는지, 냉동이 된건지 생물인지 등의 다양한 기준들이 있을 것이다. 맛있겠다. 프로세스 마이닝의 기본이 되는 데이터인 이벤트 로그가 얼마나 복잡한지를 판단하기 위해서도 다양한 기준들이 존재한다. 이번 포스팅에서는 이벤트 로그의 크기와 복잡성을 판단하는 척도들에 대해서 알아보려고 한다.
다음과 같은 예시 이벤트 로그와 함께 이벤트 로그의 복잡성 척도에 대해 알아보겠다.
Number of Cases
케이스의 개수를 말한다. 우리의 예시에서 케이스의 개수는 총 5이기 때문에 number of cases = 5이다.
Average trace length of cases
각 case들의 trace 길이의 평균을 말한다. 우리의 예시에서는 <a,b,c,f>의 길이가 4, 2번 일어난 <a,c,b,f>의 길이가 4, <a,b,f>의 길이가 3, <a,a,a,f,f,f>의 길이가 6이기 때문에 계산식은 다음과 같고, average trace length of cases = 4.2가 된다.
이에 추가적으로 minimal trace lengh, maximal trace length, trace length의 표준편차 등도 활용이 가능하다.
Number of distinct activities
액티비티의 종류의 개수를 말한다. 우리의 예시에서는 a, b, c, d, f의 5가지의 액티비티가 있기 때문에 number of distinct activities = 5이다.
Average number of distinct activities per case
각 케이스의 중복을 제외한 서로 다른 액티비티의 종류의 개수를 말한다. 우리의 예시에서는 <a,b,c,f>의 액티비티 개수가 4, 2번 일어난 <a,c,b,f>의 액티비티 개수가 4, <a,b,f>의 액티비티 개수가 3, <a,a,a,f,f,f>의 서로 다른 액티비티 개수가 2이기 때문에 계산식은 다음과 같고, Average number of distinct activities per case = 3.4가 된다.
이에 추가적으로 minimal number of distinct activities, maximal number of distinct activities, 이의 표준편차 등도 활용이 가능하다.
Average set-based non-overlap of traces
이는 각 트레이스의 쌍을 overlap의 개념으로 비교하는 값이다. trace가 모두 같은 액티비티로 이루어져 있으면 이 값은 0이 되고, 겹치는 액티비티가 없을수록 값이 1에 가까워진다. 우리의 이벤트 로그에 대한 average set-based non-overlap of traces는 다음과 같은 식으로 계산할 수 있다.
Number of distinct cases
서로 다른 trace의 개수를 말한다. 즉, 우리의 예시에서는 <a,b,c,f>, <a,c,b,f>, <a,d,f>, <a,a,a,f,f,f>의 4개가 있기 때문에 number of distinct cases = 4이다.
Number of events
이벤트 로그에 있는 총 이벤트의 개수를 말한다. 이벤트의 개수는 달리 말하면 전체 케이스의 수 * 케이스 평균 트레이스 길이 (number of cases * average trace length of cases)로 나타낼 수 있을 것이다. 그러므로 우리의 예시에서는 5*4.2 = 21이 된다.
Number of direct successions
서로 다른 direct succession의 개수를 말한다. 즉, DFG를 그렸을 때 arc의 개수와 같다. 우리의 이벤트 로그에서는 a>b, b>c, c>f, a>c, c>b, b>f, a>d, d>f, a>a, a>f, f>f의 11개가 있기 때문에 number of direct successions = 11이 된다.
Number of start activities
Start activity의 개수를 말한다. 우리의 이벤트 로그는 모두 a로 시작하기 때문에 number of start activities = 1이 된다.
Number of end activities
End activity의 개수를 말한다. 우리의 이벤트 로그는 모두 f로 끝나기 때문에 number of end activities = 1이 된다.
위 척도들을 이벤트 로그에 대해 계산하여 나타낸 행렬을 event log metrics라고 한다. 예를 들어, 다음과 같은 다섯 개의 이벤트 로그가 있다고 하자.
위 5개의 이벤트 로그에 대해서 event log metric을 만들면 다음과 같다.
이번 포스팅에서는 이벤트 로그의 크기와 복잡성을 측정하는 다양한 척도들에 대해 알아보았다. 이를 이용해서 자신의 이벤트 로그 데이터가 얼마나 크고 복잡한 데이터인지를 측정할 수 있다.
최근댓글