728x90

 우리는 알파 알고리즘, inductive miner, heuristic miner 등 다양한 process discovery 알고리즘들을 통해 프로세스 모델을 도출할 수 있다. 그렇다면 이 다양한 process discovery 알고리즘 중 가장 좋은 알고리즘은 무엇일까? 그런 답은 정해져 있지 않다. 왜냐하면 그것은 나의 데이터가 무엇이냐에 따라 다르기 때문이다. 그렇다면 이 '나의 데이터에 가장 좋은 알고리즘'이 무엇인지는 어떤 기준으로 판단할 수 있을까? 이번 포스팅에서는 프로세스 모델을 평가하는 기준 4가지에 대해 개략적으로 알아보도록 하겠다.

Fitness

 Fitness란, 프로세스 모델이 이벤트 로그를 얼마나 설명할 수(replay) 있는지를 의미한다. 즉, 이벤트 로그에 있는 데이터가 프로세스 모델에 모두 나타나면 1, 이벤트 로그에 있는 데이터가 프로세스 모델에서 하나도 나타나지 않으면 0의 값을 가진다. Fitness는 footprint based, token based replay 등 다양한 conformance checking 알고리즘을 통해 도출되는 결과값이기도 하다.

 말로 하면 잘 안 와닿을 것이기 때문에 예시를 하나 보자. 다음과 같은 flower model이 있다고 하자.

flower petri net. 꽃 모양과 비슷해서 예쁜 이름이 붙었다. 

 위 모델은 a, b, c, d, e, f, g, h가 어떤 순서로 되어 있든 상관 없이 그것으로 구성된 trace라면 항상 설명할 수 있다. 그렇기 때문에  a, b, c, d, e, f, g, h로 구성된 모든 이벤트 로그에 대해 fitness가 항상 1이다. 하지만 이 모델이 fitness가 1이라고 해서 좋은 모델일까? 아마 대부분 아니라고 대답할 것이다. 그렇기 때문에 다른 기준들이 필요하다.

Simplicity

 Simplicity는 이름에서 볼 수 있듯이 모델이 얼마나 간단한지를 의미한다. 당연하게 모든 behavior를 설명할 수 있다면 그 중에서 가장 복잡하지 않고 간단한 모델이 가장 좋은 모델일 것이다. 모델의 Simplicity는 간단히 노드의 개수, arc의 개수 등으로 정의될 수도 있고, 다른 방법으로 정의할 수도 있다. 

Precision

 Precision이벤트 로그에서 나타나지 않은 trace가 모델에서 나타나는 정도를 의미한다. 이벤트 로그와 전혀 관련이 없는 trace가 모델에서 갑자기 도출된다면 이는 분명히 문제일 것이다. Precision은 데이터 마이닝의 underfitting과 관련이 있는 척도이기도 하다. 만약 모델이 underfitting 모델이라면, 이는 이벤트 로그에서 볼 수 없는 아무 trace를 모델에서 보여준다는 것, 즉 low precision을 가진다는 것을 의미한다. 

 이것도 직관적으로 받아들이기에 약간 어려울 수 있기 때문에 예시를 통해 설명하도록 하겠다. 또 다시 flower model을 보자.

flower petri net

 이벤트 로그의 수는 한정되어 있고, 이 모델이 만들어 낼 수 있는 trace는 무궁무진하다. 즉, 이벤트 로그에 없는 trace들이 무궁무진하게 만들어질 수 있다는 것이다. 그렇기 때문에 이 모델의 precision은 굉장히 낮다. 그래서 우리는 flower model의 fitness만 높다고 좋은 모델이라고 할 수 없는 것이다.

Generalization

 Generalization모델이 얼마나 일반적인가를 의미한다. 즉, data mining으로 치면 overfitting을 피하는 정도와 같다. 즉, 모델이 overfitted 모델이라면 generalization이 낮은 것이다. 낮은 generalization을 가지는 대표적인 모델을 하나 예시로 들도록 하겠다. 

낮은 generalization을 가지는, overfitted model

 이 모델은 모든 trace들을 일렬로 쭉 표현한 모델이다. 이벤트 로그에 나타난 trace 외에 다른 trace는 전혀 설명할 수가 없다. 즉, generalization이 낮은 overfitted model인 것이다.

 

four quality dimensions

 이번 포스팅에서는 프로세스 모델의 quality를 평가하는 4가지 척도에 대해 개략적으로 알아 보았다. 이 4가지의 기준들이 골고루 높은 프로세스 모델이 좋은 모델일 것이다. Fitness는 다양한 conformace checking 알고리즘을 통해 계산할 수 있고, generalization, simplicity, precision도 계산하는 방법을 제시한 다양한 논문들이 존재한다. 각 quality criteria의 구체적인 계산 방법에 대한 포스팅은 미래의 성실한 필자가 쓸 것이다 하하..

 

References

1. Section 8.5.2. & Section 6.4.3. of Wil van der Aalst. Process Mining: Data Science in Action (Second Edition) : Springer, 2016.

300x250
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기