Machine Learning - Thoery/Traditional ML
SentencePiece 설명 (SPM 설명, SentencePiece 예시)
SentencePiece는 pre-tokenization을 필요로 하지 않는 tokenizer의 하나로, 어떤 언어에도 자유롭게 적용될 수 있고 속도도 굉장히 빠르기 때문에 NLP에서 널리 사용되는 tokenizer이다. 이번 글에서는 SentencePiece가 무엇인지와 함께 이를 어떻게 활용할 수 있는지 에 대한 예시 코드도 함께 살펴보겠다. 설명 SetencePiece는 간단하게 말하면 기존에 존재하던 unigram, BPE와 같은 tokenizer들을 모든 언어에 대해 적용이 가능하도록 generalize하고 약간의 추가적인 기능들을 더해서 구현한 것이다. 특별히 새로운 알고리즘을 제시했다기보다는, 기존의 tokenizer들을 좀 더 사용하기 편하고 성능이 좋게 개선했다고 생각하면 되겠다. Sen..
2022. 12. 1. 06:00
최근댓글