딥러닝 양자화 2

[AI반도체-NPU]딥러닝 Quantization(양자화) 성능 최적화(연산)

[Quantize 연산 최적화]대다수의 딥러닝 모델은 부동 소수점, 특히 FP32 기반으로 만들어져 Edge device와 같은 환경에서 사용해야하는 경우 부동 소수점의 값을 정숫값으로 변환하는 작업을 진행해야한다. 이 작업을 NPU칩 내 CPU에서 처리하는데 소요시간이 상당하다.1. 이미지 프로세싱 모델들은 입력값을 이미지로 받음.2. 일반적으로 이미지는 RGB 채널에 대한 8bit 정수 범위의 값들로 구성되어있음.3. 단, 모델에서 input data로 받을땐 8bit 정수범위의 이미지를 부동 소수점으로 변환하고 이를 전달한다.4. 양자화를 진행한다면 부동 소수점으로 변환된 input data를 다시 정숫값으로 변환한다.5. 이를 해결하기 위해 RGB 이미지 값을 모델의 입력으로 바로 받게 된다면 형..

[AI반도체-NPU]딥러닝 Quantization(양자화)

[Weight Quantization]1. Inference Only : 양자화는 inference 에서만 사용합니다. 즉, 학습 시간을 줄이기 위한 것과는 관련이 없다.2. Not every layer can be quantized : 구현된 딥러닝 모델의 모든 layer가 양자화가 될 수 없다.3. Not every layer should be quantized : 모든 layer가 반드시 양자화가 되어야 좋은 효율을 내는것은 아니다.4. Not every model reacts the same way to quantization : 같은 양자화를 적용하더라도 모든 모델이 동일한 효과가 나타나는 것이 아니다.5. Most available implementations are CPU only : 양자화..