https://arxiv.org/pdf/2503.10622요약Transformer 모델에서 Normalization Layer를 안 쓴 경우를 보신적 있나요?최근 Normalization Layer는 Neural Networks에서 가장 기존적인 요소로 자리매김했으며,특히 Transformer 모델에서는 압도적으로 많이 사용되고 있습니다오늘 살펴본 논문을 Normalization Layer를 대체 가능한 Dynamic Tanh에 대해 살펴보고자 합니다. Introduction- Normalization Layer 사용 필수일까?[현재 상황]2015년 Batch Normalization이 제안되고 나서부터 현재까지 Normalization Layer는 사실상 모든 네트워크에서 사용되고 있습니다. 이는 최적..