週末AI課堂 理解softmax函式 | 機器學習你會遇到的“坑”
廣義線性模型中的sigmoid函式面對多分類問題,我們假設多項式分佈,仍然延續上述的分析方法,並且利用指示函式的性質,就會得到:其中,我們注意到這裡得到的形式是和乘積再求和,與指數分佈族的直接乘積略微不同,但是對應元素乘積求和正好是向量的內
ICLR 2022 cosFormer:重新思考注意力機制中的Softmax
因此,本文提出了名為cosFormer的方法,在時間空間複雜度關於序列長度為線性複雜度的同時,其效能接近或者超越Softmax Attention,並在LRA benchmark上取得SOTA結果