Sparse Transformer

Generating Long Sequences with Sparse Transformers

Arxiv Link: https://arxiv.org/abs/1904.10509

논문이 하려고 하는 이야기

기존 Attention Matrix -> O(n^2)

새로운 Attention (Sparse) -> O(n루트n)

어떻게 했니?

Attention Sparse Factorization

어텐션 구조 다르게

initialization 다르게

Attention Matrix Recomputation

좀더 빠른 Attention 커널

=> 합쳐서 Sparse Transformer!

Factorized Self-Attention

(a)가 기존의 Transformer

(b)는 이미지/음악파일 같이 특정한 길이가 의미를 갖는 경우 해당 길이/주기만큼을 Attention

(c)는 Text처럼 특정한 길이 의미 없이 정해진 시퀀스 길이에 따른 Attention 결정

위쪽 이미지는 6*6 사이즈의 "이미지"

아래쪽은 Connectivity Matrix -> 실제로 펼치면 어떤 Attention을 취하는지 보여주는 셈 (어텐션 패턴)

이 논문에서 연구 방향은 Sparse Attention Pattern 자체에만 집중함!

X: Input Embedding

S: Connectivity Pattern -> Embedding 받아서 Output

W(q,k,v): QKV Matrix (d는 쿼리/키 사이즈)

AutoRegressive 모델 -> 이전것만 보도록 포지션 제한

Factorized Self Attention은 p개의 떨어진 Attention Head들을 가진다!

→ 코드상에서 보면, all, fixed, local, strided 로 구별해서 처리한다.

(이미지 등 주기에 의미가 있는 경우)

all: 기존과 동일

fixed: Attention context를 두고 stride는 그 이내로 정해서 진행

local: 일정 길이만큼 잘라서 진행

strided: 일정 길이의 Attention을 잘라서 이동

Two-dimensional Factorized Attention

2차원(NxN) 행렬에서 Attention을 쪼개는 방법

주기성이 있는(가로 Pixel 수 or 음악의 길이 등) 경우

= 하나는 현재부터 과거 K개 까지 Att & 하나는 처음부터 띄엄띄엄 J개 Att

= Strided Attention

텍스트같은 경우

→ Strided Pattern에서는 성능 안좋음

= 일정 길이 K 이내에 모두 Attention & 특정 토큰에서는 이후 전체 토큰에 Attention