- Alibaba
- Submitted on 4 Aug 2022
- Comments: Work in progress
Paper TL;DR
์ผ๋ฐ์ ์ธ ์์ค์ Prompt Tuning, ํ์ง๋ง Visual Encoding์ ๋ผ์น์.
- MultiModal end-to-end ๋ชจ๋ธ์์ Prompt Tuning
- Fine-tune ๋์ ์ prompt tuning์ ์ ์ฉ
- Encoder, Decoder ๊ฐ ์ข ๋ฅ์ ๋ชจ๋ธ์ ์ ์ฉํ๋ ๋์ , Encoder-Decoder(unified transformer) ๊ณ์ด์ ๋ชจ๋ธ์ ์ ์ฉ
- Encoder, Decoder ํ ๋ถ๋ถ์๋ง Prompt-Embedding์ ๋ฃ์ด์ฃผ๋ ๊ฒ ๋ณด๋ค, ๋ ๋ค์ ํจ๊ป Prompt embedding์ ์ถ๊ฐ๋ก ๋ฃ์ด์ฃผ๋ ๊ฒ์ด ํจ๊ณผ๊ฐ ์ข๋ค. (์์ฃผ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค๊ณ ํจ)
- ๋ง์ฝ Encoder, Decoder ์ค ํ๋์๋ง ๋ฃ์ด์ผ ํ๋ค๋ฉด Encoder์ ๋ฃ์ด์ฃผ๋ ๊ฒ์ด ๋ซ๋ค.
- Zero-shot, Few-shot Learning, In-context Learning ๋งฅ๋ฝ์์ ์ ์๋ฏธํ ํ์ดํผ
- ์ ์ฒด weight ์ค 1%์ ํด๋นํ๋ ๋ถ๋ถ (100M์ด๋ผ๋ฉด 1M, 930M์ด๋ผ๋ฉด ๋๋ต 9M) Params๋ง ์์
- Prompt์ ๊ธธ์ด๊ฐ ๊ธธ ์๋ก ๋ ํจ๊ณผ๊ฐ ์ข์์ง
- 20 tokens ์ด์์ prompt๊ฐ ์ ์๋ฏธํ ๋ชจ์ต์ ๋ณด์ธ๋ค.
- ํ์ง๋ง ๋๋ฌด ๊ธด prompt๋ ์คํ๋ ค ํจ๊ณผ๋ฅผ ๋จ์ด๋จ๋ฆผ.(128๋์ด๊ฐ๋ฉด ๋ณ๋ก๋ผ๊ณ ํ๋ ๋ฏ)
- ์คํ์ ์ผ๋ก, 64 tokens์ prompt๊ฐ ๊ฐ์ฅ ์ข์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ๋ค๊ณ ํจ
- Reparameterization(ExBERT์ฒ๋ผ, ์ถ๊ฐ์ ์ผ๋ก MLP๊ฐ์ ํ์ต layer๋ฅผ ์ถ๊ฐํด ์ฃผ๋ ๊ฒ)์ ์๊ฐ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ง ์์์
- ์คํ๋ ค ์ฑ๋ฅ ํ๋ฝ์ ๋ณด์ด๊ธฐ๋ ํจ
- Prompt Embedding Matrix๋ฅผ ์ผ์ข ์ Prompt Generator function์ผ๋ก ์ทจ๊ธ
ย
Experiments & Results
- ์ฑ๋ฅ ๋น๊ต์ finetuning๊ณผ prompt tuning์ด ์ฑ๋ฅ ์ฐจ์ด๊ฐ ํฌ์ง ์์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค.
- ์คํ์ NLU, NLG๊ฐ ๊ฐ๋ฅํ VQA ๋ฑ์ผ๋ก ๊ตฌ์ฑ
- 180M~470M ๋ชจ๋ธ ํฌ๊ธฐ๋ก ๊ตฌ์ฑ
ย
- ์ ์ฌ ๋ฐฉ๋ฒ๋ก ์ธ Bitfit๊ณผ Adapter์๋ ๋น๊ต. ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ์ด์ผ๊ธฐ ํจ.
ย
- Prompt Length์ ๋ฐ๋ผ์ Downstream Task์ ์ฑ๋ฅ ๋น๊ต
- ๋๋ต 60(64) ๋ถ๊ทผ์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๊ด์ฐฎ๊ฒ ๋์จ๋ค๊ณ ํจ (SNLI-VE์ test set์์ ๊ฐ์ฅ ๊ทน๋จ์ ์ธ ๋ฏ)
- 64๊ฐ ํ๊ท ์ ์ผ๋ก ๋ซ๋๋ผ
ย
- Prompt Tuning์ด Finetune๋ณด๋ค ๋์ ์ ํ๋๋ก: Adversarial Attack์ ๊ฐ๊ฑดํ๋ค.
- Finetuneํ ๋ชจ๋ธ, Prompt Tuningํ ๋ชจ๋ธ ๊ฐ๊ฐ์ ๋ํด์ ๊ณต๊ฒฉ
- Gradient-based๋ก Adv attack
- ์ฑ๋ฅ ์ ํ๊ฐ ํจ์ฌ ์ ๋๋ผ (์ ๋ฐ์ ๋)
ย
- ์์ ์ด์ผ๊ธฐ ํ๋.. Enc + Dec vs Enc vs Dec
- ์ด๋์ ๋ฃ๋๋์ ๋ฐ๋ผ์ ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ์์
- ์ ์๋ฏธํ ์ฐจ์ด๋ผ๊ณ ๋ณด์ด๊ธด ํจ (์ฑ๋ฅ ํฅ์์ trend๊ฐ ์ผ์ )
- Encoder-Decoder ์ ๋ถ ๋ฃ์ด์ฃผ๋๊ฒ ์ ์ผ ๋ซ๋ค.
- ์๋๋ฉด encoder only๋ผ๋.
ย
- ๋ชจ๋ธ์ MLP ๋ฑ ์ถ๊ฐํ Reparameterization
- MLP๊ฐ ์ชผ๋ ๋ ์ฑ๋ฅ์ด ์ข์๊ฐ? ์ถ์ผ๋ฉด์๋ ์คํ๋ ค ๋จ์ด์ง๋ ๊ฒฝ์ฐ(SNLI-VE dev/test, COCO, VQA)๊ฐ ๊ฝค ์์
ย
Discussion
- Prompt tuning์ด finetune์ ๋์ฒดํ ์๋ ์์ง๋ง ์ ์๋ฏธํ ์ฑ๋ฅ์ด ๋์จ๋ค
- ๋ฌธ์ 1: SLOOOOOOW Convergence
- ๋ถ๋ช , 1%์ ๋์ params๋ง ํ์ตํ๋๊น ํ์ต cost๋ ๋ฎ๊ณ , Efficiency๋ ๋์.
- ๊ทผ๋ฐ.. ์ ๋๋ก ๋ ํ์ต์ ํ๋ ค ํ๋ 40epochs(?!)์ ํ์ต์ด ํ์
- GPU-Hours๋ก ๊ณ์ฐํ๋๊น.. ์์ฒญ ์ ์ฝ๋๋ ๊ทธ๋ฐ๊ฒ ์๋
- ๋ฌธ์ 2: HyperParams ํ๋์ด ์ด๋ ค์
- Fine-tuneํ ๋ ์ฐ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ๊ธฐ๋ฒ์ ์ฐ๊ธฐ ์ด๋ ค์
- ๋คํํ(?) Prompt Tuning์ ์ํ Hparams ํ๋์ ํฌ๊ฒ ์ด๋ ต์ง ์์
- ๋ฌธ์ ๊ฐ ์์ง๋ง ๊ทธ๋๋ Adv Attack์ ๊ฐ๊ฑดํ๊ฑด ์ข์
ย
ย
ย