- Oxford Univ.
- [Submitted on 3 Aug 2022]
Paper TL;DR
๋ฌธ์ฅํ๋ to ์ด๋ฏธ์ง ์๋๋ผ, ์ฌ๋ฌ ๋ฌธ์ฅ(์คํ ๋ฆฌ) to ์ด๋ฏธ์ง๋ค, aka โStory Visualizationโ
์๋ก์ด Loss
์ ์๋ก์ด Sentence Representation
์ ํตํด SoTA ๋ชจ๋ธ์ ๋ง๋ค์๋ค.Story Visualization?
โํ
์คํธ โ ์ด๋ฏธ์งโ๋ก ๋ง๋๋ ์ฌ๋ฌ ์ข
๋ฅ์ ๋
ผ๋ฌธ๋ค์ด ๋์ค๊ณ ์๊ณ , DALL-E 2 ํน์ CLIP, ImaGEN์ ๊ฐ์ ์ข
๋ฅ์ Text-to-Image Diffsuion ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ด ์๋นํ ๋ง์ด ๋์ค๊ณ ์๋ค.
์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ๋ ๊ด์ฐฎ์(๐ค)ํธ์ด์ง๋ง, โํ ๋ฌธ์ฅ โ ํ ์ด๋ฏธ์ง" ๋ก ์์ฑํ๋ ํน์ฑ์ ์ด์ผ๊ธฐ์ ๊ฐ์ด ์ฐ์์ ์ผ๋ก ์ด์ด์ง๋ ํ
์คํธ์ ๋ํด ์ฐ์์ฑ(consistancy)๋ฅผ ์ ์งํ๊ธฐ๊ฐ ์ด๋ ต๋ค.
StoryGAN์์ ์ต์ด๋ก ์ ์ํ โStory Visualizationโ ๋ถ์ผ๋ Text-to-Image๋ฅผ ๋์ด Story-to-Images๋ฅผ ๋ชฉํ๋ก ํ๋ ๋ถ์ผ๋ค. Video Generation๊ณผ๋ ๋ ์กฐ๊ธ ๋ค๋ฅธ๋ฐ, Video๋ ํ๋ ์๋ณ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํด์ผ ํ๋ค๋ ํน์ฑ์ ์ฐ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด์ผ ํ์ง๋ง, Story visualization์ ํ ์ด๋ฏธ์ง๊ฐ ๋ค๋ฅธ ์ด๋ฏธ์ง์ โ์๋ฏธ์ ์ผ๋ก ์ฐ์"์ด์ด์ผ ํ์ง๋ง, ๋ฌผ๋ฆฌ์ ํฝ์
๋ก ์ฐ์์ผ ํ์๋ ์๋ค๋ ์ ์ด ๋ค๋ฅด๋ค.
StoryGAN ์ดํ CP-CSV(Segmentation Mask ์ถ๊ฐ: ์บ๋ฆญํฐ ์ผ๊ด์ฑ up), DUCO, VLC(๋ณด์กฐ Captioning Net ์ถ๊ฐ: ํ
์คํธ-์ด๋ฏธ์ง ์ฐ๊ด์ฑ up)๋ฑ์ด ์ถ๊ฐ๋ก ๋์์ง๋ง backbone์ผ๋ก ์ฌ์ ํ StoryGAN์ ์ฌ์ฉํ๊ณ , ๊ฑฐ๊ธฐ์ ์ถ๊ฐ์ ์ธ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌ์ฃผ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ๋ฌ์ด ์งํ๋์ด์๋ค.
ํํธ, ํด๋น ๋ชจ๋ธ๋ค(prev works)๋ ๋๋ถ๋ถ ์์ฑ๋ ์ด๋ฏธ์ง ํ๋ฆฌํฐ์ ์ด์๊ฐ ์๊ณ , ์ค์ ์ ์ฌ์ง์ ์์๋ฅผ ๋ณด๋ฉด ๊ทธ๋ฆผ์ด ๋ญ๊ฐ์ง(..)์ํ๋ก ๋ณด์ธ๋ค.
๋ํ, ๋จ์ํ โText To Image Generationโ์ ๋์ด โStory Visualizationโ์ ํ๊ธฐ ์ํด์๋ ํด๋น ์ค๊ฑฐ๋ฆฌ์ โ์ผ๊ด์ฑ'์ด๋ผ๋ ์ธก๋ฉด์์ ๋ณด๋ค ์ ๊ฒฝ์จ์ค์ผ ํ๋ ์ธก๋ฉด์ด ๋ง๋ค. ์๋ฅผ ๋ค์ด, ํ์ฌ ์คํ ๋ฆฌ๊ฐ ์งํ๋๋ ์ํฉ ์์ ๋ฑ์ฅํ๋ ์ธ๋ฌผ, ๊ทธ๋ฆฌ๊ณ ๋ฐฐ๊ฒฝ, ์ค๋ธ์ ๋ฑ์ ์ผ๊ด์ฑ์ด ํ์ํ๋ค๋ ์ ์์ ๋ถ๋ช
์กฐ๊ธ ๋ ์ด๋ ค์ด Task์ด๋ค.
๋ ผ๋ฌธ์์ ๋ฌด์์ ์ ์ํ๋?
์ด ๋
ผ๋ฌธ์์๋ ๋ช ๊ฐ์ง์ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
- (New) Sentence Representation: Global consistency๋ฅผ ์ ์งํ๊ธฐ ์ํด์ ์คํ ๋ฆฌ ๋ด์ ๋ฌธ์ฅ ์ ๋ณด๋ฅผ ์ ๋ฌํ๊ธฐ ์ํ ๋ฒกํฐ๋ก์ Sentence Representation์ ์ ์ํ๋ค.
- (New) Discriminator w/ Fusion features: ์ด๋ฏธ์ง Generator์๊ฒ ๋ณด๋ค ๋ ๋ํ ์ผํ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๊ธฐ ์ํด์ ์๋ก์ด Discriminator๋ฅผ ์ ์ํ๋ค.
- Word-Level Spatial Attention: Image๋ด์ ๋ค์ด๊ฐ word์์ Attention์ด ๋จ์ํ ์ด๋ฏธ์ง-๋จ์ด 1:1๋ก๋ง ์ฐ๊ฒฐ๋๋ ๊ฒ์ ๋์ด์, ํด๋น ์คํ ๋ฆฌ ๋ฌธ์ฅ๋ค๊ณผ ์ด๋ฏธ์ง ๊ฐ (์ด๋ฏธ์ง์ ๋ฌธ์ฅ ๋จ์๋ฅผ ๋์ด, ์คํ ๋ฆฌ ๋จ์๋ก) Attention์ ๊ฑธ์ด์ค๋ค.
์ ์ธ ๊ฐ์ง์ ๋ฐฉ๋ฒ๋ก ์ ํตํด์ ๊ธฐ์กด์ StoryGAN ๋ฐฑ๋ณธ์ ์ฌ์ฉํ ๋ชจ๋ธ๋ค๋ณด๋ค ํจ์ฌ ๋์ ํ๋ฆฌํฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Pororo-SV
์ด ๋
ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์
์ Pororo-SV๋ผ๋ ๋ฐ์ดํฐ์
์ธ๋ฐ, ๋ฝ๋ก๋ก ์์์ 64x64์ ์ด๋ฏธ์ง ์ฐ์์ผ๋ก ๋ง๋ค์ด ํด๋น ์ด๋ฏธ์ง์ ๋ํด VQA๋ฅผ ํ๋ ๋ฐ์ดํฐ์
์ด๋ค.
๊นํ์ด ์๋?
๋
ผ๋ฌธ์ ๋งํฌ()๊ฐ ์์ง๋ง, ์ ์ด๋ฏธ์ง์ฒ๋ผ ๋น์ด์๋ค (ใ
ใ
)
Word-Level-Story-Visualization
mrlibw โข Updated Aug 8, 2022
Word-Level Fine-Grained Story Visualization
๋ชจ๋ธ ์ํคํ ์ฒ
์ด ๋
ผ๋ฌธ์์๋ ์ฌํ ๋
ผ๋ฌธ๊ณผ ๋น์ทํ๊ฒ StoryGAN์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํด ์ด๋ฏธ์ง ์์ฑ์ ์งํํ๋ค.
์ด๊ฒ์ ๋ํด,
- Global Sentence Vectors
- Fine-grained Word Embeddings
๋ ๊ฐ์ง ์์๋ฅผ ์ถ๊ฐํ์๊ณ , ํ ๋
ผ๋ฌธ๊ณผ ๋ค๋ฅด๊ฒ StoryGAN ๊ตฌ์กฐ ์์ฒด๋ฅผ ๊ฑด๋๋ฆฌ๋(์ถ๊ฐ ๋ชจ๋์ ๋ถ์ธ๋ค๊ฑฐ๋) ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์์๋ค.
Spatial Attention์ ๊ธฐ์กด Hidden vector์ summationํด์ค Input์ผ๋ก ๋ณํํ๊ณ , ๊ทธ ์ดํ Iamge Discriminator์ Story Discriminator๋ฅผ ๋ถ์ฌ์ Loss๋ฅผ ๋ถ์ฌํ๋ค.
Sentence Representation with Word Information
ย
ย
ย