Junbum Lee

📓

Junbum Lee

Blog Posts

Gradient Checkpointing, Frozen Embeddings, and LoRA Adapters

Gradient Checkpointing, Frozen Embeddings, and LoRA Adapters

Gradient flow when using LoRA and Grad Ckpts.

Differential Transformer

Differential Transformer

Q → Q1, Q2. K → K1, K2. V → V. SoftMax → SoftMax(Q1K1) - L*Softmax(Q2K2)

JetStream inference at TPU

Step by Step Guide: vLLM TPU Pod Slice Inference

Step by Step Guide: vLLM TPU Pod Slice Inference

TPU Pod Slice(e.g., v4-64)에서 vLLM으로 LLM 모델을 서빙하기

10배 더 빠른 gcloud storage cp

10배 더 빠른 gcloud storage cp

GCS에서 파일 복사는 gcloud storage 쓰는게 10배 더 빠르다

Bash script to kill TPUv5e(TPUv5lite) consuming process

Bash script to kill TPUv5e(TPUv5lite) consuming process

Bash script to kill TPUv5e(TPUv5lite) consuming process

TPUv5 uses new device name, new scripts to kill the process :)

HF model → OpenAI compatible API

HF model → OpenAI compatible API

transformers-openai-api를 통해 명령어 한줄로 OpenAI Compatible API 만들기

gcloud 커맨드로 VS Code SSH로 GCP VM 접속하기

gcloud 커맨드로 VS Code SSH로 GCP VM 접속하기

gcloud 커맨드로 VS Code SSH로 GCP VM 접속하기

간단히 ProxyCommand를 통해서 접속할 수 있는 방법을 SSH config에 설정해주자.

Huggingface Transformers Train with FSDP on PyTorch/XLA @ TPU

Huggingface Transformers Train with FSDP on PyTorch/XLA @ TPU

Huggingface Transformers FSDP 코드로 TPU에서 PyTorch/XLA로 언어모델을 학습해보자!

PyTorch/XLA SPMD @ TPU

PyTorch/XLA SPMD @ TPU

새로운 방식의 GSPMD를 PyTorch/XLA(2.2)에서 써보자. TPU를 지원한다!

MLC LLM

엄청 빠르다는 MLC LLM, 서빙해보자.

DeepSpeed Multinode

DeepSpeed Multinode

PySpark JSONL 로드 느릴때 Schema 제공으로 속도 높이기

PySpark JSONL 로드 느릴때 Schema 제공으로 속도 높이기

StructType을 통해서 Schema를 제공해주면 MetaData 만들기 위한 로드를 해결할 수 있다.

Numeric Values to Text, 숫자 데이터로 된 표를 텍스트로 생성하기

Numeric Values to Text, 숫자 데이터로 된 표를 텍스트로 생성하기

Preference Ranking Optimization for Human Alignment 논문리뷰

Preference Ranking Optimization for Human Alignment 논문리뷰

RL 없이 1순위vs나머지, 2순위vs나머지, …로 Human Preference 학습시키기

Direct Preference Optimization 논문리뷰

Direct Preference Optimization 논문리뷰

Direct Preference Optimization: Your Language Model is Secretly a Reward Model 논문리뷰

특정한 Repo의 Branch로 pip install

특정한 Repo의 Branch로 pip install

특정한 Repo의 Branch로 pip install

pip install git+주소 에 Branch 지정해 설치하기

RRHF 논문 & 코드리뷰: Rank Responses to Align Language Models with Human Feedback without tears

RRHF 논문 & 코드리뷰: Rank Responses to Align Language Models with Human Feedback without tears

RRHF 논문 & 코드리뷰: Rank Responses to Align Language Models with Human Feedback without tears

코드와 함께하는 RRHF 리뷰

Cloudflare Tunnels 한 호스트에 여러개 띄우기

Cloudflare Tunnels 한 호스트에 여러개 띄우기

Docker로 Cloudflare Tunnel을 띄워서 한 기기에 여러 Cloudflare Tunnel을 연결하기

ElasticSearch Docker Single Node 실행 실패 해결법

ElasticSearch Docker Single Node 실행 실패 해결법

Elastic search error: "Native controller process has stopped - no new native processes can be started" 에러 해결법

PEFT로 LoRA Checkpoint 로드시 size mismatch 해결법

PEFT로 LoRA Checkpoint 로드시 size mismatch 해결법

base_model.model.gpt_neox.layers.0.attention.query_key_value.lora_A.weight: copying a param with shape torch.Size([16, 5120]) from checkpoint, the shape in current model is torch.Size([8, 5120]) 와 같은 문제를 해결하기

Synology NAS File Station에서 다운로드 링크를 wget/curl로 받는 방법

Synology NAS File Station에서 다운로드 링크를 wget/curl로 받는 방법

Synology NAS File Station에서 다운로드 링크를 wget/curl로 받는 방법

Firefox Plugin “CLIGET”으로 다운로드 링크를 따오자!

pix2pix-zero: Zero-shot Image-to-Image Translation 논문리뷰

pix2pix-zero: Zero-shot Image-to-Image Translation 논문리뷰

추가 학습 없는 고성능의 Image To Image 모델

datasets 라이브러리의 load_metric 사용시 Nonetype Error 발생시 해결법

datasets 라이브러리의 load_metric 사용시 Nonetype Error 발생시 해결법

TL;DR: 캐시 지우고 scikit-learn을 재설치하자

MaxMatch-Dropout/ Subword Regularization for WordPiece

MaxMatch-Dropout/ Subword Regularization for WordPiece

WordPiece에 Subword Dropout을 적용하자!

K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment

K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment

TLDR논문리뷰

새로운 한국어 HateSpeech Dataset!

Ordinal Log Loss: A simple log-based loss function for ordinal text classification

Ordinal Log Loss: A simple log-based loss function for ordinal text classification

Ordinal classification를 위한 간단하고 성능 좋은 Loss function

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

몇장(3~5개)의 이미지 만으로 Diffusion 모델에 새로운 캐릭터를 등장시키자!

nvidia-smi가 너무 많은 cpu usage 보일때

nvidia-smi가 너무 많은 cpu usage 보일때

nvidia-smi가 너무 많은 cpu usage 보일때, nvidia-smi daemon을 설정하자.

Word-Level Fine-Grained Story Visualization

Word-Level Fine-Grained Story Visualization

Prompt Tuning for Generative Multimodal Pretrained Models

Prompt Tuning for Generative Multimodal Pretrained Models

TLDR논문리뷰

FP16으로 Transformers Pipeline에 모델 로드하기

FP16으로 Transformers Pipeline에 모델 로드하기

Python Time-Ordered UUID

Python Time-Ordered UUID

Caddy로 Reverse Proxy HTTPS 서빙하기 (feat. Let’s encrypt)

Caddy로 Reverse Proxy HTTPS 서빙하기 (feat. Let’s encrypt)

Huggingface Transformers Pipeline

Huggingface Transformers Pipeline

Huggingface Transformers 라이브러리의 pipeline에 사용하는 옵션들

Ubuntu 21.04에 Mecab-ko 설치 중 apt 관련 오류 발생시

Ubuntu 21.04에 Mecab-ko 설치 중 apt 관련 오류 발생시

TL;DR: automake를 수동으로 설치해주면 된다.

gsutil 다운로드 완료 안될 경우

gsutil 다운로드 완료 안될 경우

GCP TPU VM에서 gsutil을 통한 다운로드가 99%에서 실패할 경우 해결법

FUDGE: Controlled Text Generation With Future Discriminators

FUDGE: Controlled Text Generation With Future Discriminators

TLDR논문리뷰

KcBERT-v2022, KcELECTRA-v2022

KcBERT-v2022, KcELECTRA-v2022

사이드프로젝트

2022년 버전의 KcBERT와 KcELECTRA

KcT5 Pretraining on TPU (feat. Flax)

KcT5 Pretraining on TPU (feat. Flax)

KcT5 Pretraining on TPU (feat. Flax)

사이드프로젝트

한국어 댓글로 TPUv3-8에서 T5 사전학습하기 with Flax, Jax

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

BERT에서 Word Emb, Pos(Relative) Emb를 쪼개 두 벡터로 각각 계산하자!

ZeRO-Infinity

DeepSpeed ZeRO-Infinity

FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders

FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders

TLDR논문리뷰

ICLR2021, PLM(BERT)에 추가 모듈 붙이고, Contrastive learning + Regualizer로 Debiased된 output 추출하는 방법론.

Transformers Trainer 뜯어보기

Transformers Trainer 뜯어보기

Huggingface Transformers 학습 Wrapper, Trainer가 어떻게 동작하는지 알아보자!

Docker + DeepSpeed + MultiGPU 사용 중 NCCL posix_fallocate failed: No space left on device 에러 대응하기

Docker + DeepSpeed + MultiGPU 사용 중 NCCL posix_fallocate failed: No space left on device 에러 대응하기

도커 컨테이너 위에서 DeepSpeed + MultiGPU 사용시, NCCL No Space left on device 에러가 발생하는 경우의 해결책

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

TLDR논문리뷰

ViT에서 Transformer Attention을 단순한 FF Layer로 바꿨는데 성능이 비슷. 79.9(ViT) vs 77.9(FF Layer only)

Transformers와 DeepSpeed로 새 BERT모델 굽기

Transformers와 DeepSpeed로 새 BERT모델 굽기

Transformers run_mlm.py 와 DeepSpeed, ZeRO-2/ZeRO-3으로 새 BERT 굽기

Huggingface + DeepSpeed + FairScale

Huggingface + DeepSpeed + FairScale

Huggingface로 '큰' 모델 학습하기

DExperts: On-the-Fly Controlled Text Generation with Experts and Anti-Experts

DExperts: On-the-Fly Controlled Text Generation with Experts and Anti-Experts

Language Model Finetune 통해 Detoxify & Sentiment Controlled Generation 하기

Transformers 새 모델 만들기

Transformers 새 모델 만들기

🤗Huggingface Transformers에 새로운 모델 구조를 만들어보자!

exBERT: Extending Pre-trained Models with Domain-speciﬁc Vocabulary Under Constrained Training Resources

exBERT: Extending Pre-trained Models with Domain-speciﬁc Vocabulary Under Constrained Training Resources

기존 BERT에 새로운 Vocab & (상대적으로)작은, 병렬 BERT모델을 붙여서 학습시, Domain Adaptation(DAPT)가 아주 잘 된다! (약 5-6%p의 균일한 성능 향상을 보임)

Longformer

BERT max len 512를 넘어 4096까지, Sequence length에 O(n)인 Attention Transformer

Cite.GG

사이드프로젝트

보다 쉬운 <읽을 논문거리 찾기>를 위해, Cite.GG

GeDi: Generative Discriminator Guided Sequence Generation

GeDi: Generative Discriminator Guided Sequence Generation

GPT 110M으로 GPT-2(XL, 1.2B), GPT-3(175B) Generation Guide하기

Train Language Model on TPU

Train Language Model on TPU

Train Language Model on TPU

TPU로 Language Model 학습해 보자! 🔥