Blog Posts
Gradient Checkpointing, Frozen Embeddings, and LoRA Adapters
NLP
Oct 31, 2024
Gradient flow when using LoRA and Grad Ckpts.
Differential Transformer
NLP
논문리뷰
PLM
Oct 10, 2024
Q → Q1, Q2. K → K1, K2. V → V. SoftMax → SoftMax(Q1K1) - L*Softmax(Q2K2)
JetStream inference at TPU
NLP
MLDL Framework
PLM
GCP
TPU
Step by Step Guide: vLLM TPU Pod Slice Inference
NLP
MLDL Framework
GCP
TPU
Aug 23, 2024
TPU Pod Slice(e.g., v4-64)에서 vLLM으로 LLM 모델을 서빙하기
10배 더 빠른 gcloud storage cp
GCP
Cloud
Jul 1, 2024
GCS에서 파일 복사는
gcloud storage
쓰는게 10배 더 빠르다Bash script to kill TPUv5e(TPUv5lite) consuming process
MLDL Framework
GCP
TPU
Mar 25, 2024
TPUv5 uses new device name, new scripts to kill the process :)
HF model → OpenAI compatible API
NLP
MLDL Framework
Dev
Feb 26, 2024
transformers-openai-api를 통해 명령어 한줄로 OpenAI Compatible API 만들기
gcloud 커맨드로 VS Code SSH로 GCP VM 접속하기
GCP
Cloud
Ubuntu
Dev
Nov 30, 2023
간단히 ProxyCommand를 통해서 접속할 수 있는 방법을 SSH config에 설정해주자.
Huggingface Transformers Train with FSDP on PyTorch/XLA @ TPU
MLDL Framework
Dev
Cloud
TPU
Sep 9, 2023
Huggingface Transformers FSDP 코드로 TPU에서 PyTorch/XLA로 언어모델을 학습해보자!
PyTorch/XLA SPMD @ TPU
MLDL Framework
Dev
GCP
Cloud
TPU
Sep 9, 2023
새로운 방식의 GSPMD를 PyTorch/XLA(2.2)에서 써보자. TPU를 지원한다!
MLC LLM
NLP
MLDL Framework
Aug 22, 2023
엄청 빠르다는 MLC LLM, 서빙해보자.
DeepSpeed Multinode
NLP
MLDL Framework
Dev
Aug 18, 2023
PySpark JSONL 로드 느릴때 Schema 제공으로 속도 높이기
MLDL Framework
Dev
Jul 14, 2023
StructType을 통해서 Schema를 제공해주면 MetaData 만들기 위한 로드를 해결할 수 있다.
Numeric Values to Text, 숫자 데이터로 된 표를 텍스트로 생성하기
Preference Ranking Optimization for Human Alignment 논문리뷰
NLP
논문리뷰
RLHF
Jul 3, 2023
RL 없이 1순위vs나머지, 2순위vs나머지, …로 Human Preference 학습시키기
Direct Preference Optimization 논문리뷰
NLP
논문리뷰
RLHF
Jun 28, 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 논문리뷰
특정한 Repo의 Branch로 pip install
Dev
Jun 26, 2023
pip install git+주소 에 Branch 지정해 설치하기
RRHF 논문 & 코드리뷰: Rank Responses to Align Language Models with Human Feedback without tears
NLP
논문리뷰
RLHF
Jun 23, 2023
코드와 함께하는 RRHF 리뷰
Cloudflare Tunnels 한 호스트에 여러개 띄우기
Dev
Cloud
Jun 7, 2023
Docker로 Cloudflare Tunnel을 띄워서 한 기기에 여러 Cloudflare Tunnel을 연결하기
ElasticSearch Docker Single Node 실행 실패 해결법
Ubuntu
Dev
May 2, 2023
Elastic search error: "Native controller process has stopped - no new native processes can be started" 에러 해결법
PEFT로 LoRA Checkpoint 로드시 size mismatch 해결법
MLDL Framework
NLP
PLM
Apr 3, 2023
base_model.model.gpt_neox.layers.0.attention.query_key_value.lora_A.weight: copying a param with shape torch.Size([16, 5120]) from checkpoint, the shape in current model is torch.Size([8, 5120]) 와 같은 문제를 해결하기
Synology NAS File Station에서 다운로드 링크를 wget/curl로 받는 방법
NAS
Dev
Mar 25, 2023
Firefox Plugin “CLIGET”으로 다운로드 링크를 따오자!
pix2pix-zero: Zero-shot Image-to-Image Translation 논문리뷰
논문리뷰
CV
Feb 9, 2023
추가 학습 없는 고성능의 Image To Image 모델
datasets 라이브러리의 load_metric 사용시 Nonetype Error 발생시 해결법
MLDL Framework
Dev
Ubuntu
Sep 21, 2022
TL;DR: 캐시 지우고 scikit-learn을 재설치하자
MaxMatch-Dropout/ Subword Regularization for WordPiece
NLP
논문리뷰
COLING 2022
Sep 13, 2022
WordPiece에 Subword Dropout을 적용하자!
K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment
NLP
COLING 2022
TLDR논문리뷰
Sep 8, 2022
새로운 한국어 HateSpeech Dataset!
Ordinal Log Loss: A simple log-based loss function for ordinal text classification
NLP
논문리뷰
COLING 2022
Sep 8, 2022
Ordinal classification를 위한 간단하고 성능 좋은 Loss function
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
NLP
CV
PLM
논문리뷰
Sep 5, 2022
몇장(3~5개)의 이미지 만으로 Diffusion 모델에 새로운 캐릭터를 등장시키자!
nvidia-smi가 너무 많은 cpu usage 보일때
Ubuntu
Dev
Aug 8, 2022
nvidia-smi가 너무 많은 cpu usage 보일때, nvidia-smi daemon을 설정하자.
Word-Level Fine-Grained Story Visualization
NLP
CV
논문리뷰
Aug 5, 2022
Prompt Tuning for Generative Multimodal Pretrained Models
논문리뷰
NLP
TLDR논문리뷰
Aug 5, 2022
FP16으로 Transformers Pipeline에 모델 로드하기
MLDL Framework
NLP
Aug 4, 2022
Python Time-Ordered UUID
Dev
Aug 4, 2022
Caddy로 Reverse Proxy HTTPS 서빙하기 (feat. Let’s encrypt)
Dev
Ubuntu
Feb 28, 2022
Huggingface Transformers Pipeline
NLP
MLDL Framework
Feb 10, 2022
Huggingface Transformers 라이브러리의 pipeline에 사용하는 옵션들
Ubuntu 21.04에 Mecab-ko 설치 중 apt 관련 오류 발생시
NLP
Ubuntu
Feb 8, 2022
TL;DR: automake를 수동으로 설치해주면 된다.
gsutil 다운로드 완료 안될 경우
GCP
Cloud
Feb 7, 2022
GCP TPU VM에서 gsutil을 통한 다운로드가 99%에서 실패할 경우 해결법
FUDGE: Controlled Text Generation With Future Discriminators
NLP
TLDR논문리뷰
Jul 22, 2021
KcBERT-v2022, KcELECTRA-v2022
NLP
사이드프로젝트
PLM
Feb 7, 2022
2022년 버전의 KcBERT와 KcELECTRA
KcT5 Pretraining on TPU (feat. Flax)
NLP
사이드프로젝트
PLM
Feb 8, 2022
한국어 댓글로 TPUv3-8에서 T5 사전학습하기 with Flax, Jax
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
NLP
논문리뷰
Jun 25, 2021
BERT에서 Word Emb, Pos(Relative) Emb를 쪼개 두 벡터로 각각 계산하자!
ZeRO-Infinity
논문리뷰
MLDL Framework
May 30, 2021
DeepSpeed ZeRO-Infinity
FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders
NLP
TLDR논문리뷰
May 24, 2021
ICLR2021, PLM(BERT)에 추가 모듈 붙이고, Contrastive learning + Regualizer로 Debiased된 output 추출하는 방법론.
Transformers Trainer 뜯어보기
NLP
MLDL Framework
May 22, 2021
Huggingface Transformers 학습 Wrapper, Trainer가 어떻게 동작하는지 알아보자!
Docker + DeepSpeed + MultiGPU 사용 중 NCCL posix_fallocate failed: No space left on device 에러 대응하기
NLP
MLDL Framework
May 20, 2021
도커 컨테이너 위에서 DeepSpeed + MultiGPU 사용시, NCCL No Space left on device 에러가 발생하는 경우의 해결책
Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet
TLDR논문리뷰
CV
May 24, 2021
ViT에서 Transformer Attention을 단순한 FF Layer로 바꿨는데 성능이 비슷. 79.9(ViT) vs 77.9(FF Layer only)
Transformers와 DeepSpeed로 새 BERT모델 굽기
NLP
MLDL Framework
May 17, 2021
Transformers
run_mlm.py
와 DeepSpeed, ZeRO-2/ZeRO-3으로 새 BERT 굽기Huggingface + DeepSpeed + FairScale
NLP
MLDL Framework
May 16, 2021
Huggingface로 '큰' 모델 학습하기
DExperts: On-the-Fly Controlled Text Generation with Experts and Anti-Experts
NLP
논문리뷰
May 14, 2021
Language Model Finetune 통해 Detoxify & Sentiment Controlled Generation 하기
Transformers 새 모델 만들기
NLP
MLDL Framework
May 14, 2021
🤗Huggingface Transformers에 새로운 모델 구조를 만들어보자!
exBERT: Extending Pre-trained Models with Domain-specific Vocabulary Under Constrained Training Resources
NLP
논문리뷰
Mar 19, 2021
기존 BERT에 새로운 Vocab & (상대적으로)작은, 병렬 BERT모델을 붙여서 학습시, Domain Adaptation(DAPT)가 아주 잘 된다! (약 5-6%p의 균일한 성능 향상을 보임)
Longformer
NLP
논문리뷰
Mar 27, 2021
BERT max len 512를 넘어 4096까지, Sequence length에 O(n)인 Attention Transformer
Cite.GG
사이드프로젝트
May 12, 2021
보다 쉬운 <읽을 논문거리 찾기>를 위해, Cite.GG
GeDi: Generative Discriminator Guided Sequence Generation
NLP
논문리뷰
May 1, 2021
GPT 110M으로 GPT-2(XL, 1.2B), GPT-3(175B) Generation Guide하기
Train Language Model on TPU
NLP
May 11, 2021
TPU로 Language Model 학습해 보자! 🔥
about