Link
TL;DR
- 기존 연구들은 word-level debiasing
 
- 우리는 sentence-level debiasing
 
- encoder model에 대해서 debiasing하는거 sentence level은 적음
 
- PLM encoder 모델에 대해서 debiasing하는 "FairFil(fair filter)" model을 제안함
 - Contrastive learning을 사용
 - Filtered embedding간 correltaion 낮추고
 - Semantic info 유지함
 - PLM 자체를 재학습하지 않아도 됨
 - post-hoc 방법론
 
- Bias degree 감소
 
- Downstream task에서도 성능 좋음
 
- 기존에 "Sent-Debias"라는 방법론이 있음
 - PCA 통해서 Feature vector minimize
 - 이슈) 정말 bias가 linear level에 있다고 생각해?
 - Train data에 너무 의존적임
 - Generalization 어려움
 
- 이 방법론도 예전에 읽은 모 논문과 비슷함
 
- 기존 Embedding을 Input으로 받아서 → Debiased된 embedding이 output이 되게 하는 FairFil Net
 
- Multi-view contrastive learning의 아이디어
 - 학습 데이터가 있으면
 - Data Augmentation을 한다.
 - Potential bias direction이 다른쪽으로 나오게.
 - 위 Table 예시 기준: 성별이 키워드, 문장에서 성별 단어만 변경.
 
- 원본 emb와 Debiased emb간 Mutual info는 Maximize (성능 유지용)
 - InfoNCE라는 기법을 사용한다.
 - SimCLR 논문을 참고한다.
 
- Debias Regualizer - debiased emb와 sensitive word's emb간 mutual info 최소화
 
- Bias Evaluation
 - SEAT dataset
 
- Downstream 성능 Eval
 - SST-2
 - CoLA
 - QNLI
 - Sent-D(Sent-Debias) 방법론보다 성능이 더 좋음
 - Sent-D는 PCA방식으로 제거
 - 제거하는 순간 정보 잃어버리는데, FairFil의 새로운 NN 학습은 그런 단점이 적음
 
- Template로 생성한 sentence로부터 mean 쳐서 찾아낸 word embedding을 T-SNE로 비교한다.
 - Non-contextualized emb를 추출하는 방법으로 결국 이거 많이 쓰긴 하나보다.
 
