K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment
💬

K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment

Tags
NLP
COLING 2022
TLDR논문리뷰
Published
Published September 8, 2022

ArXiv

 

TL;DR

  • 새로운 Korean HateSpeech Dataset
  • 이전에 내가 캐글에 공개했던 Korean News Comments Dataset을 기반으로 만드셨다! 🙌
    • 기왕이면 KcBERT랑 KcELECTRA도 같이 써보시고 인용해주지…
  • 약 11만개의 데이터셋
    • 정확히는 109,692개 → Train 78,977 / Val 8,776 / Test 21,939
    • 절반:절반 정도로 Hate/Non-Hate (45.7% vs 54.3%)
    • 세부적으로는 8개 데이터셋으로 나눔
notion image
  • 키워드 분석도 같이 진행함
notion image
  • BERT류로 테스트 많이 하심
    • KcELECTRA-v2022로 테스트해보면 성능 더 잘 나올지도 몰라!
    • 애초에 PLM 학습한 데이터셋에서 추출한거니 KcBERT가 제일 좋을지도?
notion image