ArXiv
TL;DR
- 새로운 Korean HateSpeech Dataset
- 이전에 내가 캐글에 공개했던 Korean News Comments Dataset을 기반으로 만드셨다! 🙌
- 기왕이면 KcBERT랑 KcELECTRA도 같이 써보시고 인용해주지…
- 약 11만개의 데이터셋
- 정확히는 109,692개 → Train 78,977 / Val 8,776 / Test 21,939
- 절반:절반 정도로 Hate/Non-Hate (45.7% vs 54.3%)
- 세부적으로는 8개 데이터셋으로 나눔
- 키워드 분석도 같이 진행함
- BERT류로 테스트 많이 하심
- KcELECTRA-v2022로 테스트해보면 성능 더 잘 나올지도 몰라!
- 애초에 PLM 학습한 데이터셋에서 추출한거니 KcBERT가 제일 좋을지도?