이준범 / Junbum Lee
이준범 / Junbum Lee

이준범 / Junbum Lee

AI/NLP Researcher
💌 MailTo: jun@beomi.net (or beomi@snu.ac.kr)
Last update @ Jan, 2024

Publications

[Journalism] News comment sections and online echo chambers: The ideological alignment between partisan news stories and their user comments

Abstract
This study explored the presence of digital echo chambers in the realm of partisan media’s news comment sections in South Korea. We analyzed the political slant of 152 K user comments written by 76 K unique contributors on NAVER, the country’s most popular news aggregator. We found that the political slant of the average user comments to be in alignment with the political leaning of the conservative news outlets; however, this was not true of the progressive media. A considerable number of comment contributors made a crossover from like-minded to cross-cutting partisan media and argued with their political opponents. The majority of these crossover commenters were “headstrong ideologues,” followed by “flip-floppers” and “opponents.” The implications of the present study are discussed in light of the potential for the news comment sections to be the digital cafés of Public Sphere 2.0 rather than echo chambers.

[HCLT 2020] KcBERT: 한국어 댓글로 학습한 BERT

Abstract
최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

[IC2S2 2020] Anxiety vs. Anger inducing Social Messages: A Case Study of the Fukushima Nuclear Disaster

[ACL 2020 SocialNLP] BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection

Abstract
Toxic comments in online platforms are an unavoidable social issue under the cloak of anonymity. Hate speech detection has been actively done for languages such as English, German, or Italian, where manually labeled corpus has been released. In this work, we first present 9.4K manually labeled entertainment news comments for identifying Korean toxic speech, collected from a widely used online news platform in Korea. The comments are annotated regarding social bias and hate speech since both aspects are correlated. The inter-annotator agreement Krippendorff's alpha score is 0.492 and 0.496, respectively. We provide benchmarks using CharCNN, BiLSTM, and BERT, where BERT achieves the highest score on all tasks. The models generally display better performance on bias identification, since the hate speech detection is a more subjective issue. Additionally, when BERT is trained with bias label for hate speech detection, the prediction score increases, implying that bias and hate are intertwined. We make our dataset publicly available and open competitions with the corpus and benchmarks.
 

[EMNLP 2019 W-NUT] The Fallacy of Echo Chambers: Analyzing the Political Slants of User-Generated News Comments in Korean Media

Abstract
This study analyzes the political slants of user comments on Korean partisan media. We built a BERT-based classifier to detect political leaning of short comments via the use of semi-unsupervised deep learning methods that produced an F1 score of 0.83. As a result of classifying 27.1K comments, we found the high presence of conservative bias on both conservative and liberal news outlets. Moreover, this study discloses a considerable overlap of commenters across the partisan spectrum such that the majority of liberals (88.8%) and conservatives (63.7%) comment not only on news stories resonating with their political perspectives but also on those challenging their viewpoints. These findings advance the current understanding of online echo chambers.

Career

DataDriven (2022.01. ~)

AI/NLP Researcher
  • 학생 역량 기반 Generation Model 연구개발
  • “진로톡톡” Generation AI기반 멀티턴 진로상담 채팅형 모델 연구개발

NAVER (2020.07. ~ 2020.12.)

CLOVA Research Intern
  • 네이버 클린봇 Transformers 계열 모델링
    • KcBERT 기반 Classifier
  • 한국어 초대형 Language Model (GPT-3, HyperClova)

KAIST DSLAB (2019.07. ~ 2019.08.)

Summer Internship
  • The Fallacy of Echo Chambers
    • 네이버 뉴스와 댓글 데이터에서 나타나는 언론 및 사용자들의 정치적 편향성의 분포 연구 프로젝트
      • 뉴스 타이틀/본문 기반 언론사들의 정치적 편향성 분석
      • 댓글 텍스트 데이터 분석과 유저 정보를 통해 데이터 증폭 후 정치적 편향성 분석
  • Twitter Fukushima Rumor/FakeNews Diffusion Pattern Analysis
    • 후쿠시마 원전 사태와 관련해 트위터에서 나타나는 정상/루머 등의 RT 패턴 분석 및 Classifer 제작 프로젝트
      • Inbound/Outbound 연결을 통해 RT 확산 네트워크 패턴 분석
       

NEXON Korea (2017.10. ~ 2019.02.)

인텔리전스랩스 어뷰징탐지팀 SW Engineer
  • Live(Game) Bot Detection
    • 게임 내 작업장 혹은 핵과 같은 불법 프로그램을 이용한 계정을 탐지해 보여주는 서비스
      • 데이터 분석 모델 개발 (with Pyspark)
      • 분석 결과 대시보드 개발 (with Django/Vue)
      • Docker 기반 개발 및 배포 (with AWS ECR)
  • 딥러닝 기반 서버리스 서든어택(게임) 월핵 탐지 서비스
    • FPS 게임 이미지 기반 불법 프로그램 탐지 서비스
      • 딥러닝 모델 서버리스 추론 Data flow 구성
      • 실시간 Inference 결과 대시보드 개발
  • 딥러닝 기반 서버리스 욕설 탐지 서비스
    • 욕설 데이터 탐지기를 서버리스 API로 구성
      • 딥러닝 모델 서버리스 추론 Data flow 구성
      • Batch Inference 서비스 페이지 개발

우아한형제들 (2017.07. ~ 2017.08.)

우아한테크캠프 1기 인턴, Web Frontend track

Academic

서울대 (2020.03. ~ 2022.02.)

데이터사이언스 석사

서울교대 (2015.03. ~ 2020.02.)

초등교육 전공, 컴퓨터교육 심화전공

Opensource Projects

Llama-2-Ko / Yi-Ko / Solar-Ko Series

다국어/영어로 학습된 PLM에 Vocab Expansion과 Continual Pretraining을 통해 한국어 성능을 높이는 프로젝트
  • Llama-2-Ko (7B/13B/70B)
    • 한국어[Ko 7B, 70B]/한국어+영어[KoEn 13B] 코퍼스로 Continual Learning한 모델
  • Open-Llama-2-Ko (7B/13B)
    • 한국어 공개 코퍼스로 Continual Learning한 모델
  • Yi-Ko(6B)
    • 한국어+영어 코퍼스로 Continual Learning한 모델
  • Solar-Ko(11B)
    • 한국어 공개 코퍼스로 Continual Learning한 모델

KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델

Llama, Polyglot-Ko에 Alpaca 번역 데이터셋을 제작해 한국어 명령어를 따르도록 만든 언어모델 프로젝트

🔍 우리가 읽을 논문을 찾아서, Cite.GG

KcBERT: Korean comments BERT

🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델

KcELECTRA: Korean comments ELECTRA

🤗 Korean Comments ELECTRA: 한국어 댓글로 학습한 ELECTRA 모델
 

Dev Conference presentation

  • 모두를 위한 한국어 Open Access LLM — Llama-2-Ko와 함께하는 한국어 오픈액세스 언어모델 만드는 이야기 @ 모두콘 2023