이준범 / Junbum Lee
이준범 / Junbum Lee

이준범 / Junbum Lee

AI/NLP Researcher
💌 MailTo: jun@beomi.net (or beomi@snu.ac.kr)
Last update @ Mar, 2022

Publications

[Journalism] News comment sections and online echo chambers: The ideological alignment between partisan news stories and their user comments

Abstract
This study explored the presence of digital echo chambers in the realm of partisan media’s news comment sections in South Korea. We analyzed the political slant of 152 K user comments written by 76 K unique contributors on NAVER, the country’s most popular news aggregator. We found that the political slant of the average user comments to be in alignment with the political leaning of the conservative news outlets; however, this was not true of the progressive media. A considerable number of comment contributors made a crossover from like-minded to cross-cutting partisan media and argued with their political opponents. The majority of these crossover commenters were “headstrong ideologues,” followed by “flip-floppers” and “opponents.” The implications of the present study are discussed in light of the potential for the news comment sections to be the digital cafés of Public Sphere 2.0 rather than echo chambers.

[HCLT 2020] KcBERT: 한국어 댓글로 학습한 BERT

Abstract
최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

[IC2S2 2020] Anxiety vs. Anger inducing Social Messages: A Case Study of the Fukushima Nuclear Disaster

[ACL 2020 SocialNLP] BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection

Abstract
Toxic comments in online platforms are an unavoidable social issue under the cloak of anonymity. Hate speech detection has been actively done for languages such as English, German, or Italian, where manually labeled corpus has been released. In this work, we first present 9.4K manually labeled entertainment news comments for identifying Korean toxic speech, collected from a widely used online news platform in Korea. The comments are annotated regarding social bias and hate speech since both aspects are correlated. The inter-annotator agreement Krippendorff's alpha score is 0.492 and 0.496, respectively. We provide benchmarks using CharCNN, BiLSTM, and BERT, where BERT achieves the highest score on all tasks. The models generally display better performance on bias identification, since the hate speech detection is a more subjective issue. Additionally, when BERT is trained with bias label for hate speech detection, the prediction score increases, implying that bias and hate are intertwined. We make our dataset publicly available and open competitions with the corpus and benchmarks.
 

[EMNLP 2019 W-NUT] The Fallacy of Echo Chambers: Analyzing the Political Slants of User-Generated News Comments in Korean Media

Abstract
This study analyzes the political slants of user comments on Korean partisan media. We built a BERT-based classifier to detect political leaning of short comments via the use of semi-unsupervised deep learning methods that produced an F1 score of 0.83. As a result of classifying 27.1K comments, we found the high presence of conservative bias on both conservative and liberal news outlets. Moreover, this study discloses a considerable overlap of commenters across the partisan spectrum such that the majority of liberals (88.8%) and conservatives (63.7%) comment not only on news stories resonating with their political perspectives but also on those challenging their viewpoints. These findings advance the current understanding of online echo chambers.

Career

DataDriven (2022.01. ~)

AI/NLP Researcher
  • 학생 역량 기반 Generation Model 개발

NAVER (2020.07. ~ 2020.12.)

CLOVA Research Intern
  • 네이버 클린봇 Transformers 계열 모델링
    • KcBERT 기반 Classifier
  • 한국어 초대형 Language Model (GPT-3, HyperClova)

KAIST DSLAB (2019.07. ~ 2019.08.)

Summer Internship
  • The Fallacy of Echo Chambers
    • 네이버 뉴스와 댓글 데이터에서 나타나는 언론 및 사용자들의 정치적 편향성의 분포 연구 프로젝트
      • 뉴스 타이틀/본문 기반 언론사들의 정치적 편향성 분석
      • 댓글 텍스트 데이터 분석과 유저 정보를 통해 데이터 증폭 후 정치적 편향성 분석
  • Twitter Fukushima Rumor/FakeNews Diffusion Pattern Analysis
    • 후쿠시마 원전 사태와 관련해 트위터에서 나타나는 정상/루머 등의 RT 패턴 분석 및 Classifer 제작 프로젝트
      • Inbound/Outbound 연결을 통해 RT 확산 네트워크 패턴 분석
       

NEXON Korea (2017.10. ~ 2019.02.)

인텔리전스랩스 어뷰징탐지팀 SW Engineer
  • Live(Game) Bot Detection
    • 게임 내 작업장 혹은 핵과 같은 불법 프로그램을 이용한 계정을 탐지해 보여주는 서비스
      • 데이터 분석 모델 개발 (with Pyspark)
      • 분석 결과 대시보드 개발 (with Django/Vue)
      • Docker 기반 개발 및 배포 (with AWS ECR)
  • 딥러닝 기반 서버리스 서든어택(게임) 월핵 탐지 서비스
    • FPS 게임 이미지 기반 불법 프로그램 탐지 서비스
      • 딥러닝 모델 서버리스 추론 Data flow 구성
      • 실시간 Inference 결과 대시보드 개발
  • 딥러닝 기반 서버리스 욕설 탐지 서비스
    • 욕설 데이터 탐지기를 서버리스 API로 구성
      • 딥러닝 모델 서버리스 추론 Data flow 구성
      • Batch Inference 서비스 페이지 개발

우아한형제들 (2017.07. ~ 2017.08.)

우아한테크캠프 1기 인턴, Web Frontend track

Academic

서울대 (2020.03. ~ 2022.02.)

데이터사이언스 석사

서울교대 (2015.03. ~ 2020.02.)

초등교육 전공, 컴퓨터교육 심화전공

Opensource Projects

🔍 우리가 읽을 논문을 찾아서, Cite.GG

READ ME!

비슷한 논문 추천?

Google Scholar나 Semantic Scholar, 혹은 그 외에 여러가지 논문 검색 서비스들에서는 우리가 검색한/저장한 논문을 기준으로 우리가 관심가질만한 논문을 추천해줍니다.
이 추천을 위해서 수많은 알고리즘과, 최근에는 딥러닝을 사용해 추천을 해주는 시스템도 나오기도 했습니다.
한편, 가장 기본적이지만 직관적인, "그래서, 다들 인용하는, 다들 읽었지만 나만 안읽었지만 꼭 읽어야 하는 논문은 어떤 논문인데?" 라는 문제에 대한 답을 하는 서비스는 딱히 없어보이더군요. (있는데 저만 모를수도 있습니다😅)
그래서, 위 문제에 대한 답을 심플하게 찾아보고자 했습니다.

내가 지금 읽는 논문과 비슷한 논문들이 공통적으로 인용한 논문은?

(어떻게든 구글 스콜라에서 키워드로 검색해 어떤 논문을 찾아서) 읽고있는 논문이 있다면..
  • 이 논문을 인용한 논문들이 있겠지?
  • 이 논문을 인용한 논문들이 공통적으로 인용한 논문들이 있겠지!
  • 공통적으로 인용된 논문들의 인용 횟수별로 정렬해보자!
  • 라는 아이디어를 구현한 서비스 입니다.

KcBERT: Korean comments BERT

🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델

KcELECTRA: Korean comments ELECTRA

🤗 Korean Comments ELECTRA: 한국어 댓글로 학습한 ELECTRA 모델

Personal Interest

NLP / Social Data Analysis / Data Mining

Dev Conference presentation

  • 쓸데많은 웹 크롤러 만들기 with Python @ GDG Campus Summer Party 2017

Data Engineering

Dev Conference presentation

Cloud, Automation, Scaling, ServerLess

OpenSource Projects

Etc.

[국민대학교] 비전공자를 위한 파이썬 강의 (2018.12)
국민대학교 비전공자 학생들을 위한 파이썬 입문 강의로, 파이썬 기초부터 Pandas를 이용한 기초적인 분석 방법을 익힌 후 Kaggle Tutorial을 진행해본 강의.
[패스트캠퍼스] 파이썬을 활용한 실전 웹크롤링 CAMP 강의(1기, 2기, 3기) (2017.9 - 2018.3)
웹이 구성되는 방식부터 python의 여러 크롤링 라이브러리를 활용해 실제 사용할 수 있는 수준의 크롤러를 만들 수 있도록 진행하는 실습형 크롤링 강의
[수원대학교] 파이썬을 이용한 웹 크롤러 만들기 특강 (2017.11)
패스트캠퍼스에서 진행한 강의 내용을 기반으로 1일 특강 진행
[키움증권] 파이썬 데이터분석 입문 강의 (2017.5 - 2017.6)
Pandas 패키지를 이용한 데이터 분석 입문 강의.
증권 데이터를 이용해 간단한 분석을 하는 사례와 함께 실습을 진행함
[NEXON] 사내 크롤링 강의 & 서버리스 딥러닝 강의
  • 파이콘 발표 자료를 기반으로 진행한 크롤링 강의
  • MNIST를 PyTorch와 CNN을 이용해 만든 Classification 모델을 제작하고, 해당 모델을 AWS Lambda를 이용해 서버리스 API로 만든 뒤 Web Front 페이지를 제작함