AI/NLP Researcher
💌 MailTo: jun@beomi.net (or beomi@snu.ac.kr)
📝 Tech Blog: https://beomi.github.io & https://wiki.beomi.net
🖥 Github: https://github.com/beomi
📑 Google Scholar: https://scholar.google.com/citations?user=wzH5UWUAAAAJ
Last update @ Mar, 2022
Publications
[Journalism] News comment sections and online echo chambers: The ideological alignment between partisan news stories and their user comments
Abstract
This study explored the presence of digital echo chambers in the realm of partisan media’s news comment sections in South Korea. We analyzed the political slant of 152 K user comments written by 76 K unique contributors on NAVER, the country’s most popular news aggregator. We found that the political slant of the average user comments to be in alignment with the political leaning of the conservative news outlets; however, this was not true of the progressive media. A considerable number of comment contributors made a crossover from like-minded to cross-cutting partisan media and argued with their political opponents. The majority of these crossover commenters were “headstrong ideologues,” followed by “flip-floppers” and “opponents.” The implications of the present study are discussed in light of the potential for the news comment sections to be the digital cafés of Public Sphere 2.0 rather than echo chambers.
[HCLT 2020] KcBERT: 한국어 댓글로 학습한 BERT
Abstract
최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다.
사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다.
본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다.
본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.
[IC2S2 2020] Anxiety vs. Anger inducing Social Messages: A Case Study of the Fukushima Nuclear Disaster
[ACL 2020 SocialNLP] BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection
Abstract
Toxic comments in online platforms are an unavoidable social issue under the cloak of anonymity. Hate speech detection has been actively done for languages such as English, German, or Italian, where manually labeled corpus has been released. In this work, we first present 9.4K manually labeled entertainment news comments for identifying Korean toxic speech, collected from a widely used online news platform in Korea. The comments are annotated regarding social bias and hate speech since both aspects are correlated. The inter-annotator agreement Krippendorff's alpha score is 0.492 and 0.496, respectively. We provide benchmarks using CharCNN, BiLSTM, and BERT, where BERT achieves the highest score on all tasks. The models generally display better performance on bias identification, since the hate speech detection is a more subjective issue. Additionally, when BERT is trained with bias label for hate speech detection, the prediction score increases, implying that bias and hate are intertwined. We make our dataset publicly available and open competitions with the corpus and benchmarks.
[EMNLP 2019 W-NUT] The Fallacy of Echo Chambers: Analyzing the Political Slants of User-Generated News Comments in Korean Media
Abstract
This study analyzes the political slants of user comments on Korean partisan media. We built a BERT-based classifier to detect political leaning of short comments via the use of semi-unsupervised deep learning methods that produced an F1 score of 0.83. As a result of classifying 27.1K comments, we found the high presence of conservative bias on both conservative and liberal news outlets. Moreover, this study discloses a considerable overlap of commenters across the partisan spectrum such that the majority of liberals (88.8%) and conservatives (63.7%) comment not only on news stories resonating with their political perspectives but also on those challenging their viewpoints. These findings advance the current understanding of online echo chambers.
Career
DataDriven (2022.01. ~)
AI/NLP Researcher
- 학생 역량 기반 Generation Model 개발
NAVER (2020.07. ~ 2020.12.)
CLOVA Research Intern
- 네이버 클린봇 Transformers 계열 모델링
- KcBERT 기반 Classifier
- 한국어 초대형 Language Model (GPT-3, HyperClova)
KAIST DSLAB (2019.07. ~ 2019.08.)
Summer Internship
- The Fallacy of Echo Chambers
- 뉴스 타이틀/본문 기반 언론사들의 정치적 편향성 분석
- 댓글 텍스트 데이터 분석과 유저 정보를 통해 데이터 증폭 후 정치적 편향성 분석
네이버 뉴스와 댓글 데이터에서 나타나는 언론 및 사용자들의 정치적 편향성의 분포 연구 프로젝트
- Twitter Fukushima Rumor/FakeNews Diffusion Pattern Analysis
- Inbound/Outbound 연결을 통해 RT 확산 네트워크 패턴 분석
후쿠시마 원전 사태와 관련해 트위터에서 나타나는 정상/루머 등의 RT 패턴 분석 및 Classifer 제작 프로젝트
NEXON Korea (2017.10. ~ 2019.02.)
인텔리전스랩스 어뷰징탐지팀 SW Engineer
- Live(Game) Bot Detection
- 데이터 분석 모델 개발 (with Pyspark)
- 분석 결과 대시보드 개발 (with Django/Vue)
- Docker 기반 개발 및 배포 (with AWS ECR)
게임 내 작업장 혹은 핵과 같은 불법 프로그램을 이용한 계정을 탐지해 보여주는 서비스
- 딥러닝 기반 서버리스 서든어택(게임) 월핵 탐지 서비스
- 딥러닝 모델 서버리스 추론 Data flow 구성
- 실시간 Inference 결과 대시보드 개발
FPS 게임 이미지 기반 불법 프로그램 탐지 서비스
- 딥러닝 기반 서버리스 욕설 탐지 서비스
- 딥러닝 모델 서버리스 추론 Data flow 구성
- Batch Inference 서비스 페이지 개발
욕설 데이터 탐지기를 서버리스 API로 구성
우아한형제들 (2017.07. ~ 2017.08.)
우아한테크캠프 1기 인턴, Web Frontend track
Academic
서울대 (2020.03. ~ 2022.02.)
데이터사이언스 석사
서울교대 (2015.03. ~ 2020.02.)
초등교육 전공, 컴퓨터교육 심화전공
Opensource Projects
🔍 우리가 읽을 논문을 찾아서, Cite.GG
READ ME!
비슷한 논문 추천?
Google Scholar나 Semantic Scholar, 혹은 그 외에 여러가지 논문 검색 서비스들에서는 우리가 검색한/저장한 논문을 기준으로 우리가 관심가질만한 논문을 추천해줍니다.
이 추천을 위해서 수많은 알고리즘과, 최근에는 딥러닝을 사용해 추천을 해주는 시스템도 나오기도 했습니다.
한편, 가장 기본적이지만 직관적인, "그래서, 다들 인용하는, 다들 읽었지만 나만 안읽었지만 꼭 읽어야 하는 논문은 어떤 논문인데?" 라는 문제에 대한 답을 하는 서비스는 딱히 없어보이더군요. (있는데 저만 모를수도 있습니다😅)
그래서, 위 문제에 대한 답을 심플하게 찾아보고자 했습니다.
내가 지금 읽는 논문과 비슷한 논문들이 공통적으로 인용한 논문은?
(어떻게든 구글 스콜라에서 키워드로 검색해 어떤 논문을 찾아서) 읽고있는 논문이 있다면..
- 이 논문을 인용한 논문들이 있겠지?
- 이 논문을 인용한 논문들이 공통적으로 인용한 논문들이 있겠지!
- 공통적으로 인용된 논문들의 인용 횟수별로 정렬해보자!
- 라는 아이디어를 구현한 서비스 입니다.
KcBERT: Korean comments BERT
🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments
한국어 댓글로 프리트레이닝한 BERT 모델
KcELECTRA: Korean comments ELECTRA
🤗 Korean Comments ELECTRA: 한국어 댓글로 학습한 ELECTRA 모델
Personal Interest
NLP / Social Data Analysis / Data Mining
Dev Conference presentation
- 온라인 뉴스 댓글은 정말 사람들의 목소리일까? - PART2
@
PyCon KR 2019
Details
Presentation Slide👇
PyConKR 2018 발표와 같지만 좀더 분석 및 NLP적 방향에 집중한 프로젝트입니다.
2018년도 발표는 특정 일자 데이터를 통한 분석을 위주로 진행하였다면, 2019년 프로젝트의 경우 일단위/10분단위 데이터 수집을 통해 유저 식별과 함께 Text Feature를 통해 유저들의 성향을 판별합니다.
또한 NLP를 통해 댓글에 나타나는 Political Bias를 측정하는 것을 다룹니다.
- 온라인 뉴스 댓글은 정말 사람들의 목소리일까? - 네이버 뉴스 댓글 분석 프로젝트
@
Pycon KR 2018 (Non-disclosure Session)
Details
해당 프로젝트는 네이버 뉴스에서 제공하는 댓글을 이용해 비 정상적으로 보이는 유저를 판별하고, 특정 상황에서 일반 사용자들이 어떤 식으로 반응하는지에 대해 분석한 프로젝트입니다.
AWS Lambda를 이용한 서버리스 크롤링을 이용한 데이터 적재부터 PySpark를 이용한 데이터 ETL와 간단한 통계적 데이터 분석을 진행하였습니다.
- 처음부터 알아보는 웹 크롤러
@
Pycon KR 2017
Details
Presentation Slide👇
파이썬을 사용하지만 웹과 크롤링에 대한 지식이 얕은 사람들을 위해 크롤링의 전반적인 내용을 담은 발표입니다. 해당 발표와 함께 크롤링 튜토리얼도 함께 진행했습니다.
크롤링 튜토리얼 자료
- 쓸데많은 웹 크롤러 만들기 with Python @
GDG Campus Summer Party 2017
Data Engineering
Dev Conference presentation
- AWS Lambda를 통한 Tensorflow 및 Keras 기반 추론 모델 서비스하기
@
AWS Summit Seoul 2018
Details
Presentation Youtube & Slide👇
Tensorflow와 Keras를 이용해 만든 Inference 모델을 AWS Lambda에서 서버리스로 서비스하는 내용을 담은 발표입니다. TF/Keras에 대한 설명부터 Transfer Learning을 이용한 학습을 통해 새로운 모델을 생성한 뒤 해당 모델과 Tensorflow를 AWS Lambda상에 올린 뒤 서비스와 연동해 Inference 결과를 DynamoDB에 적재하는 부분까지 담아 서비스 전체를 Fully Serverless로 구현합니다.
Cloud, Automation, Scaling, ServerLess
OpenSource Projects
- aws-lambda-py3
- AWS Lambda Layers로 함수 공통용 Python 패키지 재사용하기
- AWS Lambda에 Tensorflow/Keras 배포하기 → 이 글 내용을 바탕으로 AWS Summit 발표가 이뤄졌습니다.
AWS Lambda Layer에 패키지를 올리기 위해 Pre-Compiled된 파이썬 라이브러리를 배포합니다.
크롤링, 혹은 딥러닝 Inference를 위한 서버리스 패키지 사용을 간편화 하기 위해 만든 Docker 기반으로 Amazon Linux 위에서 이미지를 제작해 제공합니다.
위
aws-lambda-py3
패키지를 만들고 사용하는 방법을 담은 블로그 글입니다.Etc.
[국민대학교] 비전공자를 위한 파이썬 강의 (2018.12)
국민대학교 비전공자 학생들을 위한 파이썬 입문 강의로,
파이썬 기초부터 Pandas를 이용한 기초적인 분석 방법을 익힌 후
Kaggle Tutorial을 진행해본 강의.
[패스트캠퍼스] 파이썬을 활용한 실전 웹크롤링 CAMP 강의(1기, 2기, 3기) (2017.9 - 2018.3)
웹이 구성되는 방식부터 python의 여러 크롤링 라이브러리를 활용해 실제 사용할 수 있는 수준의 크롤러를 만들 수 있도록 진행하는 실습형 크롤링 강의
- 강의 자료 (Source code)
- 강의 소개(인터뷰)
- 수강 후기(인터뷰)
[수원대학교] 파이썬을 이용한 웹 크롤러 만들기 특강 (2017.11)
패스트캠퍼스에서 진행한 강의 내용을 기반으로 1일 특강 진행
[키움증권] 파이썬 데이터분석 입문 강의 (2017.5 - 2017.6)
Pandas 패키지를 이용한 데이터 분석 입문 강의.
증권 데이터를 이용해 간단한 분석을 하는 사례와 함께 실습을 진행함
[NEXON] 사내 크롤링 강의 & 서버리스 딥러닝 강의
- 파이콘 발표 자료를 기반으로 진행한 크롤링 강의
- MNIST를 PyTorch와 CNN을 이용해 만든 Classification 모델을 제작하고, 해당 모델을 AWS Lambda를 이용해 서버리스 API로 만든 뒤 Web Front 페이지를 제작함