과제
연구실에서 수행한 연구는 다양한 영어권 국가의 문화적 배경이 혐오 표현에 대한 인식에 어떤 영향을 미치는지 탐구하는 데 중점을 두고 있었습니다. 미국과 캐나다에서 사용하는 영어 혐오 표현 데이터셋과 다른 영어권 국가에서 제공한 데이터셋을 비교함으로써, 문화적 차이가 혐오 표현에 대한 인식에 어떤 영향을 미치는지 알아보는 연구입니다.
고객사는 이러한 연구 목적을 달성하기 위해, 미국과 캐나다를 제외한 영어권 국가의 작업자들이 라벨링한 다양한 혐오 표현 데이터셋이 필요했습니다. 이를 위해 고객사는 저희에게 해당 데이터셋을 요청하였습니다.
고객사 소개
한국과학기술원(KAIST)은 국내에서 처음으로 설립된 연구중심 이공계 특수대학원입니다. 의뢰주신 연구실은 미래 사회의 컴퓨팅 패러다임을 혁신적으로 변화시키는 것을 목표로 두고 있습니다.
작업 내용
이 프로젝트는 다양한 문화적 배경을 가진 작업자들이 참여하여, 총 네 단계의 과정을 거쳐 진행되었습니다. 각 단계는 다음과 같습니다:
1. 문화적 배경 수집:
첫 번째 단계에서는 참여자들의 국적과 가장 오래 거주한 나라를 수집했습니다. 이때, 참여자의 국적과 가장 오래 거주한 나라가 일치해야 하며, 미국에서의 거주 경험이 있는 경우는 제외되었습니다. 이를 통해 참여자들의 문화적 배경을 명확하게 파악했습니다.
2. 영어 능통성 평가:
두 번째 단계에서는 참여자들의 영어 능통성을 평가하기 위해 영어 시험을 실시했습니다. 이는 참여자들이 영어로 된 혐오 표현을 정확하게 이해하고 분석할 수 있는 능력을 확인하기 위한 것입니다.
3. 인구통계 정보 수집:
세 번째 단계에서는 참여자들의 인구통계 정보를 수집했습니다. 이 정보는 참여자들의 다양한 배경을 반영하며, 연구 결과에 대한 더 깊은 통찰력을 제공합니다.
4. 혐오 표현 분류 작업:
마지막 단계에서는 틱택 앱을 통해 참여자들이 약 400~600개의 포스트에 대한 ‘Hate Speech Annotation (혐오 표현 어노테이션)’ 작업을 수행했습니다. 이 단계는 프로젝트의 핵심으로, 참여자들이 실제로 혐오 표현을 식별하고 분류하는 데 집중했습니다.
작업 결과
틱택코리아는 약 3개월에 걸쳐 고객사의 요구사항과 가이드라인을 기반으로 ‘혐오 표현 분류 작업’을 성공적으로 수행했습니다. 이번 프로젝트에서 작업의 품질을 유지하기 위해 데이터를 상세히 모니터링했으며, 불분명하거나 문제가 있는 데이터는 적극적으로 제외시키는 등 중간 점검을 통해 데이터의 정확성을 유지했습니다.
이번 프로젝트는 1차와 2차에 거쳐 약 200명의 해외 크라우드 작업자가 참여하여 총 1,880개의 문항을 분류하고 가공하여 고객사에 전달했습니다. 틱택코리아는 프로젝트 시작 전 고객사와의 사전 미팅을 통해 과제에 대한 정확한 이해를 바탕으로 작업을 시작하고 있으며, 프로젝트 기간 동안 지속적인 모니터링을 통해 데이터 품질과 작업의 효율성을 유지합니다.
Comments