top of page

데이터바우처 2025

수요기업 신청하러 가기

데이터바우처 2024 수요기업 모집

세상을 바꾸는 데이터,
틱택에서 시작하세요!

일반데이터부터 특수데이터까지,
수집 및 가공부터 맞춤형 AI 솔루션까지,
틱택과 함께라면 이제 모든 것이 쉬워집니다.

Data-Centric vs Model-Centric 무엇이 더 중요할까?



Data-Centric vs Model-Centric 중 무엇이 더 중요할까? 추상적인 곡선 그래픽으로 데이터와 모델 간 상호작용을 강조하는 이미지.
Data-Centric vs Model-Centric 무엇이 더 중요할까?


최고의 요리사도 좋은 재료가 필요하다


흑백요리사 7화는 백수저와 흑수저가 대결하는 장면이 펼쳐졌습니다. 각 팀이 어떤 요리를 만들지 회의하는 과정에서 최현석 셰프는 이런 말을 합니다. ‘주방에서 셰프보다 더 높은 게 있어요. 재료죠'. 이후 백수저팀은 특정 식재료를 거의 독차지하다시피 합니다. 이 전략적 선택은 결국 팀의 승리로 이어졌습니다. 최고의 셰프라도 질 좋은 재료 없이는 뛰어난 요리를 만들 수 없다는 진리를 보여준 순간이었죠.


AI 분야에서도 이와 같은 원리가 적용됩니다. 딥러닝계의 권위자 Andrew Ng은 "모델은 요리사, 데이터는 재료"라는 비유를 들며 Data-Centric AI의 중요성을 강조합니다.



 


Model-Centric과 Data-Centric: 두 가지 접근법의 차이


전통적인 AI 연구는 알고리즘 개발과 같은 '모델 혁신'에 초점을 맞춰왔습니다. 하지만 실제 현장에서는 모델 조정보다 데이터 품질 개선이 더 큰 성과를 내는 경우가 많아지면서, Data-Centric AI가 새로운 패러다임으로 부상하고 있습니다.

Andrew Ng이 제시한 두 가지 관점을 비교해 보겠습니다:


  • Model-Centric 관점

    • 대량의 데이터를 수집하고, 노이즈를 처리할 수 있는 강력한 모델 개발에 집중

    • 데이터는 고정하고(fixed) 모델을 지속적으로 개선


  • Data-Centric 관점

    • 데이터의 일관성을 최우선으로 고려

    • 데이터 품질 개선을 위한 툴 활용

    • 모델은 고정하고(fixed) 데이터를 반복적으로 개선



 


실제 사례로 보는 효과성


 2021년 Andrew Ng이 DeepLearning.AI 강의에서 공개한 연구 결과
Improving the code VS. the data

2021년 Andrew Ng이 DeepLearning.AI 강의에서 공개한 연구 결과는 주목할 만합니다. 76.2%의 정확도를 가진 철강 결함 탐지 AI를 90%의 정확도까지 끌어올리고 싶다고 할 때, 코드 개선과 데이터 개선 중, 어느 것을 개선하는 게 더 효과적일까요? 


모델을 개선했을 때는 정확도가 전혀 높아지지 않았습니다. 반대로 데이터를 개선했을 때는 16.9% 정확도가 높아지는 결과가 있었습니다. 이러한 결과는 태양광 전지판, 표면 검사 등 다양한 분야에서도 동일하게 나타났습니다.




 



고품질 데이터 확보를 위한 방법론


Andrew Ng이 제시한 데이터 품질 확보를 위한 방법론
Andrew Ng이 제시한 데이터 품질 확보를 위한 방법론

그렇다면 데이터 품질은 어떻게 확보할 수 있을까요? Andrew Ng이 제시한 데이터 품질 확보를 위한 방법론을 살펴보겠습니다.


  1. 두 명의 독립적인 라벨링 작업자가 이미지 라벨링을 수행합니다. 

  2. 작업자 간의 일관성을 측정하여 다르게 라벨링 한 부분을 파악합니다.

  3. 작업 결과가 불일치하는 클래스의 경우 작업 일관성이 생길 때까지 라벨링 가이드라인을 수정합니다. 


이는 고품질 데이터셋 구축을 위해서는 명확한 가이드라인과 작업자 간 일관성이 핵심임을 보여줍니다.



 


데이터가 AI의 성공을 좌우한다


지금까지 Data-centric에 대해 알아보았습니다. 고품질 데이터셋 확보는 성공적인 AI 개발을 위한 핵심 요소입니다. 좋은 모델이 있어도 데이터 품질이 낮다면 좋은 결과를 도출하기 어렵습니다. 또한 AI를 개선함에 있어서도 모델 자체를 개선하기보다는 데이터 품질을 높여보는 것도 빠르게 성능을 높이는 지름길일 수 있습니다. 


틱택은 Data-centric 접근법으로 일관성 있는 데이터 확보하여 고품질 데이터셋을 구축하는 시스템을 가지고 있습니다. 데이터 수집 및 가공 자체 앱을 개발했으며, 국내외 데이터 라벨링 작업자 풀을 보유하고 있습니다. 틱택은 다양한 업종별 데이터 수집 및 가공 경험을 통해 고객사의 AI 개발을 성공적으로 지원해왔습니다. AI 개발에 필요한 고품질 데이터 확보에 어려움을 겪고 계시다면 틱택과 상담해 보세요.



 


출처

Comentários


Os comentários foram desativados.
bottom of page