Idea & Issue/기술 리뷰

AUTO LABELING(1)_개념

pyh5214 2023. 6. 7. 17:31

✔ 오토라벨링 개념

 

오토라벨링은 기계 학습 모델을 훈련시키기 위해 사용되는 자동 레이블링 기술

사전에 정의된 규칙이나 알고리즘을 사용하여 데이터에 자동으로 레이블을 할당

예를 들어, 이미지 분류 작업을 수행한다고 가정해봅시다. 오토라벨링을 사용하면 모델에게 입력된 이미지에 대해 자동으로 레이블을 지정할 수 있습니다. 이를 위해 사전에 훈련된 모델이 이미지의 특징을 학습하고, 이러한 특징을 기반으로 이미지를 분류하는 방식을 사용합니다.

 

 

📌 특정 태스크에 대해 사전에 학습된 모델(Pre-trained model)을 라벨링 작업에 투입시켜 자동화 과정을 수행하는 기술

[Technology Toolkit 2021] 2. 데이터 줄게, 레이블링 [해]다오 Auto Labeling | 인사이트리포트 | 삼성SDS

 

[Technology Toolkit 2021] 2. 데이터 줄게, 레이블링 [해]다오 Auto Labeling | 인사이트리포트 | 삼성SDS

AI 모델의 성능은 학습에 사용하는 데이터의 양이 많을수록 좋아지는 경향이 있기 때문에, 레이블이 있는 수많은 데이터가 필요합니다. 그런데 수십만, 수백만 개의 데이터를 수작업으로 레이블

www.samsungsds.com

오토라벨링 과정에서 자주 활용되는 기술이 바로 ‘Active Learning(능동적 학습)’ 입니다.

 

📌 레이블이 지정되지 않은 데이터 중에서 모델이 학습에 가장 많은 도움을 줄 것으로 예상되는 샘플을 선택하여 인간 전문가에게 레이블링을 요청하는 기술

📌 기계가 라벨링이 필요한 데이터 중 점진적으로 가장 정보량이 많은 데이터를 선택하는 것

머신러닝의 고민, 데이터 라벨링, 액티브 러닝으로 해결! [토크아이티 세미남189, 허대영 교수/국민대]

  • Auto Labeling(자동 레이블링) : AI 모델이 높은 확신(High Confidence)을 가지는 데이터를 자동으로 레이블링
  • Active Learning(능동적 학습) : AI 모델이 중요한 데이터를 선별(불확실성↑ or 분포고려)하여, 레이블링 요청

즉, Auto Labeling과 Active Learning은 상호보완적이면서, Active Learning이 선행되어 오토라벨링의 정확도를 개선하는 구조를 지닙니다. 이를 잘 설명하는 예시가 바로 Amazon의 ‘SegeMaker Ground Truth’ 입니다.

 

💡 프로세스 설명

  1. 일부 초기 데이터를 사람이 Annotation(레이블링)
  2. Active learning을 통하여, 불명확한 데이터와 명확한 데이터를 분리
  3. Model이 확신을 가지(High Confidence)는 데이터를 자동 레이블링
  4. 모호한 데이터는 사람에게 전송하여, 레이블링 요청
  5. 목표 학습 및 평가 데이터를 확보할 때까지, 위에 과정을 반복

이처럼 액티브러닝은 성능 향상에 효과적인 데이터를 선별하기 위한 전략을 연구하는 것이 핵심이라고 볼 수 있습니다.