Early Access: The content on this website is provided for informational purposes only in connection with pre-General Availability Qlik Products.
All content is subject to change and is provided without warranty.
기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

범주 인코딩

대부분의 기계 학습 알고리즘에서는 변수가 숫자여야 합니다. 범주형 값은 동일한 열의 다른 값과 명확하게 측정 가능한 관계가 없기 때문에 먼저 수학으로 측정할 수 있도록 숫자 표현으로 변환해야 합니다. AutoML은 범주형 인코딩을 사용하여 기능 열의 범주형 값을 기계 학습 알고리즘이 이해할 수 있는 숫자 값으로 변환합니다.

AutoML은 impact encoding과 one-hot encoding이라는 두 가지 인코딩 방법을 사용합니다. 특정 기능에 사용되는 방법은 데이터 집합 크기와 고유 범주 값의 수에 따라 다릅니다.

  • 열이 100개 이하인 데이터 집합의 경우:

    • 고유 값이 13개 이하인 범주 기능은 one-hot encoded됩니다.

    • 고유한 값이 13개 이상인 범주 기능은 impact encoded됩니다.

  • 열이 100개 이상인 데이터 집합의 경우 모든 범주 열이 impact encoded됩니다.

ML 실험을 구성할 때 스키마 보기를 참조하여 범주형 인코딩을 사용하여 데이터 집합의 어떤 기능이 처리되고 있는지 확인할 수 있습니다. 자세한 내용은 실험 구성을 참조하십시오.

범주형 인코딩 작동 방법

범주에 수학적 표현을 제공하는 일반적인 기술은 one-hot encoding입니다. one-hot encoding은 범주형 열을 n개의 열로 피벗합니다. 여기서 n은 열의 고유한 값 수와 같습니다. 숫자 1이 각 행의 적절한 열에 할당되고 범주에 대해 생성된 다른 열에는 0이 할당됩니다. 범주형 인코딩을 사용하면 열의 다른 값에 대해 상대적인 측면에서 평가되는 숫자 값과 달리 각각의 고유한 변수를 다른 변수와 독립적으로 평가할 수 있습니다.

테이블의 예에서는 범주형 열 MarketingSource가 어떻게 one-hot encoded되었는지 보여 줍니다. 그 결과 각 고유한 마케팅 소스에 대해 하나씩 총 4개의 새로운 열이 생성됩니다. 첫 번째 행에는 Person_1의 마케팅 소스가 "Facebook"입니다. 이는 새 Facebook 열에서 1로 표시되고 다른 열에서는 0으로 표시됩니다.

열 MarketingSource의 범주형 인코딩

샘플 데이터가 있는 테이블.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!