2장. 컴퓨터 비전 소개
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
1장에서는 머신러닝의 작동 원리에 대한 기본 사항을 소개했습니다. 신경망을 사용해 데이터를 레이블에 일치시키는 프로그래밍을 시작하는 방법을 살펴보고, 이를 통해 항목을 구별하는 데 사용할 수 있는 규칙을 추론하는 방법을 살펴봤습니다.
이 장에서는 이러한 개념을 컴퓨터 비전에 적용하는 다음 논리적 단계를 고려하겠습니다. 이 과정에서 모델은 사진 속 콘텐츠를 인식하는 방법을 학습하여 사진에 무엇이 있는지 '볼' 수 있습니다. 인기 있는 의류 품목의 데이터 세트로 작업하고 이를 구별하여 여러 유형의 의류의 차이를 '볼 수 있는' 모델을 구축합니다.
컴퓨터 비전 작동 방식
컴퓨터비전은 컴퓨터가 단순히 픽셀을 저장하는 것 이상으로 항목을 인식하는 능력입니다. 예를 들어 그림 2-1과 같이 보이는 옷을 생각해 보겠습니다. 옷은 매우 복잡하고 같은 품목의 다양한 종류가 있습니다. 두 신발을 보세요. 매우 다르지만 여전히 신발입니다!
그림 2-1. 의류 예시
여기에는 눈에 띄는 여러 가지 의류 품목이 있습니다. 여러분은 셔츠, 코트, 원피스의 차이점을 이해하고 각 품목이 무엇인지 기본적으로 알고 있지만, 옷을 본 적이 없는 사람에게 이 모든 것을 어떻게 설명할 수 있을까요? 신발은 어떨까요? 이 이미지에는 두 개의 신발이 있지만, 두 신발의 주요 차이점을 고려할 때 두 신발의 차이점을 어떻게 설명할 수 있을까요? 이것은 1장에서 이야기한 규칙 기반 프로그래밍이 무너질 수 있는 또 다른 영역입니다. 때로는 규칙으로 무언가를 설명하는 것이 불가능할 때도 있습니다.
물론 컴퓨터 비전도 이 문제에서 예외는 아닙니다. 하지만 다양한 예제를 보고 어떻게 사용되는지 경험을 쌓음으로써 이러한 모든 항목을 인식하는 방법을 배웠다고 생각해보세요. 컴퓨터도 같은 방식으로 학습할 수 있을까요? 대답은 '예'이지만 한계가 있습니다. 이 장의 나머지 부분에서는 잘 알려진 데이터 세트인 Fashion MNIST를 사용하여 컴퓨터가 의류 품목을 인식하도록 가르치는 방법의 예를 살펴보겠습니다.
패션 MNIST 데이터베이스
알고리즘 학습 및 벤치마킹을 위한 기초 데이터 세트 중 하나( )는 얀 르쿤, 코리나 코르테스, 크리스토퍼 버지스가 만든 미국 국립표준기술연구소(MNIST) 데이터베이스입니다. 이 데이터 세트는 0에서 9까지의 70,000개의 손으로 쓴 숫자로 이루어진 이미지로 구성되어 있으며, 이미지는 28×28 그레이스케일입니다.
패션 MNIST는 동일한 레코드 수, 동일한 이미지 크기, 동일한 클래스 수를 가진 MNIST를 드롭인 방식으로 대체하도록 설계되었습니다. 숫자 0부터 9까지의 이미지가 아닌 10가지 유형의 의류 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access