
514
2
부
신경망과 딥러닝
데이터셋이 메모리에 모두 들어갈 수 있을 정도로 작다면
RAM
에 모두 캐싱할 수 있는
cache
()
메서드를 사용하여 훈련 속도를 크게 높일 수 있습니다. 일반적으로 데이터를 적재하
고 전처리한 후 셔플링, 반복, 배치, 프리페치하기 전에 캐싱을 수행합니다. 이렇게 하면 각 샘
플을 (매 에포크가 아니라 ) 한 번만 읽고 전처리하지만 에포크마다 다르게 셔플링되고 다음 배
치도 미리 준비될 것입니다.
이제 여러 텍스트 파일에서 데이터를 효율적으로 읽고 전처리하는 입력 파이프라인을 어떻
게 만드는지 알았습니다. 가장 많이 사용하는 데이터셋 메서드를 소개했습니다. 하지만 더 많
은 메서드가 있습니다.
concatenate
()
,
zip
()
,
window
()
,
reduce
()
,
shard
()
,
flat
_
map
()
,
padded
_
batch
()
를 살펴보세요.
from
_
generator
(),
from
_
tensors
()
와 같은 클래스 메서
드도 있습니다. 각각 파이썬 제너레이터나 텐서 리스트로 데이터셋을 만듭니다. 자세한 내용은
API
문서를 확인하세요.
tf
.
data
.
experimental
패키지에 실험적인 기능이 있습니다. 이 중
많은 기능이 향후 릴리스에 핵심
API
가 될 가능성이 많습니다 (예를 들어,
CsvDataset
클래스
와
CSV