book

The Self-Service Data Roadmap

Name: The Self-Service Data Roadmap
Author: Sandeep Uttamchandani
ISBN: 9781492075257

by Sandeep Uttamchandani

September 2020

Beginner to intermediate

284 pages

7h 40m

English

O'Reilly Media, Inc.

Read now

Unlock full access

Preface
Conventions Used in This BookUsing Code ExamplesO’Reilly Online LearningHow to Contact Us
1. Introduction
Journey Map from Raw Data to InsightsDiscoverPrepBuildOperationalizeDefining Your Time-to-Insight ScorecardBuild Your Self-Service Data Roadmap
I. Self-Service Data Discovery
2. Metadata Catalog Service
Journey MapUnderstanding DatasetsAnalyzing DatasetsKnowledge ScalingMinimizing Time to InterpretExtracting Technical MetadataExtracting Operational MetadataGathering Team KnowledgeDefining RequirementsTechnical Metadata Extractor RequirementsOperational Metadata RequirementsTeam Knowledge Aggregator RequirementsImplementation PatternsSource-Specific Connectors PatternLineage Correlation PatternTeam Knowledge PatternSummary
3. Search Service
Journey MapDetermining Feasibility of the Business ProblemSelecting Relevant Datasets for Data PrepReusing Existing Artifacts for PrototypingMinimizing Time to FindIndexing Datasets and ArtifactsRanking ResultsAccess ControlDefining RequirementsIndexer RequirementsRanking RequirementsAccess Control RequirementsNonfunctional RequirementsImplementation PatternsPush-Pull Indexer PatternHybrid Search Ranking PatternCatalog Access Control PatternSummary
4. Feature Store Service
Journey MapFinding Available FeaturesTraining Set GenerationFeature Pipeline for Online InferenceMinimize Time to FeaturizeFeature ComputationFeature ServingDefining RequirementsFeature ComputationFeature ServingNonfunctional RequirementsImplementation PatternsHybrid Feature Computation PatternFeature Registry PatternSummary
5. Data Movement Service
Journey MapAggregating Data Across SourcesMoving Raw Data to Specialized Query EnginesMoving Processed Data to Serving StoresExploratory Analysis Across SourcesMinimizing Time to Data AvailabilityData Ingestion Configuration and Change ManagementComplianceData Quality VerificationDefining RequirementsIngestion RequirementsTransformation RequirementsCompliance RequirementsVerification RequirementsNonfunctional RequirementsImplementation PatternsBatch Ingestion PatternChange Data Capture Ingestion PatternEvent Aggregation PatternSummary
6. Clickstream Tracking Service
Journey MapMinimizing Time to Click MetricsManaging InstrumentationEvent EnrichmentBuilding InsightsDefining RequirementsInstrumentation Requirements ChecklistEnrichment Requirements ChecklistImplementation PatternsInstrumentation PatternRule-Based Enrichment PatternsConsumption PatternsSummary
II. Self-Service Data Prep
7. Data Lake Management Service
Journey MapPrimitive Life Cycle ManagementManaging Data UpdatesManaging Batching and Streaming Data FlowsMinimizing Time to Data Lake ManagementRequirementsImplementation PatternsData Life Cycle Primitives PatternTransactional PatternAdvanced Data Management PatternSummary

8. Data Wrangling Service
Journey MapMinimizing Time to WrangleDefining RequirementsCurating DataOperational MonitoringDefining RequirementsImplementation PatternsExploratory Data Analysis PatternsAnalytical Transformation PatternsSummary
9. Data Rights Governance Service
Journey MapExecuting Data Rights RequestsDiscovery of DatasetsModel RetrainingMinimizing Time to ComplyTracking the Customer Data Life CycleExecuting Customer Data Rights RequestsLimiting Data AccessDefining RequirementsCurrent Pain Point QuestionnaireInterop ChecklistFunctional RequirementsNonfunctional RequirementsImplementation PatternsSensitive Data Discovery and Classification PatternData Lake Deletion PatternUse Case–Dependent Access ControlSummary
III. Self-Service Build
10. Data Virtualization Service
Journey MapExploring Data SourcesPicking a Processing ClusterMinimizing Time to QueryPicking the Execution EnvironmentFormulating Polyglot QueriesJoining Data Across SilosDefining RequirementsCurrent Pain Point AnalysisOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsAutomatic Query Routing PatternUnified Query PatternFederated Query PatternSummary
11. Data Transformation Service
Journey MapProduction Dashboard and ML PipelinesData-Driven StorytellingMinimizing Time to TransformTransformation ImplementationTransformation ExecutionTransformation OperationsDefining RequirementsCurrent State QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsImplementation PatternExecution PatternsSummary
12. Model Training Service
Journey MapModel PrototypingContinuous TrainingModel DebuggingMinimizing Time to TrainTraining OrchestrationTuningContinuous TrainingDefining RequirementsTraining OrchestrationTuningContinuous TrainingNonfunctional RequirementsImplementation PatternsDistributed Training Orchestrator PatternAutomated Tuning PatternData-Aware Continuous TrainingSummary
13. Continuous Integration Service
Journey MapCollaborating on an ML PipelineIntegrating ETL ChangesValidating Schema ChangesMinimizing Time to IntegrateExperiment TrackingReproducible DeploymentTesting ValidationDefining RequirementsExperiment Tracking ModulePipeline Packaging ModuleTesting Automation ModuleImplementation PatternsProgrammable Tracking PatternReproducible Project PatternSummary
14. A/B Testing Service
Journey MapMinimizing Time to A/B TestExperiment DesignExecution at ScaleExperiment OptimizationImplementation PatternsExperiment Specification PatternMetrics Definition PatternAutomated Experiment OptimizationSummary
IV. Self-Service Operationalize
15. Query Optimization Service
Journey MapAvoiding Cluster ClogsResolving Runtime Query IssuesSpeeding Up ApplicationsMinimizing Time to OptimizeAggregating StatisticsAnalyzing StatisticsOptimizing JobsDefining RequirementsCurrent Pain Points QuestionnaireInterop RequirementsFunctionality RequirementsNonfunctional RequirementsImplementation PatternsAvoidance PatternOperational Insights PatternAutomated Tuning PatternSummary
16. Pipeline Orchestration Service
Journey MapInvoke Exploratory PipelinesRun SLA-Bound PipelinesMinimizing Time to OrchestrateDefining Job DependenciesDistributed ExecutionProduction MonitoringDefining RequirementsCurrent Pain Points QuestionnaireOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsDependency Authoring PatternsOrchestration Observability PatternsDistributed Execution PatternSummary
17. Model Deploy Service
Journey MapModel Deployment in ProductionModel Maintenance and UpgradeMinimizing Time to DeployDeployment OrchestrationPerformance ScalingDrift MonitoringDefining RequirementsOrchestrationModel Scaling and PerformanceDrift VerificationNonfunctional RequirementsImplementation PatternsUniversal Deployment PatternAutoscaling Deployment PatternModel Drift Tracking PatternSummary
18. Quality Observability Service
Journey MapDaily Data Quality Monitoring ReportsDebugging Quality IssuesHandling Low-Quality Data RecordsMinimizing Time to Insight QualityVerify the Accuracy of the DataDetect Quality AnomaliesPrevent Data Quality IssuesDefining RequirementsDetection and Handling Data Quality IssuesFunctional RequirementsNonfunctional RequirementsImplementation PatternsAccuracy Models PatternProfiling-Based Anomaly Detection PatternAvoidance PatternSummary
19. Cost Management Service
Journey MapMonitoring Cost UsageContinuous Cost OptimizationMinimizing Time to Optimize CostExpenditure ObservabilityMatching Supply and DemandContinuous Cost OptimizationDefining RequirementsPain Points QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsContinuous Cost Monitoring PatternAutomated Scaling PatternCost Advisor PatternSummary
Index
About the Author

Content preview from The Self-Service Data Roadmap

Chapter 2. Metadata Catalog Service

Assume a data user is looking to develop a revenue dashboard. By talking to peer data analysts and scientists, the user comes across a dataset with details related to customer billing records. Within that dataset, they come across an attribute called “billing rate.” What is the meaning of the attribute? Is it the source of truth, or derived from another dataset? Various other questions come up, such as, what is the schema of data? Who manages it? How was it transformed? How reliable is the data quality? When was it refreshed? and so on. There is no dearth of data within the enterprise, but consuming the data to solve business problems is a major challenge today. This is because building insights in the form of dashboards and ML models requires a clear understanding of the data properties (referred to as metadata). In the absence of comprehensive metadata, one can make inaccurate assumptions about the meaning of data and about its quality, leading to incorrect insights.

Getting reliable metadata is a pain point for data users. Prior to the big data era, data was curated before being added to the central warehouse—the metadata details, including schema, lineage, owners, business taxonomy, and so on, were cataloged first. This is known as schema-on-write (illustrated in Figure 2-1). Today, the approach with data lakes is to first aggregate the data and then infer the data details at the time of consumption. This is known as schema-on-read (illustrated ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781492075240Errata Page

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

The Self-Service Data Roadmap

by Sandeep Uttamchandani

Chapter 2. Metadata Catalog Service

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.