book

The Self-Service Data Roadmap

Name: The Self-Service Data Roadmap
Author: Sandeep Uttamchandani
ISBN: 9781492075257

by Sandeep Uttamchandani

September 2020

Beginner to intermediate

284 pages

7h 40m

English

O'Reilly Media, Inc.

Read now

Unlock full access

Preface
Conventions Used in This BookUsing Code ExamplesO’Reilly Online LearningHow to Contact Us
1. Introduction
Journey Map from Raw Data to InsightsDiscoverPrepBuildOperationalizeDefining Your Time-to-Insight ScorecardBuild Your Self-Service Data Roadmap
I. Self-Service Data Discovery
2. Metadata Catalog Service
Journey MapUnderstanding DatasetsAnalyzing DatasetsKnowledge ScalingMinimizing Time to InterpretExtracting Technical MetadataExtracting Operational MetadataGathering Team KnowledgeDefining RequirementsTechnical Metadata Extractor RequirementsOperational Metadata RequirementsTeam Knowledge Aggregator RequirementsImplementation PatternsSource-Specific Connectors PatternLineage Correlation PatternTeam Knowledge PatternSummary
3. Search Service
Journey MapDetermining Feasibility of the Business ProblemSelecting Relevant Datasets for Data PrepReusing Existing Artifacts for PrototypingMinimizing Time to FindIndexing Datasets and ArtifactsRanking ResultsAccess ControlDefining RequirementsIndexer RequirementsRanking RequirementsAccess Control RequirementsNonfunctional RequirementsImplementation PatternsPush-Pull Indexer PatternHybrid Search Ranking PatternCatalog Access Control PatternSummary
4. Feature Store Service
Journey MapFinding Available FeaturesTraining Set GenerationFeature Pipeline for Online InferenceMinimize Time to FeaturizeFeature ComputationFeature ServingDefining RequirementsFeature ComputationFeature ServingNonfunctional RequirementsImplementation PatternsHybrid Feature Computation PatternFeature Registry PatternSummary
5. Data Movement Service
Journey MapAggregating Data Across SourcesMoving Raw Data to Specialized Query EnginesMoving Processed Data to Serving StoresExploratory Analysis Across SourcesMinimizing Time to Data AvailabilityData Ingestion Configuration and Change ManagementComplianceData Quality VerificationDefining RequirementsIngestion RequirementsTransformation RequirementsCompliance RequirementsVerification RequirementsNonfunctional RequirementsImplementation PatternsBatch Ingestion PatternChange Data Capture Ingestion PatternEvent Aggregation PatternSummary
6. Clickstream Tracking Service
Journey MapMinimizing Time to Click MetricsManaging InstrumentationEvent EnrichmentBuilding InsightsDefining RequirementsInstrumentation Requirements ChecklistEnrichment Requirements ChecklistImplementation PatternsInstrumentation PatternRule-Based Enrichment PatternsConsumption PatternsSummary
II. Self-Service Data Prep
7. Data Lake Management Service
Journey MapPrimitive Life Cycle ManagementManaging Data UpdatesManaging Batching and Streaming Data FlowsMinimizing Time to Data Lake ManagementRequirementsImplementation PatternsData Life Cycle Primitives PatternTransactional PatternAdvanced Data Management PatternSummary

8. Data Wrangling Service
Journey MapMinimizing Time to WrangleDefining RequirementsCurating DataOperational MonitoringDefining RequirementsImplementation PatternsExploratory Data Analysis PatternsAnalytical Transformation PatternsSummary
9. Data Rights Governance Service
Journey MapExecuting Data Rights RequestsDiscovery of DatasetsModel RetrainingMinimizing Time to ComplyTracking the Customer Data Life CycleExecuting Customer Data Rights RequestsLimiting Data AccessDefining RequirementsCurrent Pain Point QuestionnaireInterop ChecklistFunctional RequirementsNonfunctional RequirementsImplementation PatternsSensitive Data Discovery and Classification PatternData Lake Deletion PatternUse Case–Dependent Access ControlSummary
III. Self-Service Build
10. Data Virtualization Service
Journey MapExploring Data SourcesPicking a Processing ClusterMinimizing Time to QueryPicking the Execution EnvironmentFormulating Polyglot QueriesJoining Data Across SilosDefining RequirementsCurrent Pain Point AnalysisOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsAutomatic Query Routing PatternUnified Query PatternFederated Query PatternSummary
11. Data Transformation Service
Journey MapProduction Dashboard and ML PipelinesData-Driven StorytellingMinimizing Time to TransformTransformation ImplementationTransformation ExecutionTransformation OperationsDefining RequirementsCurrent State QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsImplementation PatternExecution PatternsSummary
12. Model Training Service
Journey MapModel PrototypingContinuous TrainingModel DebuggingMinimizing Time to TrainTraining OrchestrationTuningContinuous TrainingDefining RequirementsTraining OrchestrationTuningContinuous TrainingNonfunctional RequirementsImplementation PatternsDistributed Training Orchestrator PatternAutomated Tuning PatternData-Aware Continuous TrainingSummary
13. Continuous Integration Service
Journey MapCollaborating on an ML PipelineIntegrating ETL ChangesValidating Schema ChangesMinimizing Time to IntegrateExperiment TrackingReproducible DeploymentTesting ValidationDefining RequirementsExperiment Tracking ModulePipeline Packaging ModuleTesting Automation ModuleImplementation PatternsProgrammable Tracking PatternReproducible Project PatternSummary
14. A/B Testing Service
Journey MapMinimizing Time to A/B TestExperiment DesignExecution at ScaleExperiment OptimizationImplementation PatternsExperiment Specification PatternMetrics Definition PatternAutomated Experiment OptimizationSummary
IV. Self-Service Operationalize
15. Query Optimization Service
Journey MapAvoiding Cluster ClogsResolving Runtime Query IssuesSpeeding Up ApplicationsMinimizing Time to OptimizeAggregating StatisticsAnalyzing StatisticsOptimizing JobsDefining RequirementsCurrent Pain Points QuestionnaireInterop RequirementsFunctionality RequirementsNonfunctional RequirementsImplementation PatternsAvoidance PatternOperational Insights PatternAutomated Tuning PatternSummary
16. Pipeline Orchestration Service
Journey MapInvoke Exploratory PipelinesRun SLA-Bound PipelinesMinimizing Time to OrchestrateDefining Job DependenciesDistributed ExecutionProduction MonitoringDefining RequirementsCurrent Pain Points QuestionnaireOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsDependency Authoring PatternsOrchestration Observability PatternsDistributed Execution PatternSummary
17. Model Deploy Service
Journey MapModel Deployment in ProductionModel Maintenance and UpgradeMinimizing Time to DeployDeployment OrchestrationPerformance ScalingDrift MonitoringDefining RequirementsOrchestrationModel Scaling and PerformanceDrift VerificationNonfunctional RequirementsImplementation PatternsUniversal Deployment PatternAutoscaling Deployment PatternModel Drift Tracking PatternSummary
18. Quality Observability Service
Journey MapDaily Data Quality Monitoring ReportsDebugging Quality IssuesHandling Low-Quality Data RecordsMinimizing Time to Insight QualityVerify the Accuracy of the DataDetect Quality AnomaliesPrevent Data Quality IssuesDefining RequirementsDetection and Handling Data Quality IssuesFunctional RequirementsNonfunctional RequirementsImplementation PatternsAccuracy Models PatternProfiling-Based Anomaly Detection PatternAvoidance PatternSummary
19. Cost Management Service
Journey MapMonitoring Cost UsageContinuous Cost OptimizationMinimizing Time to Optimize CostExpenditure ObservabilityMatching Supply and DemandContinuous Cost OptimizationDefining RequirementsPain Points QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsContinuous Cost Monitoring PatternAutomated Scaling PatternCost Advisor PatternSummary
Index
About the Author

Overview

Data-driven insights are a key competitive advantage for any industry today, but deriving insights from raw data can still take days or weeks. Most organizations can’t scale data science teams fast enough to keep up with the growing amounts of data to transform. What’s the answer? Self-service data.

With this practical book, data engineers, data scientists, and team managers will learn how to build a self-service data science platform that helps anyone in your organization extract insights from data. Sandeep Uttamchandani provides a scorecard to track and address bottlenecks that slow down time to insight across data discovery, transformation, processing, and production. This book bridges the gap between data scientists bottlenecked by engineering realities and data engineers unclear about ways to make self-service work.

Build a self-service portal to support data discovery, quality, lineage, and governance
Select the best approach for each self-service capability using open source cloud technologies
Tailor self-service for the people, processes, and technology maturity of your data platform
Implement capabilities to democratize data and reduce time to insight
Scale your self-service portal to support a large number of users within your organization

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781492075240Errata Page

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills