book

The Self-Service Data Roadmap

by Sandeep Uttamchandani

September 2020

Beginner to intermediate

284 pages

7h 40m

English

O'Reilly Media, Inc.

Read now

Unlock full access

Conventions Used in This BookUsing Code ExamplesO’Reilly Online LearningHow to Contact Us
Journey Map from Raw Data to InsightsDiscoverPrepBuildOperationalizeDefining Your Time-to-Insight ScorecardBuild Your Self-Service Data Roadmap
Journey MapUnderstanding DatasetsAnalyzing DatasetsKnowledge ScalingMinimizing Time to InterpretExtracting Technical MetadataExtracting Operational MetadataGathering Team KnowledgeDefining RequirementsTechnical Metadata Extractor RequirementsOperational Metadata RequirementsTeam Knowledge Aggregator RequirementsImplementation PatternsSource-Specific Connectors PatternLineage Correlation PatternTeam Knowledge PatternSummary
Journey MapDetermining Feasibility of the Business ProblemSelecting Relevant Datasets for Data PrepReusing Existing Artifacts for PrototypingMinimizing Time to FindIndexing Datasets and ArtifactsRanking ResultsAccess ControlDefining RequirementsIndexer RequirementsRanking RequirementsAccess Control RequirementsNonfunctional RequirementsImplementation PatternsPush-Pull Indexer PatternHybrid Search Ranking PatternCatalog Access Control PatternSummary
Journey MapFinding Available FeaturesTraining Set GenerationFeature Pipeline for Online InferenceMinimize Time to FeaturizeFeature ComputationFeature ServingDefining RequirementsFeature ComputationFeature ServingNonfunctional RequirementsImplementation PatternsHybrid Feature Computation PatternFeature Registry PatternSummary
Journey MapAggregating Data Across SourcesMoving Raw Data to Specialized Query EnginesMoving Processed Data to Serving StoresExploratory Analysis Across SourcesMinimizing Time to Data AvailabilityData Ingestion Configuration and Change ManagementComplianceData Quality VerificationDefining RequirementsIngestion RequirementsTransformation RequirementsCompliance RequirementsVerification RequirementsNonfunctional RequirementsImplementation PatternsBatch Ingestion PatternChange Data Capture Ingestion PatternEvent Aggregation PatternSummary
Journey MapMinimizing Time to Click MetricsManaging InstrumentationEvent EnrichmentBuilding InsightsDefining RequirementsInstrumentation Requirements ChecklistEnrichment Requirements ChecklistImplementation PatternsInstrumentation PatternRule-Based Enrichment PatternsConsumption PatternsSummary
Journey MapPrimitive Life Cycle ManagementManaging Data UpdatesManaging Batching and Streaming Data FlowsMinimizing Time to Data Lake ManagementRequirementsImplementation PatternsData Life Cycle Primitives PatternTransactional PatternAdvanced Data Management PatternSummary

Journey MapMinimizing Time to WrangleDefining RequirementsCurating DataOperational MonitoringDefining RequirementsImplementation PatternsExploratory Data Analysis PatternsAnalytical Transformation PatternsSummary
Journey MapExecuting Data Rights RequestsDiscovery of DatasetsModel RetrainingMinimizing Time to ComplyTracking the Customer Data Life CycleExecuting Customer Data Rights RequestsLimiting Data AccessDefining RequirementsCurrent Pain Point QuestionnaireInterop ChecklistFunctional RequirementsNonfunctional RequirementsImplementation PatternsSensitive Data Discovery and Classification PatternData Lake Deletion PatternUse Case–Dependent Access ControlSummary
Journey MapExploring Data SourcesPicking a Processing ClusterMinimizing Time to QueryPicking the Execution EnvironmentFormulating Polyglot QueriesJoining Data Across SilosDefining RequirementsCurrent Pain Point AnalysisOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsAutomatic Query Routing PatternUnified Query PatternFederated Query PatternSummary
Journey MapProduction Dashboard and ML PipelinesData-Driven StorytellingMinimizing Time to TransformTransformation ImplementationTransformation ExecutionTransformation OperationsDefining RequirementsCurrent State QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsImplementation PatternExecution PatternsSummary
Journey MapModel PrototypingContinuous TrainingModel DebuggingMinimizing Time to TrainTraining OrchestrationTuningContinuous TrainingDefining RequirementsTraining OrchestrationTuningContinuous TrainingNonfunctional RequirementsImplementation PatternsDistributed Training Orchestrator PatternAutomated Tuning PatternData-Aware Continuous TrainingSummary
Journey MapCollaborating on an ML PipelineIntegrating ETL ChangesValidating Schema ChangesMinimizing Time to IntegrateExperiment TrackingReproducible DeploymentTesting ValidationDefining RequirementsExperiment Tracking ModulePipeline Packaging ModuleTesting Automation ModuleImplementation PatternsProgrammable Tracking PatternReproducible Project PatternSummary
Journey MapMinimizing Time to A/B TestExperiment DesignExecution at ScaleExperiment OptimizationImplementation PatternsExperiment Specification PatternMetrics Definition PatternAutomated Experiment OptimizationSummary
Journey MapAvoiding Cluster ClogsResolving Runtime Query IssuesSpeeding Up ApplicationsMinimizing Time to OptimizeAggregating StatisticsAnalyzing StatisticsOptimizing JobsDefining RequirementsCurrent Pain Points QuestionnaireInterop RequirementsFunctionality RequirementsNonfunctional RequirementsImplementation PatternsAvoidance PatternOperational Insights PatternAutomated Tuning PatternSummary
Journey MapInvoke Exploratory PipelinesRun SLA-Bound PipelinesMinimizing Time to OrchestrateDefining Job DependenciesDistributed ExecutionProduction MonitoringDefining RequirementsCurrent Pain Points QuestionnaireOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsDependency Authoring PatternsOrchestration Observability PatternsDistributed Execution PatternSummary
Journey MapModel Deployment in ProductionModel Maintenance and UpgradeMinimizing Time to DeployDeployment OrchestrationPerformance ScalingDrift MonitoringDefining RequirementsOrchestrationModel Scaling and PerformanceDrift VerificationNonfunctional RequirementsImplementation PatternsUniversal Deployment PatternAutoscaling Deployment PatternModel Drift Tracking PatternSummary
Journey MapDaily Data Quality Monitoring ReportsDebugging Quality IssuesHandling Low-Quality Data RecordsMinimizing Time to Insight QualityVerify the Accuracy of the DataDetect Quality AnomaliesPrevent Data Quality IssuesDefining RequirementsDetection and Handling Data Quality IssuesFunctional RequirementsNonfunctional RequirementsImplementation PatternsAccuracy Models PatternProfiling-Based Anomaly Detection PatternAvoidance PatternSummary
Journey MapMonitoring Cost UsageContinuous Cost OptimizationMinimizing Time to Optimize CostExpenditure ObservabilityMatching Supply and DemandContinuous Cost OptimizationDefining RequirementsPain Points QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsContinuous Cost Monitoring PatternAutomated Scaling PatternCost Advisor PatternSummary

Content preview from The Self-Service Data Roadmap

Chapter 14. A/B Testing Service

Now we are ready to operationalize our data and ML pipelines to generate insights in production. There are multiple ways to generate the insight, and data users have to make a choice about which one to deploy in production. Consider the example of an ML model that forecasts home prices for end customers. Assume there are two equally accurate models developed for this insight—which one is better? This chapter focuses on an increasingly growing practice where multiple models are deployed and presented to different sets of customers. Based on behavioral data of customer usage, the goal is to select a better model. A/B testing (also known as bucket testing, split testing, or controlled experiment) is becoming a standard approach for evaluating user satisfaction from a product change, a new feature, or any hypothesis related to product growth. A/B testing is becoming a norm, and is widely used to make data-driven decisions. It is critical to integrate A/B testing as a part of the data platform to ensure consistent metrics definitions are applied across ML models, business reporting, and experimentation. While A/B testing could fill a complex, full-fledged book by itself, this chapter covers the core patterns in the context of the data platform as a starting point for data users.

Online controlled A/B testing is utilized at a wide range of companies to make data-driven decisions. As noted by Kohavi and Thomke, A/B testing is used for anything from frontend ...