book

The Self-Service Data Roadmap

by Sandeep Uttamchandani

September 2020

Beginner to intermediate

284 pages

7h 40m

English

O'Reilly Media, Inc.

Read now

Unlock full access

Conventions Used in This BookUsing Code ExamplesO’Reilly Online LearningHow to Contact Us
Journey Map from Raw Data to InsightsDiscoverPrepBuildOperationalizeDefining Your Time-to-Insight ScorecardBuild Your Self-Service Data Roadmap
Journey MapUnderstanding DatasetsAnalyzing DatasetsKnowledge ScalingMinimizing Time to InterpretExtracting Technical MetadataExtracting Operational MetadataGathering Team KnowledgeDefining RequirementsTechnical Metadata Extractor RequirementsOperational Metadata RequirementsTeam Knowledge Aggregator RequirementsImplementation PatternsSource-Specific Connectors PatternLineage Correlation PatternTeam Knowledge PatternSummary
Journey MapDetermining Feasibility of the Business ProblemSelecting Relevant Datasets for Data PrepReusing Existing Artifacts for PrototypingMinimizing Time to FindIndexing Datasets and ArtifactsRanking ResultsAccess ControlDefining RequirementsIndexer RequirementsRanking RequirementsAccess Control RequirementsNonfunctional RequirementsImplementation PatternsPush-Pull Indexer PatternHybrid Search Ranking PatternCatalog Access Control PatternSummary
Journey MapFinding Available FeaturesTraining Set GenerationFeature Pipeline for Online InferenceMinimize Time to FeaturizeFeature ComputationFeature ServingDefining RequirementsFeature ComputationFeature ServingNonfunctional RequirementsImplementation PatternsHybrid Feature Computation PatternFeature Registry PatternSummary
Journey MapAggregating Data Across SourcesMoving Raw Data to Specialized Query EnginesMoving Processed Data to Serving StoresExploratory Analysis Across SourcesMinimizing Time to Data AvailabilityData Ingestion Configuration and Change ManagementComplianceData Quality VerificationDefining RequirementsIngestion RequirementsTransformation RequirementsCompliance RequirementsVerification RequirementsNonfunctional RequirementsImplementation PatternsBatch Ingestion PatternChange Data Capture Ingestion PatternEvent Aggregation PatternSummary
Journey MapMinimizing Time to Click MetricsManaging InstrumentationEvent EnrichmentBuilding InsightsDefining RequirementsInstrumentation Requirements ChecklistEnrichment Requirements ChecklistImplementation PatternsInstrumentation PatternRule-Based Enrichment PatternsConsumption PatternsSummary
Journey MapPrimitive Life Cycle ManagementManaging Data UpdatesManaging Batching and Streaming Data FlowsMinimizing Time to Data Lake ManagementRequirementsImplementation PatternsData Life Cycle Primitives PatternTransactional PatternAdvanced Data Management PatternSummary

Journey MapMinimizing Time to WrangleDefining RequirementsCurating DataOperational MonitoringDefining RequirementsImplementation PatternsExploratory Data Analysis PatternsAnalytical Transformation PatternsSummary
Journey MapExecuting Data Rights RequestsDiscovery of DatasetsModel RetrainingMinimizing Time to ComplyTracking the Customer Data Life CycleExecuting Customer Data Rights RequestsLimiting Data AccessDefining RequirementsCurrent Pain Point QuestionnaireInterop ChecklistFunctional RequirementsNonfunctional RequirementsImplementation PatternsSensitive Data Discovery and Classification PatternData Lake Deletion PatternUse Case–Dependent Access ControlSummary
Journey MapExploring Data SourcesPicking a Processing ClusterMinimizing Time to QueryPicking the Execution EnvironmentFormulating Polyglot QueriesJoining Data Across SilosDefining RequirementsCurrent Pain Point AnalysisOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsAutomatic Query Routing PatternUnified Query PatternFederated Query PatternSummary
Journey MapProduction Dashboard and ML PipelinesData-Driven StorytellingMinimizing Time to TransformTransformation ImplementationTransformation ExecutionTransformation OperationsDefining RequirementsCurrent State QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsImplementation PatternExecution PatternsSummary
Journey MapModel PrototypingContinuous TrainingModel DebuggingMinimizing Time to TrainTraining OrchestrationTuningContinuous TrainingDefining RequirementsTraining OrchestrationTuningContinuous TrainingNonfunctional RequirementsImplementation PatternsDistributed Training Orchestrator PatternAutomated Tuning PatternData-Aware Continuous TrainingSummary
Journey MapCollaborating on an ML PipelineIntegrating ETL ChangesValidating Schema ChangesMinimizing Time to IntegrateExperiment TrackingReproducible DeploymentTesting ValidationDefining RequirementsExperiment Tracking ModulePipeline Packaging ModuleTesting Automation ModuleImplementation PatternsProgrammable Tracking PatternReproducible Project PatternSummary
Journey MapMinimizing Time to A/B TestExperiment DesignExecution at ScaleExperiment OptimizationImplementation PatternsExperiment Specification PatternMetrics Definition PatternAutomated Experiment OptimizationSummary
Journey MapAvoiding Cluster ClogsResolving Runtime Query IssuesSpeeding Up ApplicationsMinimizing Time to OptimizeAggregating StatisticsAnalyzing StatisticsOptimizing JobsDefining RequirementsCurrent Pain Points QuestionnaireInterop RequirementsFunctionality RequirementsNonfunctional RequirementsImplementation PatternsAvoidance PatternOperational Insights PatternAutomated Tuning PatternSummary
Journey MapInvoke Exploratory PipelinesRun SLA-Bound PipelinesMinimizing Time to OrchestrateDefining Job DependenciesDistributed ExecutionProduction MonitoringDefining RequirementsCurrent Pain Points QuestionnaireOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsDependency Authoring PatternsOrchestration Observability PatternsDistributed Execution PatternSummary
Journey MapModel Deployment in ProductionModel Maintenance and UpgradeMinimizing Time to DeployDeployment OrchestrationPerformance ScalingDrift MonitoringDefining RequirementsOrchestrationModel Scaling and PerformanceDrift VerificationNonfunctional RequirementsImplementation PatternsUniversal Deployment PatternAutoscaling Deployment PatternModel Drift Tracking PatternSummary
Journey MapDaily Data Quality Monitoring ReportsDebugging Quality IssuesHandling Low-Quality Data RecordsMinimizing Time to Insight QualityVerify the Accuracy of the DataDetect Quality AnomaliesPrevent Data Quality IssuesDefining RequirementsDetection and Handling Data Quality IssuesFunctional RequirementsNonfunctional RequirementsImplementation PatternsAccuracy Models PatternProfiling-Based Anomaly Detection PatternAvoidance PatternSummary
Journey MapMonitoring Cost UsageContinuous Cost OptimizationMinimizing Time to Optimize CostExpenditure ObservabilityMatching Supply and DemandContinuous Cost OptimizationDefining RequirementsPain Points QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsContinuous Cost Monitoring PatternAutomated Scaling PatternCost Advisor PatternSummary

Content preview from The Self-Service Data Roadmap

Chapter 13. Continuous Integration Service

So far, we have covered building the transformation logic to implement the insight and training of ML models. Typically, ML model pipelines evolve continuously with source schema changes, feature logic, dependent datasets, data processing configurations, model algorithms, model features, and configuration. These changes are made by teams of data users to either implement new product capabilities or improve the accuracy of the models. In traditional software engineering, code is constantly updated with multiple changes made daily across teams. To get ready for deploying ML models in production, this chapter covers details of continuous integration of ML pipelines, similar to traditional software engineering.

There are multiple pain points associated with continuous integration of ML pipelines. The first is holistically tracking ML pipeline experiments involving data, code, and configuration. These experiments can be considered feature branches with the distinction that a vast majority of these branches will never be integrated with the trunk. These experiments need to be tracked to pick the optimal configuration as well as for future debugging. Existing code-versioning tools like GitHub only track code changes. There is neither a standard place to store the results of training experiments nor an easy way to compare one experiment to another. Second, to verify the changes, the ML pipeline needs to be packaged for deploying in a test environment. ...