book

The Self-Service Data Roadmap

Name: The Self-Service Data Roadmap
Author: Sandeep Uttamchandani
ISBN: 9781492075257

by Sandeep Uttamchandani

September 2020

Beginner to intermediate

284 pages

7h 40m

English

O'Reilly Media, Inc.

Read now

Unlock full access

Preface
Conventions Used in This BookUsing Code ExamplesO’Reilly Online LearningHow to Contact Us
1. Introduction
Journey Map from Raw Data to InsightsDiscoverPrepBuildOperationalizeDefining Your Time-to-Insight ScorecardBuild Your Self-Service Data Roadmap
I. Self-Service Data Discovery
2. Metadata Catalog Service
Journey MapUnderstanding DatasetsAnalyzing DatasetsKnowledge ScalingMinimizing Time to InterpretExtracting Technical MetadataExtracting Operational MetadataGathering Team KnowledgeDefining RequirementsTechnical Metadata Extractor RequirementsOperational Metadata RequirementsTeam Knowledge Aggregator RequirementsImplementation PatternsSource-Specific Connectors PatternLineage Correlation PatternTeam Knowledge PatternSummary
3. Search Service
Journey MapDetermining Feasibility of the Business ProblemSelecting Relevant Datasets for Data PrepReusing Existing Artifacts for PrototypingMinimizing Time to FindIndexing Datasets and ArtifactsRanking ResultsAccess ControlDefining RequirementsIndexer RequirementsRanking RequirementsAccess Control RequirementsNonfunctional RequirementsImplementation PatternsPush-Pull Indexer PatternHybrid Search Ranking PatternCatalog Access Control PatternSummary
4. Feature Store Service
Journey MapFinding Available FeaturesTraining Set GenerationFeature Pipeline for Online InferenceMinimize Time to FeaturizeFeature ComputationFeature ServingDefining RequirementsFeature ComputationFeature ServingNonfunctional RequirementsImplementation PatternsHybrid Feature Computation PatternFeature Registry PatternSummary
5. Data Movement Service
Journey MapAggregating Data Across SourcesMoving Raw Data to Specialized Query EnginesMoving Processed Data to Serving StoresExploratory Analysis Across SourcesMinimizing Time to Data AvailabilityData Ingestion Configuration and Change ManagementComplianceData Quality VerificationDefining RequirementsIngestion RequirementsTransformation RequirementsCompliance RequirementsVerification RequirementsNonfunctional RequirementsImplementation PatternsBatch Ingestion PatternChange Data Capture Ingestion PatternEvent Aggregation PatternSummary
6. Clickstream Tracking Service
Journey MapMinimizing Time to Click MetricsManaging InstrumentationEvent EnrichmentBuilding InsightsDefining RequirementsInstrumentation Requirements ChecklistEnrichment Requirements ChecklistImplementation PatternsInstrumentation PatternRule-Based Enrichment PatternsConsumption PatternsSummary
II. Self-Service Data Prep
7. Data Lake Management Service
Journey MapPrimitive Life Cycle ManagementManaging Data UpdatesManaging Batching and Streaming Data FlowsMinimizing Time to Data Lake ManagementRequirementsImplementation PatternsData Life Cycle Primitives PatternTransactional PatternAdvanced Data Management PatternSummary

8. Data Wrangling Service
Journey MapMinimizing Time to WrangleDefining RequirementsCurating DataOperational MonitoringDefining RequirementsImplementation PatternsExploratory Data Analysis PatternsAnalytical Transformation PatternsSummary
9. Data Rights Governance Service
Journey MapExecuting Data Rights RequestsDiscovery of DatasetsModel RetrainingMinimizing Time to ComplyTracking the Customer Data Life CycleExecuting Customer Data Rights RequestsLimiting Data AccessDefining RequirementsCurrent Pain Point QuestionnaireInterop ChecklistFunctional RequirementsNonfunctional RequirementsImplementation PatternsSensitive Data Discovery and Classification PatternData Lake Deletion PatternUse Case–Dependent Access ControlSummary
III. Self-Service Build
10. Data Virtualization Service
Journey MapExploring Data SourcesPicking a Processing ClusterMinimizing Time to QueryPicking the Execution EnvironmentFormulating Polyglot QueriesJoining Data Across SilosDefining RequirementsCurrent Pain Point AnalysisOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsAutomatic Query Routing PatternUnified Query PatternFederated Query PatternSummary
11. Data Transformation Service
Journey MapProduction Dashboard and ML PipelinesData-Driven StorytellingMinimizing Time to TransformTransformation ImplementationTransformation ExecutionTransformation OperationsDefining RequirementsCurrent State QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsImplementation PatternExecution PatternsSummary
12. Model Training Service
Journey MapModel PrototypingContinuous TrainingModel DebuggingMinimizing Time to TrainTraining OrchestrationTuningContinuous TrainingDefining RequirementsTraining OrchestrationTuningContinuous TrainingNonfunctional RequirementsImplementation PatternsDistributed Training Orchestrator PatternAutomated Tuning PatternData-Aware Continuous TrainingSummary
13. Continuous Integration Service
Journey MapCollaborating on an ML PipelineIntegrating ETL ChangesValidating Schema ChangesMinimizing Time to IntegrateExperiment TrackingReproducible DeploymentTesting ValidationDefining RequirementsExperiment Tracking ModulePipeline Packaging ModuleTesting Automation ModuleImplementation PatternsProgrammable Tracking PatternReproducible Project PatternSummary
14. A/B Testing Service
Journey MapMinimizing Time to A/B TestExperiment DesignExecution at ScaleExperiment OptimizationImplementation PatternsExperiment Specification PatternMetrics Definition PatternAutomated Experiment OptimizationSummary
IV. Self-Service Operationalize
15. Query Optimization Service
Journey MapAvoiding Cluster ClogsResolving Runtime Query IssuesSpeeding Up ApplicationsMinimizing Time to OptimizeAggregating StatisticsAnalyzing StatisticsOptimizing JobsDefining RequirementsCurrent Pain Points QuestionnaireInterop RequirementsFunctionality RequirementsNonfunctional RequirementsImplementation PatternsAvoidance PatternOperational Insights PatternAutomated Tuning PatternSummary
16. Pipeline Orchestration Service
Journey MapInvoke Exploratory PipelinesRun SLA-Bound PipelinesMinimizing Time to OrchestrateDefining Job DependenciesDistributed ExecutionProduction MonitoringDefining RequirementsCurrent Pain Points QuestionnaireOperational RequirementsFunctional RequirementsNonfunctional RequirementsImplementation PatternsDependency Authoring PatternsOrchestration Observability PatternsDistributed Execution PatternSummary
17. Model Deploy Service
Journey MapModel Deployment in ProductionModel Maintenance and UpgradeMinimizing Time to DeployDeployment OrchestrationPerformance ScalingDrift MonitoringDefining RequirementsOrchestrationModel Scaling and PerformanceDrift VerificationNonfunctional RequirementsImplementation PatternsUniversal Deployment PatternAutoscaling Deployment PatternModel Drift Tracking PatternSummary
18. Quality Observability Service
Journey MapDaily Data Quality Monitoring ReportsDebugging Quality IssuesHandling Low-Quality Data RecordsMinimizing Time to Insight QualityVerify the Accuracy of the DataDetect Quality AnomaliesPrevent Data Quality IssuesDefining RequirementsDetection and Handling Data Quality IssuesFunctional RequirementsNonfunctional RequirementsImplementation PatternsAccuracy Models PatternProfiling-Based Anomaly Detection PatternAvoidance PatternSummary
19. Cost Management Service
Journey MapMonitoring Cost UsageContinuous Cost OptimizationMinimizing Time to Optimize CostExpenditure ObservabilityMatching Supply and DemandContinuous Cost OptimizationDefining RequirementsPain Points QuestionnaireFunctional RequirementsNonfunctional RequirementsImplementation PatternsContinuous Cost Monitoring PatternAutomated Scaling PatternCost Advisor PatternSummary
Index
About the Author

Content preview from The Self-Service Data Roadmap

Chapter 8. Data Wrangling Service

With the data now aggregated within the lake, we are now ready to focus on wrangling the data, which typically includes structuring, cleaning, enriching, and validating the data. Wrangling is an iterative process to curate errors, outliers, missing values, imputing values, data imbalance, and data encoding. Each step during the process exposes new potential ways that the data might be “re-wrangled,” with the goal of generating the most robust data values for generating the insights. Also, wrangling provides insights into the nature of data, allowing us to ask better questions for generating insights.

Data scientists spend a significant amount of time and manual effort on wrangling (as shown in Figure 8-1). In addition to being time-consuming, wrangling is incomplete, unreliable, and error prone, and comes with several pain points. First, data users touch on a large number of datasets during exploratory analysis, so it is critical to discover the properties of the data and detect wrangling transformations required for preparation quickly. Currently, evaluating dataset properties and determining the wrangling to be applied is ad hoc and manual. Second, applying wrangling transformations requires writing idiosyncratic scripts in programming languages like Python, Perl, and R, or engaging in tedious manual editing using tools like Microsoft Excel. Given the growing volume, velocity, and variety of the data, the data users require low-level coding ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781492075240Errata Page

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

The Self-Service Data Roadmap

by Sandeep Uttamchandani

Chapter 8. Data Wrangling Service

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.