Data Quality

Data quality issues are the most common cause of ML model failures in production. The classic "garbage in, garbage out" principle applies directly: a model trained on inaccurate, incomplete, or inconsistent data will produce unreliable predictions regardless of how sophisticated the algorithm is.

Key data quality dimensions include accuracy (does the data reflect reality?), completeness (are values missing?), consistency (do related fields agree?), timeliness (is the data current?), uniqueness (are there duplicates?), and validity (do values fall within expected ranges?). Automated quality checks at each pipeline stage catch issues before they propagate downstream.

Tools like Great Expectations, dbt tests, Soda, and Monte Carlo provide data quality testing and monitoring. For AI teams, quality checks should cover training data (distribution validation, label accuracy), feature data (null rates, range validation, freshness), and model output data (format validation, distribution monitoring). Investing in data quality prevention is dramatically cheaper than debugging model failures caused by bad data.

Related Terms

Cosine Similarity

Dimensionality Reduction

Batch Inference

Real-Time Inference

Data Pipeline

ETL (Extract, Transform, Load)