import pandas as pd

raw_data = pd.DataFrame({
    "continuous": ["-1.1", "4.0", "10.25", "-0.1", "5.2"],
    "categorical": ["A", "B", "C", "Z", "X"],
})

def clean(raw_data):
    return (
        raw_data
        # do some cleaning 🧹✨
    )


def test_clean():
    mock_raw_data = ...  # hand-written mock data 😅
    result = clean(mock_raw_data)

    # assumptions about clean data
    assert result["continuous"].ge(0).all()
    assert result["categorical"].isin(["A", "B", "C"]).all()


import pandera as pa

schema = pa.DataFrameSchema(
    columns={
        "continuous": pa.Column(float, pa.Check.ge(0)),
        "categorical": pa.Column(str, pa.Check.isin(["A", "B", "C"])),
    },
    coerce=True,
)


from pandera.typing import Series

class Schema(pa.SchemaModel):
    continuous: Series[float] = pa.Field(ge=0)
    categorical: Series[str] = pa.Field(isin=["A", "B", "C"])

    class Config:
        coerce = True


raw_data = pd.DataFrame({
    "continuous": ["-1.1", "4.0", "10.25", "-0.1", "5.2"],
    "categorical": ["A", "B", "C", "Z", "X"],
})

try:
    Schema.validate(raw_data, lazy=True)
except pa.errors.SchemaErrors as exc:
    display(exc.failure_cases)


raw_data = pd.DataFrame({
    "continuous": list("123456"),
    "categorical": list("AABBCC"),
})


class Schema(pa.SchemaModel):
    continuous: Series[float] = pa.Field(ge=0)
    categorical: Series[str] = pa.Field(isin=["A", "B", "C"])

    class Config:
        coerce = True


from pandera.typing import DataFrame

@pa.check_types
def summarize_data(clean_data: DataFrame[Schema]):
    return clean_data.groupby("categorical")["continuous"].mean()

display(summarize_data(raw_data).rename("mean_continuous").to_frame())


# data_cleaning.py
from pandera.typing import DataFrame

@pa.check_types
def clean_data(raw_data) -> DataFrame[Schema]:
    return (
        raw_data
        # do some cleaning
    )


# test_data_cleaning.py
def test_clean_data():
    raw_data = ...
    clean_data(raw_data)


class InputSchema(pa.SchemaModel):
    _categories = ["A", "B", "C"]  # store arbitrary metadata in private class attributes
    continuous: Series[float] = pa.Field(ge=0)
    categorical: Series[str] = pa.Field(isin=_categories)

    class Config:
        coerce = True


class OutputSchema(InputSchema):
    categorical_one_hot: Series[int] = pa.Field(alias="one_hot_", regex=True)

    @pa.check("one_hot_")
    def categorical_one_hot_check(cls, series):
        return series.name[-1] in cls._categories


@pa.check_types
def featurize_data(clean_data: DataFrame[InputSchema]) -> DataFrame[OutputSchema]:
    one_hot = pd.get_dummies(clean_data["categorical"], prefix="one_hot")
    return pd.concat([clean_data, one_hot], axis="columns")

display(featurize_data(raw_data).head(3))


display(InputSchema.example(size=3))


input_schema_strategy = InputSchema.strategy(size=5)
print(input_schema_strategy)
print(type(input_schema_strategy))

_dataframe_strategy()
<class 'hypothesis.strategies._internal.lazy.LazyStrategy'>


from hypothesis import given

@given(input_schema_strategy)
def test_featurize_data(clean_data):
    featurize_data(clean_data)

test_featurize_data()


realistic_data = pd.DataFrame({"continuous": [1, 2, 3, 4, 5, 6]})
bootstrapped_schema = pa.infer_schema(realistic_data)
print(bootstrapped_schema)

<Schema DataFrameSchema(
    columns={
        'continuous': <Schema Column(name=continuous, type=int64)>
    },
    checks=[],
    coerce=True,
    pandas_dtype=None,
    index=<Schema Index(name=None, type=int64)>,
    strict=False
    name=None,
    ordered=False
)>

from pandera import (
    DataFrameSchema,
    Column,
    Check,
    Index,
    MultiIndex,
    PandasDtype,
)

schema = DataFrameSchema(
    columns={
        "continuous": Column(
            pandas_dtype=PandasDtype.Int64,
            checks=[
                Check.greater_than_or_equal_to(min_value=1.0),
                Check.less_than_or_equal_to(max_value=6.0),
            ],
            nullable=False,
            allow_duplicates=True,
            coerce=False,
            required=True,
            regex=False,
        )
    },
    index=Index(
        pandas_dtype=PandasDtype.Int64,
        checks=[
            Check.greater_than_or_equal_to(min_value=0.0),
            Check.less_than_or_equal_to(max_value=5.0),
        ],
        nullable=False,
        coerce=False,
        name=None,
    ),
    coerce=True,
    strict=False,
    name=None,
)

from pandera import (
    DataFrameSchema,
    Column,
    Check,
    Index,
    MultiIndex,
    PandasDtype,
)

schema = DataFrameSchema(
    columns={
        "continuous": Column(
            pandas_dtype=PandasDtype.Int64,
            checks=[
                Check.greater_than_or_equal_to(min_value=1.0),
                Check.less_than_or_equal_to(max_value=6.0),
            ],
            nullable=False,
            allow_duplicates=True,
            coerce=False,
            required=True,
            regex=False,
        )
    },
    index=Index(
        pandas_dtype=PandasDtype.Int64,
        checks=[
            Check.greater_than_or_equal_to(min_value=0.0),
            Check.less_than_or_equal_to(max_value=5.0),
        ],
        nullable=False,
        coerce=False,
        name=None,
    ),
    coerce=True,
    strict=False,
    name=None,
)

schema_type: dataframe
version: 0.6.5
columns:
  continuous:
    pandas_dtype: int64
    nullable: false
    checks:
      greater_than_or_equal_to: 1.0
      less_than_or_equal_to: 6.0
    allow_duplicates: true
    coerce: false
    required: true
    regex: false
checks: null
index:
- pandas_dtype: int64
  nullable: false
  checks:
    greater_than_or_equal_to: 0.0
    less_than_or_equal_to: 5.0
  name: null
  coerce: false
coerce: true
strict: false

schema_type: dataframe
version: 0.6.5
columns:
  continuous:
    pandas_dtype: int64
    nullable: false
    checks:
      greater_than_or_equal_to: 1.0
      less_than_or_equal_to: 6.0
    allow_duplicates: true
    coerce: false
    required: true
    regex: false
checks: null
index:
- pandas_dtype: int64
  nullable: false
  checks:
    greater_than_or_equal_to: 0.0
    less_than_or_equal_to: 5.0
  name: null
  coerce: false
coerce: true
strict: false

	mean_continuous
categorical
A	1.5
B	3.5
C	5.5

	continuous	categorical	one_hot_A	one_hot_B
0	1.0	A	1	0
1	2.0	A	1	0
2	3.0	B	0	1

	continuous	categorical
0	1.100000e+00	B
1	1.192093e-07	B
2	9.007199e+15	B

Function	Input Type	Output Type	Test Errors
load	-	DF[Raw]	0
clean	DF[Raw]	DF[Clean]	1
featurize	DF[Clean]	DF[Train]	7
train_model	DF[Train]	-	2

Guiding Principle	Description	Issue
Parse, then Validate	Extend parsing functionality to support arbitrary transformations
Make Schemas Reusable, Adaptable, and Portable	Support Other Schema Specifications in the Ecosystem
	Decouple pandera and pandas type systems
	Abstract out parsing/validation logic to support non-pandas dataframes
	Add Titles and Descriptions for SchemaModels
Generative Schemas Facilitate Property-based Testing	Add global schema-level override strategy
	Support data synthesis strategies for joint distributions
	Make Hypothesis strategies more efficient
Profile Data and Data Pipelines	Create schema from a `pandas-profiling` `ProfileReport`
	Parse schema-decorated functions to construct a dataflow graph
	Implement error report aggregator
	Implement CLI for pipeline profiling and reports
	Create `pytest-pandera` plugin for profiling data pipelines in your test suite

Pandera: Towards Better Data Testing Tools for Data Science and Machine Learning¶

Niels Bantilan¶

Outline 📝¶

Introduction to Data Testing¶

A Simple Example: Life Before Pandera¶

Pandera Quickstart

Object-based API¶

Class-based API¶

Pandera Parses and Validates Data¶

🛣 Roadmap: Guiding Principles¶

Principle 1: Parse, then Validate¶

🛣 Roadmap Item¶

Principle 2: Make Schemas Reuseable, Adaptable, and Portable¶

Adaptability: define a base schema and build on top of it¶

Portability: Support Other Dataframe Libraries and Schema Specifications in the Ecosystem¶

🛣 Roadmap Items¶

Principle 3: Generative Schemas Facilitate Property-based Testing¶

Generate schemas as multi-purpose artifacts¶

🛣 Roadmap Items¶

Principle 4: Profile Data and Data Pipelines¶

🛣 Roadmap Item¶

Profile Data and Data Pipelines¶

🛣 Roadmap Items¶

🛣 Roadmap¶

Where to Learn More¶

How to Contribute¶

Join the Scipy Mentored Sprints! 👟👟¶

Toss a coin to your maintainer 👍🪙 https://github.com/sponsors/cosmicBboy ¶

🎉 Shoutouts to pyopensci all the pandera contributors! 🎉¶

¶

	schema_context	column	check	failure_case	index
0	Column	continuous	greater_than_or_equal_to(0)	-1.1	0
1	Column	continuous	greater_than_or_equal_to(0)	-0.1	3
2	Column	categorical	isin({'B', 'A', 'C'})	Z	3
3	Column	categorical	isin({'B', 'A', 'C'})	X	4

Pandera: Towards Better Data Testing Tools for Data Science and Machine Learning¶

Niels Bantilan¶

Outline 📝¶

Introduction to Data Testing¶

A Simple Example: Life Before Pandera¶

Pandera Quickstart

Object-based API¶

Class-based API¶

Pandera Parses and Validates Data¶

🛣 Roadmap: Guiding Principles¶

Principle 1: Parse, then Validate¶

🛣 Roadmap Item¶

Principle 2: Make Schemas Reuseable, Adaptable, and Portable¶

Adaptability: define a base schema and build on top of it¶

Portability: Support Other Dataframe Libraries and Schema Specifications in the Ecosystem¶

🛣 Roadmap Items¶

Principle 3: Generative Schemas Facilitate Property-based Testing¶

Generate schemas as multi-purpose artifacts¶

🛣 Roadmap Items¶

Principle 4: Profile Data and Data Pipelines¶

🛣 Roadmap Item¶

Profile Data and Data Pipelines¶

🛣 Roadmap Items¶

🛣 Roadmap¶

Where to Learn More¶

How to Contribute¶

Join the Scipy Mentored Sprints! 👟👟¶

Toss a coin to your maintainer 👍🪙 https://github.com/sponsors/cosmicBboy¶

🎉 Shoutouts to pyopensci all the pandera contributors! 🎉¶

¶

Toss a coin to your maintainer 👍🪙 https://github.com/sponsors/cosmicBboy ¶