CodeSnips

python

import pandas as pd

df = pd.read_csv('customers.csv')

df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_', regex=False)

Cleaning missing values and normalizing messy CSV exports

pandas data-cleaning missing-values

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_csv('traffic.csv', parse_dates=['timestamp'])
df['timestamp'] = pd.to_datetime(df['timestamp'], utc=True)
df = df.set_index('timestamp').sort_index()

Time series resampling and rolling windows in pandas

pandas time-series resampling

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_parquet('events.parquet')
df['event_date'] = pd.to_datetime(df['event_date'])
df['month'] = df['event_date'].dt.to_period('M').astype(str)

GroupBy aggregations and pivot tables for business reporting

pandas groupby pivot-table

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_csv(
    'orders.csv',
    parse_dates=['created_at'],
    dtype={

pandas DataFrame essentials: loading, indexing, and selection

pandas python dataframe

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

orders = pd.read_parquet('orders.parquet')
orders['ordered_at'] = pd.to_datetime(orders['ordered_at'])

reference_date = orders['ordered_at'].max() + pd.Timedelta(days=1)

Feature engineering for recency, frequency, and monetary behavior

feature-engineering pandas rfm

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

customers = pd.read_parquet('customers.parquet')
orders = pd.read_parquet('orders.parquet')

assert customers['customer_id'].is_unique, 'customer table must be unique by customer_id'

Merging datasets safely with join keys and validation

pandas joins data-engineering

by Dr. Elena Vasquez 1 tab