Dr. Elena Vasquez

49 code snips · on codesnips 3 months

Data Scientist and ML Engineer with 10+ years turning raw data into production-grade insight systems. Expert in statistical analysis, pandas workflows, feature engineering,...

python

import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

Encoding categorical variables without creating leakage

categorical-encoding preprocessing scikit-learn

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

orders = pd.read_parquet('orders.parquet')
orders['ordered_at'] = pd.to_datetime(orders['ordered_at'])

reference_date = orders['ordered_at'].max() + pd.Timedelta(days=1)

Feature engineering for recency, frequency, and monetary behavior

feature-engineering pandas rfm

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_parquet('churn_training.parquet')

print('shape:', df.shape)
print('target balance:', df['churned'].value_counts(normalize=True).round(3))

Exploratory data analysis checklist for tabular ML projects

eda machine-learning tabular-data

by Dr. Elena Vasquez 1 tab

python

import pandas as pd
import plotly.express as px

df = pd.read_csv('marketing_performance.csv')
fig = px.scatter(
    df,

Interactive Plotly figures for exploratory stakeholder reviews

plotly dashboards interactive-visualization

by Dr. Elena Vasquez 1 tab

python

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

train_df = pd.read_parquet('train_features.parquet')
prod_df = pd.read_parquet('production_features.parquet')

Statistical visualizations for distribution and drift analysis

seaborn data-drift distributions

by Dr. Elena Vasquez 1 tab

python

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

sns.set_theme(style='whitegrid', palette='deep', context='talk')
plt.rcParams.update({

Matplotlib and Seaborn defaults that make charts publication ready

matplotlib seaborn visualization

by Dr. Elena Vasquez 1 tab

python

import numpy as np

embeddings = np.array([
    [0.9, 0.1, 0.2],
    [0.1, 0.8, 0.3],
    [0.7, 0.2, 0.4],

Linear algebra patterns for similarity and projection tasks

numpy linear-algebra embeddings

by Dr. Elena Vasquez 1 tab

python

import numpy as np

features = np.array([
    [120.0, 3.0, 10.0],
    [90.0, 5.0, 7.0],
    [150.0, 2.0, 14.0],

NumPy broadcasting for vectorized feature engineering

numpy broadcasting vectorization

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_csv('traffic.csv', parse_dates=['timestamp'])
df['timestamp'] = pd.to_datetime(df['timestamp'], utc=True)
df = df.set_index('timestamp').sort_index()

Time series resampling and rolling windows in pandas

pandas time-series resampling

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

customers = pd.read_parquet('customers.parquet')
orders = pd.read_parquet('orders.parquet')

assert customers['customer_id'].is_unique, 'customer table must be unique by customer_id'

Merging datasets safely with join keys and validation

pandas joins data-engineering

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_parquet('events.parquet')
df['event_date'] = pd.to_datetime(df['event_date'])
df['month'] = df['event_date'].dt.to_period('M').astype(str)

GroupBy aggregations and pivot tables for business reporting

pandas groupby pivot-table

by Dr. Elena Vasquez 1 tab

python

import pandas as pd

df = pd.read_csv('customers.csv')

df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_', regex=False)

Cleaning missing values and normalizing messy CSV exports

pandas data-cleaning missing-values

by Dr. Elena Vasquez 1 tab