seq2seq-time/seq2seq_time/data/util.py

import sklearn
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn_pandas import DataFrameMapper

def normalize_encode_dataframe(df, encoder=OrdinalEncoder):
    """Normalise numeric data, encode categorical data."""
    columns_input_numeric = list(df._get_numeric_data().columns)
    columns_categorical = list(set(df.columns)-set(columns_input_numeric))

    transformers= [([n], StandardScaler()) for n in columns_input_numeric] + \
                  [([n], encoder()) for n in columns_categorical]
    scaler = DataFrameMapper(transformers, df_out=True)
    df_norm = scaler.fit_transform(df)
    return df_norm, scaler

def timeseries_split(df, test_fraction=0.2, dropna=None):
    """Split timeseries data with test in the future"""

    # If there are lots of nan's we can ignore them when splitting into portions
    if isinstance(dropna, list):
        index = df.dropna(subset=dropna).index
    elif dropna is True:
        index = df.dropna().index
    else:
        index = df.index

    i = int(len(index)*(1- test_fraction))
    dt = index.values[i]
    return df.loc[:dt], df.loc[dt:]