changed 0/1 to categorical vars

rvandewater · Oct 9, 2023 · 869a611 · 869a611
1 parent 8880ade
commit 869a611
Show file tree

Hide file tree

Showing 4 changed files with 107 additions and 103 deletions.
diff --git a/configs/prediction_models/RNNpytorch.gin b/configs/prediction_models/RNNpytorch.gin
@@ -125,55 +125,7 @@ PredictionDatasetTFTpytorch.target=[
                 "MissingIndicator_48",
                 "label",
             ]
-PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
-                "alp",
-                "alt",
-                "ast",
-                "be",
-                "bicar",
-                "bili",
-                "bili_dir",
-                "bnd",
-                "bun",
-                "ca",
-                "cai",
-                "ck",
-                "ckmb",
-                "cl",
-                "crea",
-                "crp",
-                "dbp",
-                "fgn",
-                "fio2",
-                "glu",
-                "hgb",
-                "hr",
-                "inr_pt",
-                "k",
-                "lact",
-                "lymph",
-                "map",
-                "mch",
-                "mchc",
-                "mcv",
-                "methb",
-                "mg",
-                "na",
-                "neut",
-                "o2sat",
-                "pco2",
-                "ph",
-                "phos",
-                "plt",
-                "po2",
-                "ptt",
-                "resp",
-                "sbp",
-                "temp",
-                "tnt",
-                "urine",
-                "wbc",
-                "MissingIndicator_1",
+PredictionDatasetTFTpytorch.time_varying_unknown_categoricals=["MissingIndicator_1",
                 "MissingIndicator_2",
                 "MissingIndicator_3",
                 "MissingIndicator_4",
@@ -223,3 +175,52 @@ PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
                 "MissingIndicator_48",
                 "label",
             ]
+PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
+                "alp",
+                "alt",
+                "ast",
+                "be",
+                "bicar",
+                "bili",
+                "bili_dir",
+                "bnd",
+                "bun",
+                "ca",
+                "cai",
+                "ck",
+                "ckmb",
+                "cl",
+                "crea",
+                "crp",
+                "dbp",
+                "fgn",
+                "fio2",
+                "glu",
+                "hgb",
+                "hr",
+                "inr_pt",
+                "k",
+                "lact",
+                "lymph",
+                "map",
+                "mch",
+                "mchc",
+                "mcv",
+                "methb",
+                "mg",
+                "na",
+                "neut",
+                "o2sat",
+                "pco2",
+                "ph",
+                "phos",
+                "plt",
+                "po2",
+                "ptt",
+                "resp",
+                "sbp",
+                "temp",
+                "tnt",
+                "urine",
+                "wbc",]
+
diff --git a/configs/prediction_models/TFTpytorch.gin b/configs/prediction_models/TFTpytorch.gin
@@ -26,55 +26,7 @@ PredictionDatasetTFTpytorch.max_prediction_length = 24
 PredictionDatasetTFTpytorch.target="label"
 PredictionDatasetTFTpytorch.time_varying_known_reals=["time_idx"]
 PredictionDatasetTFTpytorch.add_relative_time_idx=True
-PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
-                "alp",
-                "alt",
-                "ast",
-                "be",
-                "bicar",
-                "bili",
-                "bili_dir",
-                "bnd",
-                "bun",
-                "ca",
-                "cai",
-                "ck",
-                "ckmb",
-                "cl",
-                "crea",
-                "crp",
-                "dbp",
-                "fgn",
-                "fio2",
-                "glu",
-                "hgb",
-                "hr",
-                "inr_pt",
-                "k",
-                "lact",
-                "lymph",
-                "map",
-                "mch",
-                "mchc",
-                "mcv",
-                "methb",
-                "mg",
-                "na",
-                "neut",
-                "o2sat",
-                "pco2",
-                "ph",
-                "phos",
-                "plt",
-                "po2",
-                "ptt",
-                "resp",
-                "sbp",
-                "temp",
-                "tnt",
-                "urine",
-                "wbc",
-                "MissingIndicator_1",
+PredictionDatasetTFTpytorch.time_varying_unknown_categoricals=["MissingIndicator_1",
                 "MissingIndicator_2",
                 "MissingIndicator_3",
                 "MissingIndicator_4",
@@ -123,4 +75,53 @@ PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
                 "MissingIndicator_47",
                 "MissingIndicator_48",
                 "label",
-            ]
+            ]
+PredictionDatasetTFTpytorch.time_varying_unknown_reals=["alb",
+                "alp",
+                "alt",
+                "ast",
+                "be",
+                "bicar",
+                "bili",
+                "bili_dir",
+                "bnd",
+                "bun",
+                "ca",
+                "cai",
+                "ck",
+                "ckmb",
+                "cl",
+                "crea",
+                "crp",
+                "dbp",
+                "fgn",
+                "fio2",
+                "glu",
+                "hgb",
+                "hr",
+                "inr_pt",
+                "k",
+                "lact",
+                "lymph",
+                "map",
+                "mch",
+                "mchc",
+                "mcv",
+                "methb",
+                "mg",
+                "na",
+                "neut",
+                "o2sat",
+                "pco2",
+                "ph",
+                "phos",
+                "plt",
+                "po2",
+                "ptt",
+                "resp",
+                "sbp",
+                "temp",
+                "tnt",
+                "urine",
+                "wbc",]
+
diff --git a/icu_benchmarks/data/loader.py b/icu_benchmarks/data/loader.py
@@ -464,6 +464,7 @@ def __init__(
         time_varying_unknown_reals: List[str],
         target: Union[str, List[str]],
         time_varying_known_reals: List[str],
+        time_varying_unknown_categoricals: List[str],
         *args,
         ram_cache: bool = False,
         add_relative_time_idx: bool = False,
@@ -486,6 +487,7 @@ def __init__(
         )  # combine labels and features
         # self.data["sex"].replace([0, 1], ["Female", "Male"], inplace=True)
         # List of column names to convert from boolean to float
+
         boolean_columns = [
             "MissingIndicator_1",
             "MissingIndicator_2",
@@ -540,8 +542,9 @@ def __init__(
 
         # Convert multiple columns from boolean to float
         self.data[boolean_columns] = self.data[boolean_columns].astype(
-            float
+            str
         )  # changing boolean to floats to allow input to models
+
         self.split = split
         self.args = args
         self.ram_cache = ram_cache
@@ -561,7 +564,7 @@ def __init__(
             static_reals=["height", "weight", "age", "sex"],
             time_varying_known_categoricals=[],
             time_varying_known_reals=time_varying_known_reals,
-            time_varying_unknown_categoricals=[],
+            time_varying_unknown_categoricals=time_varying_unknown_categoricals,
             time_varying_unknown_reals=time_varying_unknown_reals,
             add_relative_time_idx=add_relative_time_idx,
             add_target_scales=True,

diff --git a/icu_benchmarks/models/train.py b/icu_benchmarks/models/train.py
@@ -98,8 +98,7 @@ def train_common(
         num_workers: Number of workers to use for data loading.
     """
     logging.info(f"Training model: {model.__name__}.")
-    with open("data.pkl", "wb") as f:
-        pickle.dump(data, f)
+
     # choose dataset_class based on the model
     dataset_class = (
         ImputationDataset