Data Loading
src.preprocessing.data_loader
Enthält Methoden für das initiale Laden des Datensatzes und die Auswahl der gewünschten Zeilen und Spalten.
Author: André Gasch
load_dataset(dataset_path, format=loading_config['default_format'], csv_delimiter=loading_config['csv_delimiter'])
Liest einen Datensatz im CSV- oder JSON-Format von einem gegebenen Pfad.
Führt grundlegende Pfad- und Formatvalidierung durch und lädt die Daten in ein Pandas DataFrame. Handhabt leere Dateien.
Parameters:
Name | Type | Description | Default |
---|---|---|---|
dataset_path
|
str
|
Pfad zur Datensatzdatei (CSV oder JSON). |
required |
format
|
Literal['json', 'csv']
|
Das Format der Datensatzdatei. Muss 'json' oder 'csv' sein. Standardmäßig 'csv'. |
loading_config['default_format']
|
csv_delimiter
|
str
|
Das Trennzeichen für CSV-Dateien. Wird ignoriert, wenn format='json'. Standardmäßig ','. |
loading_config['csv_delimiter']
|
Returns:
Type | Description |
---|---|
DataFrame
|
Ein Pandas DataFrame mit den geladenen Rohdaten. |
Raises:
Type | Description |
---|---|
FileNotFoundError
|
Wenn der angegebene dataset_path nicht existiert. |
ValueError
|
Wenn das angegebene Format ('json' oder 'csv') ungültig ist. |
EmptyDataError
|
Wenn die Datei leer ist oder kein gültiges DataFrame enthält. |
Exception
|
Andere Fehler, die beim Lesen der Datei auftreten können (z.B. Formatfehler, falscher Delimiter etc.). |
Source code in src\preprocessing\data_loader.py
load_dataset_and_prepare_X_y(dataset_path=loading_config['dataset_path'], format=loading_config['default_format'], csv_delimiter=loading_config['csv_delimiter'], input_columns=prep_config['input_columns'], label_column=prep_config['label_column_name_in'])
Fasst load_dataset() und prepare_X_y() zusammen. Alle Parameter lassen sich übergeben, es sind jedoch passende Default-Werte gesetzt.
Source code in src\preprocessing\data_loader.py
prepare_X_y(df, input_columns, label_column)
Extrahiert X und y, indem relevante Input-Spalten und Label-Spalte getrennt werden.
Parameters:
Name | Type | Description | Default |
---|---|---|---|
df
|
DataFrame
|
Der pandas DataFrame, der vorbereitet werden soll. |
required |
input_columns
|
List[str]
|
Eine Liste von Spaltennamen, die als Features (X) verwendet werden sollen. |
required |
label_column
|
str
|
Der Name der Spalte, die als Label (y) verwendet werden soll. |
required |
Returns:
Type | Description |
---|---|
DataFrame
|
Ein Tupel (X, y), wobei X ein DataFrame der Features und y eine Series des |
Series
|
Labels ist. |
Raises:
Type | Description |
---|---|
KeyError
|
Wenn eine der angegebenen Spalten nicht im DataFrame existiert. |
ValueError
|
Wenn input_columns leer ist oder label_column leer ist. Wenn label_column in input_columns enthalten ist. |
Source code in src\preprocessing\data_loader.py
— André Gasch