perf(Adam/RNN): better gradient handling

marcpinet · marcpinet · commit e7894b9a53e3 · 2024-11-10T02:35:20.000+01:00
diff --git a/neuralnetlib/layers.py b/neuralnetlib/layers.py
@@ -1657,9 +1657,8 @@ def backward_pass(self, output_error: np.ndarray) -> np.ndarray:
                             np.sum(self.cell.dWo**2) + np.sum(self.cell.dUo**2) + np.sum(self.cell.dbo**2))
             
         global_norm = np.sqrt(squared_norm_sum)
-
-        scaling_factor = min(1.0, self.clip_value / (global_norm + 1e-8)) / timesteps
-        if scaling_factor < 1.0:  # Only scale if necessary
+        scaling_factor = min(1.0, self.clip_value / (global_norm + 1e-8))
+        if scaling_factor < 1.0:
             dx *= scaling_factor
             for grad in self.cell.__dict__:
                 if grad.startswith('d'):
@@ -1709,43 +1708,54 @@ def __str__(self) -> str:
     def forward_pass(self, input_data: np.ndarray, training: bool = True) -> np.ndarray:
         self.forward_output = self.forward_layer.forward_pass(
             input_data, training)
+        
         backward_input = input_data[:, ::-1, :]
         self.backward_output = self.backward_layer.forward_pass(
             backward_input, training)
 
         if isinstance(self.forward_output, tuple):
-            forward_seq, forward_h, forward_c = self.forward_output
-            backward_seq, backward_h, backward_c = self.backward_output
-
             if self.forward_layer.return_sequences:
+                forward_seq, forward_h, forward_c = self.forward_output
+                backward_seq, backward_h, backward_c = self.backward_output
+                
                 backward_seq = backward_seq[:, ::-1, :]
-                return np.concatenate([forward_seq, backward_seq], axis=-1), \
-                    np.concatenate([forward_h, backward_h], axis=-1), \
-                    np.concatenate([forward_c, backward_c], axis=-1)
+                
+                combined_seq = np.concatenate([forward_seq, backward_seq], axis=-1)
+                combined_h = np.concatenate([forward_h, backward_h], axis=-1)
+                combined_c = np.concatenate([forward_c, backward_c], axis=-1)
+                
+                return combined_seq, combined_h, combined_c
             else:
-                return np.concatenate([forward_h, backward_h], axis=-1)
+                forward_h, _, forward_c = self.forward_output
+                backward_h, _, backward_c = self.backward_output
+                combined_h = np.concatenate([forward_h, backward_h], axis=-1)
+                combined_c = np.concatenate([forward_c, backward_c], axis=-1)
+                return combined_h, combined_h, combined_c
         else:
             if self.forward_layer.return_sequences:
-                self.backward_output = self.backward_output[:, ::-1, :]
-            return np.concatenate([self.forward_output, self.backward_output], axis=-1)
+                backward_seq = self.backward_output[:, ::-1, :]
+                return np.concatenate([self.forward_output, backward_seq], axis=-1)
+            else:
+                return np.concatenate([self.forward_output, self.backward_output], axis=-1)
 
     def backward_pass(self, output_error: np.ndarray) -> np.ndarray:
         forward_dim = output_error.shape[-1] // 2
-
+        
         if len(output_error.shape) == 3:
             forward_error = output_error[:, :, :forward_dim]
             backward_error = output_error[:, :, forward_dim:]
+            
             backward_error = backward_error[:, ::-1, :]
         else:
             forward_error = output_error[:, :forward_dim]
             backward_error = output_error[:, forward_dim:]
-
+        
         forward_dx = self.forward_layer.backward_pass(forward_error)
         backward_dx = self.backward_layer.backward_pass(backward_error)
-
+        
         if len(output_error.shape) == 3:
             backward_dx = backward_dx[:, ::-1, :]
-
+        
         return forward_dx + backward_dx
 
     def get_config(self) -> dict:
@@ -2045,7 +2055,7 @@ def backward_pass(self, output_error: np.ndarray) -> np.ndarray:
                             np.sum(self.cell.dWh**2) + np.sum(self.cell.dUh**2) + np.sum(self.cell.dbh**2))
 
         global_norm = np.sqrt(squared_norm_sum)
-        scaling_factor = min(1.0, self.clip_value / (global_norm + 1e-8)) / timesteps
+        scaling_factor = min(1.0, self.clip_value / (global_norm + 1e-8))
         if scaling_factor < 1.0:
             dx *= scaling_factor
             for grad in self.cell.__dict__:
@@ -2122,7 +2132,7 @@ def backward_pass(self, output_error: np.ndarray) -> np.ndarray:
         input_data = self.cache['input']
         
         if not self.return_sequences:
-            output_error = np.expand_dims(output_error, 1) / seq_length
+            output_error = np.expand_dims(output_error, 1)
             output_error = np.repeat(output_error, seq_length, axis=1)
 
         d_input = np.zeros((batch_size, seq_length, features))
diff --git a/neuralnetlib/model.py b/neuralnetlib/model.py
@@ -8,7 +8,7 @@
 
 from neuralnetlib.activations import ActivationFunction
 from neuralnetlib.layers import compatibility_dict, Layer, Input, Activation, Dropout, TextVectorization, LSTM, GRU, Bidirectional, Embedding, Attention, Dense
-from neuralnetlib.losses import LossFunction, CategoricalCrossentropy, SparseCategoricalCrossentropy
+from neuralnetlib.losses import LossFunction, CategoricalCrossentropy, SparseCategoricalCrossentropy, BinaryCrossentropy
 from neuralnetlib.optimizers import Optimizer
 from neuralnetlib.preprocessing import PCA
 from neuralnetlib.utils import shuffle, progress_bar, is_interactive, is_display_available, History
@@ -83,33 +83,44 @@ def forward_pass(self, X: np.ndarray, training: bool = True) -> np.ndarray:
 
     def backward_pass(self, error: np.ndarray):
         for i, layer in enumerate(reversed(self.layers)):
-            if i == 0 and isinstance(layer, Activation) and type(layer.activation_function).__name__ == "Softmax" and (
-                        isinstance(self.loss_function, CategoricalCrossentropy or isinstance(self.loss_function, SparseCategoricalCrossentropy))):
-                error = self.predictions - self.y_true
+            if i == 0 and isinstance(layer, Activation):
+                if (type(layer.activation_function).__name__ == "Softmax" and 
+                    (isinstance(self.loss_function, CategoricalCrossentropy))):
+                    error = self.predictions - self.y_true
+
+                elif (type(layer.activation_function).__name__ == "Sigmoid" and 
+                    isinstance(self.loss_function, BinaryCrossentropy)):
+                    error = (self.predictions - self.y_true) / (self.predictions * (1 - self.predictions) + 1e-15)
+
+                elif isinstance(self.loss_function, SparseCategoricalCrossentropy):
+                    y_true_one_hot = np.zeros_like(self.predictions)
+                    y_true_one_hot[np.arange(len(self.y_true)), self.y_true] = 1
+                    error = self.predictions - y_true_one_hot
             else:
                 error = layer.backward_pass(error)
 
-            if hasattr(layer, 'weights'):
-                if hasattr(layer, 'd_weights') and hasattr(layer, 'd_bias'):
-                    self.optimizer.update(len(self.layers) - 1 - i, layer.weights, layer.d_weights, layer.bias,
-                                          layer.d_bias)
-                elif hasattr(layer, 'd_weights'):
-                    self.optimizer.update(
-                        len(self.layers) - 1 - i, layer.weights, layer.d_weights)
-                    
-            elif isinstance(layer, LSTM):
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wf, layer.cell.dWf, layer.cell.bf, layer.cell.dbf)
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wi, layer.cell.dWi, layer.cell.bi, layer.cell.dbi)
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wc, layer.cell.dWc, layer.cell.bc, layer.cell.dbc)
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wo, layer.cell.dWo, layer.cell.bo, layer.cell.dbo)
+            if isinstance(layer, LSTM):
+                layer_idx = len(self.layers) - 1 - i
+                cell = layer.cell
+                self.optimizer.update(layer_idx, cell.Wf, cell.dWf, cell.bf, cell.dbf)
+                self.optimizer.update(layer_idx, cell.Wi, cell.dWi, cell.bi, cell.dbi)
+                self.optimizer.update(layer_idx, cell.Wc, cell.dWc, cell.bc, cell.dbc)
+                self.optimizer.update(layer_idx, cell.Wo, cell.dWo, cell.bo, cell.dbo)
+            
             elif isinstance(layer, GRU):
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wz, layer.cell.dWz, layer.cell.bz, layer.cell.dbz)
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wr, layer.cell.dWr, layer.cell.br, layer.cell.dbr)
-                self.optimizer.update(len(self.layers) - 1 - i, layer.cell.Wh, layer.cell.dWh, layer.cell.bh, layer.cell.dbh)
-            elif hasattr(layer, 'd_weights') and hasattr(layer, 'd_bias'):
-                self.optimizer.update(len(self.layers) - 1 - i, layer.weights, layer.d_weights, layer.bias, layer.d_bias)
-            elif hasattr(layer, 'd_weights'):
-                self.optimizer.update(len(self.layers) - 1 - i, layer.weights, layer.d_weights)
+                layer_idx = len(self.layers) - 1 - i
+                cell = layer.cell
+                self.optimizer.update(layer_idx, cell.Wz, cell.dWz, cell.bz, cell.dbz)
+                self.optimizer.update(layer_idx, cell.Wr, cell.dWr, cell.br, cell.dbr)
+                self.optimizer.update(layer_idx, cell.Wh, cell.dWh, cell.bh, cell.dbh)
+            
+            elif hasattr(layer, 'weights'):
+                layer_idx = len(self.layers) - 1 - i
+                if hasattr(layer, 'd_bias'):
+                    self.optimizer.update(layer_idx, layer.weights, layer.d_weights, 
+                                        layer.bias, layer.d_bias)
+                else:
+                    self.optimizer.update(layer_idx, layer.weights, layer.d_weights)
 
     def train_on_batch(self, x_batch: np.ndarray, y_batch: np.ndarray) -> float:
         self.y_true = y_batch
@@ -434,4 +445,4 @@ def __update_plot(self, epoch: int, x_train: np.ndarray, y_train: np.ndarray, ra
         ax.set_title(f"Decision Boundary (Epoch {epoch + 1})")
 
         fig.canvas.draw()
-        plt.pause(0.1)
+        plt.pause(0.1)
diff --git a/neuralnetlib/optimizers.py b/neuralnetlib/optimizers.py
@@ -130,7 +130,8 @@ def __init__(self, learning_rate: float = 0.001, beta_1: float = 0.9, beta_2: fl
         self.epsilon = epsilon
         self.clip_norm = clip_norm
         self.clip_value = clip_value
-        self.t = 0
+        self.t = 1
+        self.needs_time_increment = True
         
         self.m_w, self.v_w = {}, {}
         self.m_b, self.v_b = {}, {}
@@ -159,36 +160,42 @@ def _compute_moments(self, param: np.ndarray, grad: np.ndarray, m: np.ndarray, v
         m = self.beta_1 * m + (1 - self.beta_1) * grad
         v = self.beta_2 * v + (1 - self.beta_2) * np.square(grad)
         
-        beta1_t = np.minimum(self.beta_1 ** self.t, 1 - self._min_denom)
-        beta2_t = np.minimum(self.beta_2 ** self.t, 1 - self._min_denom)
+        m_hat = m / (1 - self.beta_1 ** self.t)
+        v_hat = v / (1 - self.beta_2 ** self.t)
         
-        m_hat = m / (1 - beta1_t)
-        v_hat = v / (1 - beta2_t)
-        
-        denom = np.sqrt(v_hat) + self.epsilon
-        update = self.learning_rate * m_hat / np.maximum(denom, self._min_denom)
+        denom = np.sqrt(v_hat + self.epsilon)
+        update = self.learning_rate * m_hat / denom
         
         update = np.nan_to_num(update, nan=0.0, posinf=0.0, neginf=0.0)
         param -= update
         
         return param, m, v
 
     def update(self, layer_index: int, weights: np.ndarray, weights_grad: np.ndarray, bias: np.ndarray, bias_grad: np.ndarray) -> None:
+        if weights_grad is None and bias_grad is None:
+            return
+            
         if layer_index not in self.m_w:
-            self.m_w[layer_index] = np.zeros_like(weights)
-            self.v_w[layer_index] = np.zeros_like(weights)
-            self.m_b[layer_index] = np.zeros_like(bias)
-            self.v_b[layer_index] = np.zeros_like(bias)
-
-        self.t += 1
+            if weights is not None:
+                self.m_w[layer_index] = np.zeros_like(weights)
+                self.v_w[layer_index] = np.zeros_like(weights)
+            if bias is not None:
+                self.m_b[layer_index] = np.zeros_like(bias)
+                self.v_b[layer_index] = np.zeros_like(bias)
+
+        if self.needs_time_increment:
+            self.t += 1
+            self.needs_time_increment = False
+
+        if weights is not None:
+            weights, self.m_w[layer_index], self.v_w[layer_index] = self._compute_moments(
+                weights, weights_grad, self.m_w[layer_index], self.v_w[layer_index]
+            )
         
-        weights, self.m_w[layer_index], self.v_w[layer_index] = self._compute_moments(
-            weights, weights_grad, self.m_w[layer_index], self.v_w[layer_index]
-        )
-        
-        bias, self.m_b[layer_index], self.v_b[layer_index] = self._compute_moments(
-            bias, bias_grad, self.m_b[layer_index], self.v_b[layer_index]
-        )
+        if bias is not None:
+            bias, self.m_b[layer_index], self.v_b[layer_index] = self._compute_moments(
+                bias, bias_grad, self.m_b[layer_index], self.v_b[layer_index]
+            )
 
     def get_config(self) -> dict:
         return {
@@ -226,4 +233,4 @@ def from_config(config: dict):
     def __str__(self):
         return (f"{self.__class__.__name__}(learning_rate={self.learning_rate}, "
                 f"beta_1={self.beta_1}, beta_2={self.beta_2}, epsilon={self.epsilon}, "
-                f"clip_norm={self.clip_norm}, clip_value={self.clip_value})")
+                f"clip_norm={self.clip_norm}, clip_value={self.clip_value})")