marcpinet
diff --git a/‎examples/generation/transformer-text-generation/transformer-for-translation.ipynb‎
Lines changed: 81 additions & 82 deletions b/‎examples/generation/transformer-text-generation/transformer-for-translation.ipynb‎
Lines changed: 81 additions & 82 deletions
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 11,
    "id": "a036f9b8eee0491",
    "metadata": {
     "ExecuteTime": {
@@ -13,14 +13,14 @@
    },
    "outputs": [],
    "source": [
-    "import numpy as np\n",
     "from neuralnetlib.models import Transformer\n",
-    "from neuralnetlib.preprocessing import Tokenizer, pad_sequences"
+    "from neuralnetlib.preprocessing import Tokenizer, pad_sequences\n",
+    "from neuralnetlib.optimizers import Adam"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 12,
    "id": "be237a3421e586a2",
    "metadata": {
     "ExecuteTime": {
@@ -50,7 +50,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 13,
    "id": "f4c0d8598f0ba7a",
    "metadata": {
     "ExecuteTime": {
@@ -70,7 +70,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 14,
    "id": "67338439",
    "metadata": {},
    "outputs": [],
@@ -89,7 +89,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 15,
    "id": "5501a2c7",
    "metadata": {},
    "outputs": [
@@ -126,7 +126,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 16,
    "id": "68d2884d",
    "metadata": {},
    "outputs": [
@@ -136,42 +136,41 @@
      "text": [
       "Transformer(\n",
       "  vocab_size=24,\n",
-      "  d_model=128,\n",
-      "  n_heads=4,\n",
-      "  n_encoder_layers=2,\n",
-      "  n_decoder_layers=2,\n",
-      "  d_ff=256,\n",
-      "  dropout_rate=0.2,\n",
-      "  max_sequence_length=5\n",
+      "  d_model=64,\n",
+      "  n_heads=2,\n",
+      "  n_encoder_layers=1,\n",
+      "  n_decoder_layers=1,\n",
+      "  d_ff=128,\n",
+      "  dropout_rate=0.1,\n",
+      "  max_sequence_length=512\n",
       ")\n"
      ]
     }
    ],
    "source": [
     "model = Transformer(\n",
     "    vocab_size=max_vocab_size,\n",
-    "    d_model=128,\n",
-    "    n_heads=4,\n",
-    "    n_encoder_layers=2,\n",
-    "    n_decoder_layers=2,\n",
-    "    d_ff=256,\n",
-    "    dropout_rate=0.2,\n",
-    "    max_sequence_length=max_seq_len,\n",
-    "    temperature=0.7,\n",
+    "    d_model=64,\n",
+    "    n_heads=2,\n",
+    "    n_encoder_layers=1,\n",
+    "    n_decoder_layers=1,\n",
+    "    d_ff=128,\n",
+    "    dropout_rate=0.1,\n",
+    "    temperature=1.0,\n",
     "    random_state=42\n",
     ")\n",
     "\n",
     "\n",
     "model.compile(\n",
     "    loss_function='sequencecrossentropy',\n",
-    "    optimizer='adam',\n",
+    "    optimizer=Adam(learning_rate=0.001),\n",
     "    verbose=True\n",
     ")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 17,
    "id": "845375dc",
    "metadata": {},
    "outputs": [],
@@ -181,64 +180,64 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 18,
    "id": "e3bdab93",
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "[==============================] 100% Epoch 1/50 - loss: 12.6405 -  - 0.07s\n",
-      "[==============================] 100% Epoch 2/50 - loss: 8.8913 -  - 0.04s\n",
-      "[==============================] 100% Epoch 3/50 - loss: 5.5905 -  - 0.03s\n",
-      "[==============================] 100% Epoch 4/50 - loss: 1.8309 -  - 0.03s\n",
-      "[==============================] 100% Epoch 5/50 - loss: 1.3206 -  - 0.03s\n",
-      "[==============================] 100% Epoch 6/50 - loss: 0.0618 -  - 0.03s\n",
-      "[==============================] 100% Epoch 7/50 - loss: 0.0073 -  - 0.04s\n",
-      "[==============================] 100% Epoch 8/50 - loss: 0.0071 -  - 0.03s\n",
-      "[==============================] 100% Epoch 9/50 - loss: 0.0077 -  - 0.03s\n",
-      "[==============================] 100% Epoch 10/50 - loss: 0.0088 -  - 0.03s\n",
-      "[==============================] 100% Epoch 11/50 - loss: 0.0137 -  - 0.03s\n",
-      "[==============================] 100% Epoch 12/50 - loss: 0.0133 -  - 0.03s\n",
-      "[==============================] 100% Epoch 13/50 - loss: 0.0125 -  - 0.03s\n",
-      "[==============================] 100% Epoch 14/50 - loss: 0.0065 -  - 0.03s\n",
-      "[==============================] 100% Epoch 15/50 - loss: 0.0057 -  - 0.03s\n",
-      "[==============================] 100% Epoch 16/50 - loss: 0.0051 -  - 0.03s\n",
-      "[==============================] 100% Epoch 17/50 - loss: 0.0045 -  - 0.03s\n",
-      "[==============================] 100% Epoch 18/50 - loss: 0.0040 -  - 0.03s\n",
-      "[==============================] 100% Epoch 19/50 - loss: 0.0036 -  - 0.03s\n",
-      "[==============================] 100% Epoch 20/50 - loss: 0.0033 -  - 0.04s\n",
-      "[==============================] 100% Epoch 21/50 - loss: 0.0030 -  - 0.04s\n",
-      "[==============================] 100% Epoch 22/50 - loss: 0.0027 -  - 0.03s\n",
-      "[==============================] 100% Epoch 23/50 - loss: 0.0025 -  - 0.03s\n",
-      "[==============================] 100% Epoch 24/50 - loss: 0.0023 -  - 0.03s\n",
-      "[==============================] 100% Epoch 25/50 - loss: 0.0021 -  - 0.04s\n",
-      "[==============================] 100% Epoch 26/50 - loss: 0.0020 -  - 0.04s\n",
-      "[==============================] 100% Epoch 27/50 - loss: 0.0018 -  - 0.03s\n",
-      "[==============================] 100% Epoch 28/50 - loss: 0.0017 -  - 0.04s\n",
-      "[==============================] 100% Epoch 29/50 - loss: 0.0017 -  - 0.06s\n",
-      "[==============================] 100% Epoch 30/50 - loss: 0.0018 -  - 0.03s\n",
-      "[==============================] 100% Epoch 31/50 - loss: 0.0020 -  - 0.03s\n",
-      "[==============================] 100% Epoch 32/50 - loss: 0.0024 -  - 0.03s\n",
-      "[==============================] 100% Epoch 33/50 - loss: 0.0030 -  - 0.03s\n",
-      "[==============================] 100% Epoch 34/50 - loss: 0.0086 -  - 0.03s\n",
-      "[==============================] 100% Epoch 35/50 - loss: 0.0030 -  - 0.03s\n",
-      "[==============================] 100% Epoch 36/50 - loss: 0.0030 -  - 0.03s\n",
-      "[==============================] 100% Epoch 37/50 - loss: 0.0079 -  - 0.03s\n",
-      "[==============================] 100% Epoch 38/50 - loss: 0.0032 -  - 0.03s\n",
-      "[==============================] 100% Epoch 39/50 - loss: 0.0035 -  - 0.03s\n",
-      "[==============================] 100% Epoch 40/50 - loss: 0.0043 -  - 0.04s\n",
-      "[==============================] 100% Epoch 41/50 - loss: 0.0093 -  - 0.03s\n",
-      "[==============================] 100% Epoch 42/50 - loss: 0.0043 -  - 0.03s\n",
-      "[==============================] 100% Epoch 43/50 - loss: 0.0042 -  - 0.03s\n",
-      "[==============================] 100% Epoch 44/50 - loss: 0.0044 -  - 0.03s\n",
-      "[==============================] 100% Epoch 45/50 - loss: 0.0047 -  - 0.03s\n",
-      "[==============================] 100% Epoch 46/50 - loss: 0.0093 -  - 0.03s\n",
-      "[==============================] 100% Epoch 47/50 - loss: 0.0039 -  - 0.03s\n",
-      "[==============================] 100% Epoch 48/50 - loss: 0.0034 -  - 0.03s\n",
-      "[==============================] 100% Epoch 49/50 - loss: 0.0032 -  - 0.04s\n",
-      "[==============================] 100% Epoch 50/50 - loss: 0.0030 -  - 0.04s\n",
+      "[==============================] 100% Epoch 1/50 - loss: 13.4469 -  - 0.47s\n",
+      "[==============================] 100% Epoch 2/50 - loss: 11.0863 -  - 0.47s\n",
+      "[==============================] 100% Epoch 3/50 - loss: 5.6369 -  - 0.45s\n",
+      "[==============================] 100% Epoch 4/50 - loss: 3.0461 -  - 0.47s\n",
+      "[==============================] 100% Epoch 5/50 - loss: 1.0563 -  - 0.47s\n",
+      "[==============================] 100% Epoch 6/50 - loss: 0.0950 -  - 0.47s\n",
+      "[==============================] 100% Epoch 7/50 - loss: 0.0527 -  - 0.48s\n",
+      "[==============================] 100% Epoch 8/50 - loss: 0.0339 -  - 0.48s\n",
+      "[==============================] 100% Epoch 9/50 - loss: 0.0211 -  - 0.46s\n",
+      "[==============================] 100% Epoch 10/50 - loss: 0.0163 -  - 0.46s\n",
+      "[==============================] 100% Epoch 11/50 - loss: 0.0121 -  - 0.47s\n",
+      "[==============================] 100% Epoch 12/50 - loss: 0.0085 -  - 0.47s\n",
+      "[==============================] 100% Epoch 13/50 - loss: 0.0055 -  - 0.47s\n",
+      "[==============================] 100% Epoch 14/50 - loss: 0.0044 -  - 0.46s\n",
+      "[==============================] 100% Epoch 15/50 - loss: 0.0047 -  - 0.46s\n",
+      "[==============================] 100% Epoch 16/50 - loss: 0.0053 -  - 0.45s\n",
+      "[==============================] 100% Epoch 17/50 - loss: 0.0060 -  - 0.47s\n",
+      "[==============================] 100% Epoch 18/50 - loss: 0.0069 -  - 0.45s\n",
+      "[==============================] 100% Epoch 19/50 - loss: 0.0079 -  - 0.47s\n",
+      "[==============================] 100% Epoch 20/50 - loss: 0.0090 -  - 0.46s\n",
+      "[==============================] 100% Epoch 21/50 - loss: 0.0102 -  - 0.46s\n",
+      "[==============================] 100% Epoch 22/50 - loss: 0.0118 -  - 0.51s\n",
+      "[==============================] 100% Epoch 23/50 - loss: 0.0164 -  - 0.50s\n",
+      "[==============================] 100% Epoch 24/50 - loss: 0.0209 -  - 0.49s\n",
+      "[==============================] 100% Epoch 25/50 - loss: 0.0248 -  - 0.53s\n",
+      "[==============================] 100% Epoch 26/50 - loss: 0.0269 -  - 0.54s\n",
+      "[==============================] 100% Epoch 27/50 - loss: 0.0124 -  - 0.56s\n",
+      "[==============================] 100% Epoch 28/50 - loss: 0.0110 -  - 0.53s\n",
+      "[==============================] 100% Epoch 29/50 - loss: 0.0099 -  - 0.49s\n",
+      "[==============================] 100% Epoch 30/50 - loss: 0.0089 -  - 0.48s\n",
+      "[==============================] 100% Epoch 31/50 - loss: 0.0077 -  - 0.52s\n",
+      "[==============================] 100% Epoch 32/50 - loss: 0.0066 -  - 0.55s\n",
+      "[==============================] 100% Epoch 33/50 - loss: 0.0053 -  - 0.55s\n",
+      "[==============================] 100% Epoch 34/50 - loss: 0.0040 -  - 0.50s\n",
+      "[==============================] 100% Epoch 35/50 - loss: 0.0036 -  - 0.50s\n",
+      "[==============================] 100% Epoch 36/50 - loss: 0.0036 -  - 0.49s\n",
+      "[==============================] 100% Epoch 37/50 - loss: 0.0035 -  - 0.49s\n",
+      "[==============================] 100% Epoch 38/50 - loss: 0.0034 -  - 0.53s\n",
+      "[==============================] 100% Epoch 39/50 - loss: 0.0033 -  - 0.54s\n",
+      "[==============================] 100% Epoch 40/50 - loss: 0.0032 -  - 0.50s\n",
+      "[==============================] 100% Epoch 41/50 - loss: 0.0031 -  - 0.49s\n",
+      "[==============================] 100% Epoch 42/50 - loss: 0.0029 -  - 0.49s\n",
+      "[==============================] 100% Epoch 43/50 - loss: 0.0028 -  - 0.52s\n",
+      "[==============================] 100% Epoch 44/50 - loss: 0.0026 -  - 0.54s\n",
+      "[==============================] 100% Epoch 45/50 - loss: 0.0025 -  - 0.56s\n",
+      "[==============================] 100% Epoch 46/50 - loss: 0.0023 -  - 0.48s\n",
+      "[==============================] 100% Epoch 47/50 - loss: 0.0022 -  - 0.48s\n",
+      "[==============================] 100% Epoch 48/50 - loss: 0.0021 -  - 0.51s\n",
+      "[==============================] 100% Epoch 49/50 - loss: 0.0021 -  - 0.51s\n",
+      "[==============================] 100% Epoch 50/50 - loss: 0.0020 -  - 0.56s\n",
       "\n"
      ]
     }
@@ -247,14 +246,14 @@
     "history = model.fit(\n",
     "    x_train_padded, y_train_padded,\n",
     "    epochs=50,\n",
-    "    batch_size=5,\n",
+    "    batch_size=2,\n",
     "    verbose=True\n",
     ")"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 19,
    "id": "c1dc335b",
    "metadata": {},
    "outputs": [
@@ -263,21 +262,21 @@
      "output_type": "stream",
      "text": [
       "FR: je suis heureux.\n",
-      "EN: goodbye goodbye goodbye goodbye\n",
+      "EN: you cats cats\n",
       "\n",
       "FR: comment allez-vous ?\n",
-      "EN: goodbye goodbye goodbye goodbye\n",
+      "EN: you cats cats\n",
       "\n",
       "FR: bonjour le monde.\n",
-      "EN: goodbye goodbye goodbye goodbye\n",
+      "EN: you cats cats\n",
       "\n"
      ]
     }
    ],
    "source": [
     "def translate(sentence: str, model, fr_tokenizer, en_tokenizer) -> str:\n",
     "    tokens = fr_tokenizer.texts_to_sequences([sentence], preprocess_ponctuation=True)[0]\n",
-    "    tokens = [model.SOS_IDX] + [t + 4 for t in tokens] + [model.EOS_IDX]  # Shift indices by 4\n",
+    "    tokens = [model.SOS_IDX] + tokens + [model.EOS_IDX]\n",
     "    padded = pad_sequences([tokens], max_length=max_len_x, padding='post', pad_value=model.PAD_IDX)\n",
     "    \n",
     "    pred = model.predict(padded, max_length=max_seq_len)[0]\n",