docling-project · dimitri009 · May 30, 2025 · Jun 16, 2025 · Jun 16, 2025
diff --git a/.idea/.gitignore b/.idea/.gitignore
diff --git a/.idea/docling-ibm-models_slanet_1m.iml b/.idea/docling-ibm-models_slanet_1m.iml
diff --git a/.idea/inspectionProfiles/profiles_settings.xml b/.idea/inspectionProfiles/profiles_settings.xml
diff --git a/.idea/misc.xml b/.idea/misc.xml
diff --git a/.idea/modules.xml b/.idea/modules.xml
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
diff --git a/docling_ibm_models/slanet_1m/.gitignore b/docling_ibm_models/slanet_1m/.gitignore
@@ -0,0 +1,34 @@
+## Python
+
+# Environments
+.venv
+venv
+
+# Byte-compiled / optimized / DLL files
+__pycache__/
+
+# Pytest cache
+.pytest_cache
+
+# Pytest Coverage
+.coverage
+
+## IntelliJ's IDEs
+
+.idea
+
+## Visual Studio Code
+
+.vscode
+
+## macOS
+
+.DS_Store
+
+
+inference/
+inference_results/
+output/
+data/
+/data
+evaluation/
diff --git a/docling_ibm_models/slanet_1m/12_tables/12_table_1.jpg b/docling_ibm_models/slanet_1m/12_tables/12_table_1.jpg
diff --git a/docling_ibm_models/slanet_1m/12_tables/12_table_2.jpg b/docling_ibm_models/slanet_1m/12_tables/12_table_2.jpg
diff --git a/docling_ibm_models/slanet_1m/Fonts/ARIALN.TTF b/docling_ibm_models/slanet_1m/Fonts/ARIALN.TTF
diff --git a/docling_ibm_models/slanet_1m/Fonts/ARIALNB.TTF b/docling_ibm_models/slanet_1m/Fonts/ARIALNB.TTF
diff --git a/docling_ibm_models/slanet_1m/Fonts/ARIALNBI.TTF b/docling_ibm_models/slanet_1m/Fonts/ARIALNBI.TTF
diff --git a/docling_ibm_models/slanet_1m/Fonts/ARIALNI.TTF b/docling_ibm_models/slanet_1m/Fonts/ARIALNI.TTF
diff --git a/docling_ibm_models/slanet_1m/Fonts/arial.ttf b/docling_ibm_models/slanet_1m/Fonts/arial.ttf
diff --git a/docling_ibm_models/slanet_1m/Fonts/arialbd.ttf b/docling_ibm_models/slanet_1m/Fonts/arialbd.ttf
diff --git a/docling_ibm_models/slanet_1m/Fonts/arialbi.ttf b/docling_ibm_models/slanet_1m/Fonts/arialbi.ttf
diff --git a/docling_ibm_models/slanet_1m/Fonts/ariali.ttf b/docling_ibm_models/slanet_1m/Fonts/ariali.ttf
diff --git a/docling_ibm_models/slanet_1m/Fonts/ariblk.ttf b/docling_ibm_models/slanet_1m/Fonts/ariblk.ttf
diff --git a/docling_ibm_models/slanet_1m/README.md b/docling_ibm_models/slanet_1m/README.md
@@ -0,0 +1,19 @@
+# SLANet_1M
+
+- Install PaddlePaddle with CUDA 12.3
+
+  ```bash linenums="1"
+  python -m pip install paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/stable/cu123/
+  ```
+
+- Then 
+  ```bash linenums="1"
+  pip install -r requirements.txt
+  ```
+
+- To train: 
+  ```bash linenums="1"
+  python train.py -c configs/SLANet_1M.yml -o Global.use_amp=True Global.scale_loss=1024.0 Global.use_dynamic_loss_scaling=True
+  ```
+
+Pre-trained Model on PubTanNet + SynthTabNet can be found  [here](https://drive.google.com/drive/folders/1aIzP3a3Ci0n9hXD2j57Dq4uCfQlt8yoW?usp=drive_link)
diff --git a/docling_ibm_models/slanet_1m/__init__.py b/docling_ibm_models/slanet_1m/__init__.py
diff --git a/docling_ibm_models/slanet_1m/configs/SLANet_1M.yml b/docling_ibm_models/slanet_1m/configs/SLANet_1M.yml
@@ -0,0 +1,145 @@
+Global:
+  use_gpu: true
+  epoch_num: 50
+  log_smooth_window: 20
+  print_batch_step: 20
+  save_model_dir: ./output/SLANet_1M
+  save_epoch_step: 400
+  # evaluation is run every 1000 iterations after the 0th iteration
+  eval_batch_step: [0, 2000]
+  cal_metric_during_train: True
+  pretrained_model:
+  checkpoints:
+  save_inference_dir: ./output/SLANet_1M/infer
+  use_visualdl: False
+  infer_img:
+  # for data or label process
+  character_dict_path: dict/table_structure_dict.txt
+  character_type: en
+  max_text_length: &max_text_length 500
+  box_format: &box_format 'xyxy' # 'xywh', 'xyxy', 'xyxyxyxy'
+  infer_mode: False
+  use_sync_bn: True
+  save_res_path: 'output/infer'
+  d2s_train_image_shape: [3, -1, -1]
+  amp_custom_white_list: ['concat', 'elementwise_sub', 'set_value']
+
+Optimizer:
+  name: Adam
+  beta1: 0.9
+  beta2: 0.999
+  clip_norm: 5.0
+  lr:
+    name: Piecewise
+    learning_rate: 0.001
+    decay_epochs : [29, 39]
+    values : [0.001, 0.0001, 0.00005]
+  regularizer:
+    name: 'L2'
+    factor: 0.00000
+
+Architecture:
+  model_type: table
+  algorithm: SLANet
+  Backbone:
+    name: PPLCNet
+    scale: 1.0
+    pretrained: true
+    use_ssld: true
+  Neck:
+    name: CSPPAN
+    out_channels: 96
+  Head:
+    name: SLAHead
+    hidden_size: 256
+    max_text_length: *max_text_length
+    loc_reg_num: &loc_reg_num 4
+
+Loss:
+  name: SLALoss
+  structure_weight: 1.0
+  loc_weight: 2.0
+  loc_loss: smooth_l1
+
+PostProcess:
+  name: TableLabelDecode
+  merge_no_span_structure: &merge_no_span_structure True
+
+Metric:
+  name: TableMetric
+  main_indicator: acc
+  compute_bbox_metric: False
+  loc_reg_num: *loc_reg_num
+  box_format: *box_format
+
+Train:
+  dataset:
+    name: PubTabDataSet
+    data_dir: data/final_merged/train/
+    label_file_list: [data/final_merged/train_annotations.jsonl]
+    transforms:
+      - DecodeImage: # load image
+          img_mode: BGR
+          channel_first: False
+      - TableLabelEncode:
+          learn_empty_box: False
+          merge_no_span_structure: *merge_no_span_structure
+          replace_empty_cell_token: False
+          loc_reg_num: *loc_reg_num
+          max_text_length: *max_text_length
+      - TableBoxEncode:
+          in_box_format: *box_format
+          out_box_format: *box_format
+      - ResizeTableImage:
+          max_len: 488
+      - NormalizeImage:
+          scale: 1./255.
+          mean: [0.485, 0.456, 0.406]
+          std: [0.229, 0.224, 0.225]
+          order: 'hwc'
+      - PaddingTableImage:
+          size: [488, 488]
+      - ToCHWImage:
+      - KeepKeys:
+          keep_keys: ['image', 'structure', 'bboxes', 'bbox_masks', 'length', 'shape']
+  loader:
+    shuffle: True
+    batch_size_per_card: 72
+    drop_last: True
+    num_workers: 1
+
+Eval:
+  dataset:
+    name: PubTabDataSet
+    data_dir: data/final_merged/val/
+    label_file_list: [data/final_merged/val_annotations.jsonl]
+    transforms:
+      - DecodeImage: # load image
+          img_mode: BGR
+          channel_first: False
+      - TableLabelEncode:
+          learn_empty_box: False
+          merge_no_span_structure: *merge_no_span_structure
+          replace_empty_cell_token: False
+          loc_reg_num: *loc_reg_num
+          max_text_length: *max_text_length
+      - TableBoxEncode:
+          in_box_format: *box_format
+          out_box_format: *box_format
+      - ResizeTableImage:
+          max_len: 488
+      - NormalizeImage:
+          scale: 1./255.
+          mean: [0.485, 0.456, 0.406]
+          std: [0.229, 0.224, 0.225]
+          order: 'hwc'
+      - PaddingTableImage:
+          size: [488, 488]
+      - ToCHWImage:
+      - KeepKeys:
+          keep_keys: ['image', 'structure', 'bboxes', 'bbox_masks', 'length', 'shape']
+  loader:
+    shuffle: False
+    drop_last: False
+    batch_size_per_card: 72
+    num_workers: 1
diff --git a/docling_ibm_models/slanet_1m/dict/table_structure_dict.txt b/docling_ibm_models/slanet_1m/dict/table_structure_dict.txt
@@ -0,0 +1,28 @@
+<thead>
+<tr>
+<td>
+</td>
+</tr>
+</thead>
+<tbody>
+</tbody>
+<td
+ colspan="5"
+>
+ colspan="2"
+ colspan="3"
+ rowspan="2"
+ colspan="4"
+ colspan="6"
+ rowspan="3"
+ colspan="9"
+ colspan="10"
+ colspan="7"
+ rowspan="4"
+ rowspan="5"
+ rowspan="9"
+ colspan="8"
+ rowspan="8"
+ rowspan="6"
+ rowspan="7"
+ rowspan="10"
diff --git a/docling_ibm_models/slanet_1m/dict_table/en_dict.txt b/docling_ibm_models/slanet_1m/dict_table/en_dict.txt
@@ -0,0 +1,95 @@
+0
+1
+2
+3
+4
+5
+6
+7
+8
+9
+:
+;
+<
+=
+>
+?
+@
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+[
+\
+]
+^
+_
+`
+a
+b
+c
+d
+e
+f
+g
+h
+i
+j
+k
+l
+m
+n
+o
+p
+q
+r
+s
+t
+u
+v
+w
+x
+y
+z
+{
+|
+}
+~
+!
+"
+#
+$
+%
+&
+'
+(
+)
+*
++
+,
+-
+.
+/
+
-Original file line number
+Diff line change
@@ -0,0 +1,95 @@
+    :
+    ;
+    <
+    =
+    >
+    ?
+    @
+    A
+    B
+    C
+    D
+    E
+    F
+    G
+    H
+    I
+    J
+    K
+    L
+    M
+    N
+    O
+    P
+    Q
+    R
+    S
+    T
+    U
+    V
+    W
+    X
+    Y
+    Z
+    [
+    \
+    ]
+    ^
+    _
+    `
+    a
+    b
+    c
+    d
+    e
+    f
+    g
+    h
+    i
+    j
+    k
+    l
+    m
+    n
+    o
+    p
+    q
+    r
+    s
+    t
+    u
+    v
+    w
+    x
+    y
+    z
+    {
+    |
+    }
+    ~
+    !
+    "
+    #
+    $
+    %
+    &
+    '
+    (
+    )
+    *
+    +
+    ,
+    -
+    .
+    /