Get docling fixes onto main (#258)

jkwatson · web-flow · commit d04759d87231 · 2025-07-08T11:27:15.000-07:00
* use the hybrid chunker for docling to improve chunk sizes

* update docling to fix concurrency issue

* fix imports
diff --git a/llm-service/app/ai/indexing/readers/docling_reader.py b/llm-service/app/ai/indexing/readers/docling_reader.py
@@ -42,10 +42,8 @@
 
 from docling.datamodel.document import ConversionResult
 from docling.document_converter import DocumentConverter
-from docling_core.transforms.chunker.hierarchical_chunker import HierarchicalChunker
 from docling_core.transforms.chunker.base import BaseChunk
-from docling_core.transforms.serializer.base import SerializationResult
-from docling_core.transforms.serializer.markdown import MarkdownDocSerializer
+from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
 from llama_index.core.schema import Document, TextNode, NodeRelationship
 
 from .base_reader import BaseReader
@@ -67,20 +65,16 @@ def load_chunks(self, file_path: Path) -> ChunksResult:
         converted_chunks: List[TextNode] = []
         logger.debug(f"{file_path=}")
         docling_doc: ConversionResult = DocumentConverter().convert(file_path)
-        chunky_chunks = HierarchicalChunker(serializer_provider=MarkdownSerializerProvider()).chunk(docling_doc.document)
+        chunky_chunks = HybridChunker(serializer_provider=MarkdownSerializerProvider()).chunk(docling_doc.document)
         chunky_chunk: BaseChunk
-        serializer = MarkdownDocSerializer(doc=docling_doc.document)
         for i, chunky_chunk in enumerate(chunky_chunks):
-            text = ""
             page_number: int = 0
             if not hasattr(chunky_chunk.meta, "doc_items"):
                 logger.warning(f"Chunk {i} is empty, skipping")
                 continue
             for item in chunky_chunk.meta.doc_items:
                 page_number= item.prov[0].page_no if item.prov else None
-                item_ser: SerializationResult = serializer.serialize(item=item)
-                text += item_ser.text
-            node = TextNode(text=text)
+            node = TextNode(text=chunky_chunk.text)
             if page_number:
                 node.metadata["page_number"] = page_number
             node.metadata["file_name"] = document.metadata["file_name"]
diff --git a/llm-service/pyproject.toml b/llm-service/pyproject.toml
@@ -26,7 +26,7 @@ dependencies = [
     "torch>=2.5.1",
     "pillow>=10.4.0",
     "transformers>=4.46.3",
-    "docling>=2.15.0",
+    "docling>=2.40.0",
     "llvmlite==0.43.0",
     "llama-index-llms-bedrock-converse>=0.4.10",
     "presidio-analyzer>=2.2.355",
@@ -57,6 +57,7 @@ license = {text = "APACHE"}
 override-dependencies = [
     "boto3-stubs==1.36.1",
     "botocore-stubs==1.36.1",
+    "docling-ibm-models==3.7.0"
 ]
 
 [dependency-groups]
diff --git a/llm-service/uv.lock b/llm-service/uv.lock