Add pdf text position

gabriel-piles · gabriel-piles · commit bcc5bd5a6eaf · 2025-10-16T16:15:35.000+02:00
diff --git a/requirements.txt b/requirements.txt
@@ -26,4 +26,4 @@ latex2mathml==3.78.0
 PyMuPDF==1.25.5
 ollama==0.6.0
 cachetools==6.2.1
-git+https://github.com/huridocs/pdf-features.git@2025.10.13.3
+git+https://github.com/huridocs/pdf-features.git@2025.10.16.3
diff --git a/src/app.py b/src/app.py
@@ -10,6 +10,8 @@
 import subprocess
 import json
 
+from use_cases.pdf_analysis.get_pdf_word_positions import get_pdf_word_positions
+
 if RESTART_IF_NO_GPU:
     if not torch.cuda.is_available():
         raise RuntimeError("No GPU available. Restarting the service is required.")
@@ -49,6 +51,12 @@ async def analyze_pdf(file: UploadFile = File(...), fast: bool = Form(False), pa
     )
 
 
+@app.post("/word_positions")
+@catch_exceptions
+async def word_positions(file: UploadFile = File(...)):
+    return await run_in_threadpool(get_pdf_word_positions, file.file.read())
+
+
 @app.post("/save_xml/{xml_file_name}")
 @catch_exceptions
 async def analyze_and_save_xml(xml_file_name: str, file: UploadFile = File(...), fast: bool = Form(False)):
diff --git a/src/drivers/web/dependency_injection.py b/src/drivers/web/dependency_injection.py
@@ -11,6 +11,7 @@
 from adapters.infrastructure.html_conversion_service_adapter import HtmlConversionServiceAdapter
 from adapters.web.fastapi_controllers import FastAPIControllers
 from use_cases.pdf_analysis.analyze_pdf_use_case import AnalyzePDFUseCase
+from use_cases.pdf_analysis.get_pdf_word_positions import get_pdf_word_positions
 from use_cases.text_extraction.extract_text_use_case import ExtractTextUseCase
 from use_cases.toc_extraction.extract_toc_use_case import ExtractTOCUseCase
 from use_cases.visualization.create_visualization_use_case import CreateVisualizationUseCase
diff --git a/src/tests/test_end_to_end.py b/src/tests/test_end_to_end.py
@@ -199,6 +199,19 @@ def test_toc(self):
             self.assertEqual(response_json[-1]["label"], "C. TITLE LONGER")
             self.assertEqual(response_json[-1]["indentation"], 2)
 
+    def test_word_positions(self):
+        with open(f"{ROOT_PATH}/test_pdfs/regular.pdf", "rb") as stream:
+            files = {"file": stream}
+
+            response = requests.post(f"{self.service_url}/word_positions", files=files)
+
+            response_json = response.json()
+            self.assertEqual(response.status_code, 200)
+            self.assertGreater(len(response_json), 50)
+
+            page_numbers = set(word["page_number"] for word in response_json)
+            self.assertEqual(len(page_numbers), 2)
+
     def test_toc_fast(self):
         with open(f"{ROOT_PATH}/test_pdfs/toc-test.pdf", "rb") as stream:
             files = {"file": stream}
diff --git a/src/use_cases/pdf_analysis/get_pdf_word_positions.py b/src/use_cases/pdf_analysis/get_pdf_word_positions.py
@@ -0,0 +1,16 @@
+import tempfile
+import os
+from pdf_features.PdfTextPosition import PdfTextPosition
+from pdf_features.PdfWord import PdfWord
+
+
+def get_pdf_word_positions(file_content: bytes) -> list[PdfWord]:
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
+        tmp_file.write(file_content)
+        tmp_path = tmp_file.name
+
+    try:
+        pdf_text_position = PdfTextPosition(tmp_path)
+        return pdf_text_position.get_all_pdf_words()
+    finally:
+        os.unlink(tmp_path)