issue656_fix_attempt_1

P-Courteille · P-Courteille · commit d73691a0096c · 2025-07-12T00:02:05.000+02:00
diff --git a/packages/ocr-service/src/commands/ocrClickOnText.ts b/packages/ocr-service/src/commands/ocrClickOnText.ts
@@ -3,8 +3,22 @@ import { determineClickPoint } from '../utils/index.js'
 import type { OcrClickOnTextOptions } from '../types.js'
 import { drawTarget } from '../utils/imageProcessing.js'
 
-export default async function ocrClickOnText(this: WebdriverIO.Browser, options: OcrClickOnTextOptions): Promise<void> {
-    const element = await ocrGetElementPositionByText.bind(this)(options)
+export default async function ocrClickOnText(this: WebdriverIO.Browser, options: OcrClickOnTextOptions): Promise<void>
+export default async function ocrClickOnText(browser: WebdriverIO.Browser, options: OcrClickOnTextOptions): Promise<void>
+export default async function ocrClickOnText(this: WebdriverIO.Browser | undefined, arg1: WebdriverIO.Browser | OcrClickOnTextOptions, arg2?: OcrClickOnTextOptions): Promise<void> {
+    let browserInstance: WebdriverIO.Browser
+    let options: OcrClickOnTextOptions
+    if (arg2 !== undefined) {
+        browserInstance = arg1 as WebdriverIO.Browser
+        options = arg2 as OcrClickOnTextOptions
+    } else {
+        if (this === undefined) {
+            throw new Error('ocrClickOnText must be called as a WebdriverIO browser command or with a browser instance as the first argument.')
+        }
+        browserInstance = this as WebdriverIO.Browser
+        options = arg1 as OcrClickOnTextOptions
+    }
+    const element = await ocrGetElementPositionByText(browserInstance, options)
     let { x, y } = determineClickPoint({ rectangles: element.dprPosition })
     const { relativePosition } = options
 
@@ -18,10 +32,10 @@ export default async function ocrClickOnText(this: WebdriverIO.Browser, options:
     // Draw a target on the image so a user can see where the click will happen
     await drawTarget({ filePath: element.filePath, targetX: x, targetY: y })
 
-    const actionType = this.isMobile ? 'touch' : 'mouse'
+    const actionType = browserInstance.isMobile ? 'touch' : 'mouse'
     const clickDuration = options.clickDuration ?? 500
 
-    await this
+    await browserInstance
         .action('pointer', {
             parameters: { pointerType: actionType }
         })
diff --git a/packages/ocr-service/src/commands/ocrGetElementPositionByText.ts b/packages/ocr-service/src/commands/ocrGetElementPositionByText.ts
@@ -5,10 +5,21 @@ import { fuzzyFind } from '../utils/fuzzySearch.js'
 
 const log = logger('@wdio/ocr-service:ocrGetElementPositionByText')
 
-export default async function ocrGetElementPositionByText(
-    this: WebdriverIO.Browser,
-    data: OcrGetElementPositionByTextOptions
-): Promise<OcrGetElementPositionByText> {
+export default async function ocrGetElementPositionByText(this: WebdriverIO.Browser, data: OcrGetElementPositionByTextOptions): Promise<OcrGetElementPositionByText>
+export default async function ocrGetElementPositionByText(browser: WebdriverIO.Browser, data: OcrGetElementPositionByTextOptions): Promise<OcrGetElementPositionByText>
+export default async function ocrGetElementPositionByText(this: WebdriverIO.Browser | undefined, arg1: WebdriverIO.Browser | OcrGetElementPositionByTextOptions, arg2?: OcrGetElementPositionByTextOptions): Promise<OcrGetElementPositionByText> {
+    let browserInstance: WebdriverIO.Browser
+    let data: OcrGetElementPositionByTextOptions
+    if (arg2 !== undefined) {
+        browserInstance = arg1 as WebdriverIO.Browser
+        data = arg2
+    } else {
+        if (this === undefined) {
+            throw new Error('ocrGetElementPositionByText must be called as a WebdriverIO browser command or with a browser instance as the first argument.')
+        }
+        browserInstance = this as WebdriverIO.Browser
+        data = arg1 as OcrGetElementPositionByTextOptions
+    }
     const {
         contrast,
         haystack,
@@ -18,7 +29,7 @@ export default async function ocrGetElementPositionByText(
         ocrImagesPath,
         text,
     } = data
-    const textPositions = await getTextPositions(this, {
+    const textPositions = await getTextPositions(browserInstance, {
         contrast,
         haystack,
         isTesseractAvailable,
diff --git a/packages/ocr-service/src/commands/ocrGetText.ts b/packages/ocr-service/src/commands/ocrGetText.ts
@@ -1,8 +1,21 @@
 import getData from '../utils/getData.js'
 import type { OcrGetTextOptions } from '../types.js'
 
-export default async function ocrGetText(this: WebdriverIO.Browser, options: OcrGetTextOptions): Promise<string> {
-    const { text } = await getData(this, options)
-
+export default async function ocrGetText(this: WebdriverIO.Browser, options: OcrGetTextOptions): Promise<string>
+export default async function ocrGetText(browser: WebdriverIO.Browser, options: OcrGetTextOptions): Promise<string>
+export default async function ocrGetText(this: WebdriverIO.Browser | undefined, arg1: WebdriverIO.Browser | OcrGetTextOptions, arg2?: OcrGetTextOptions): Promise<string> {
+    let browserInstance: WebdriverIO.Browser
+    let options: OcrGetTextOptions
+    if (arg2 !== undefined) {
+        browserInstance = arg1 as WebdriverIO.Browser
+        options = arg2
+    } else {
+        if (this === undefined) {
+            throw new Error('ocrGetText must be called as a WebdriverIO browser command or with a browser instance as the first argument.')
+        }
+        browserInstance = this as WebdriverIO.Browser
+        options = arg1 as OcrGetTextOptions
+    }
+    const { text } = await getData(browserInstance, options)
     return text.replace(/\n\s*\n/g, '\n')
-}
+}
diff --git a/packages/ocr-service/src/commands/ocrSetValue.ts b/packages/ocr-service/src/commands/ocrSetValue.ts
@@ -2,7 +2,21 @@ import type { OcrSetValueOptions } from '../types.js'
 import sendKeys from '../utils/sendKeys.js'
 import ocrClickOnText from './ocrClickOnText.js'
 
-export default async function ocrSetValue(this: WebdriverIO.Browser, options: OcrSetValueOptions): Promise<void> {
+export default async function ocrSetValue(this: WebdriverIO.Browser, options: OcrSetValueOptions): Promise<void>
+export default async function ocrSetValue(browser: WebdriverIO.Browser, options: OcrSetValueOptions): Promise<void>
+export default async function ocrSetValue(this: WebdriverIO.Browser | undefined, arg1: WebdriverIO.Browser | OcrSetValueOptions, arg2?: OcrSetValueOptions): Promise<void> {
+    let browserInstance: WebdriverIO.Browser
+    let options: OcrSetValueOptions
+    if (arg2 !== undefined) {
+        browserInstance = arg1 as WebdriverIO.Browser
+        options = arg2
+    } else {
+        if (this === undefined) {
+            throw new Error('ocrSetValue must be called as a WebdriverIO browser command or with a browser instance as the first argument.')
+        }
+        browserInstance = this as WebdriverIO.Browser
+        options = arg1 as OcrSetValueOptions
+    }
     const {
         contrast,
         clickDuration,
@@ -17,7 +31,7 @@ export default async function ocrSetValue(this: WebdriverIO.Browser, options: Oc
     } = options
 
     // 1. First click on the position of the text to make sure it is intractable
-    await ocrClickOnText.bind(this)({
+    await ocrClickOnText(browserInstance, {
         contrast,
         clickDuration,
         haystack,
@@ -29,25 +43,25 @@ export default async function ocrSetValue(this: WebdriverIO.Browser, options: Oc
     })
 
     // 2. If Mobile then a keyboard might be shown
-    if (this.isMobile) {
+    if (browserInstance.isMobile) {
         try {
             // Wait for 3 seconds for the keyboard to be shown
-            await this.waitUntil(
-                async () => this.isKeyboardShown(),
+            await browserInstance.waitUntil(
+                async () => browserInstance.isKeyboardShown(),
                 { timeout: 3 * 1000 })
         } catch (_ign) {
             // Keyboard is not shown
         }
     }
     // 3. Send the value to the active element
-    await sendKeys(this, value, submitValue)
+    await sendKeys(browserInstance, value, submitValue)
 
     // 4. If Mobile then hide the keyboard
-    if (this.isMobile) {
+    if (browserInstance.isMobile) {
         try {
-            await this.hideKeyboard()
-            await this.waitUntil(
-                async () => !(await this.isKeyboardShown()),
+            await browserInstance.hideKeyboard()
+            await browserInstance.waitUntil(
+                async () => !(await browserInstance.isKeyboardShown()),
                 { timeout: 3 * 1000 })
         } catch (_ign) {
             // Keyboard is not present or not hidden
diff --git a/packages/ocr-service/src/commands/ocrWaitForTextDisplayed.ts b/packages/ocr-service/src/commands/ocrWaitForTextDisplayed.ts
@@ -1,14 +1,28 @@
-import type { OcrWaitForTextDisplayedOptions } from '../types.js'
+import type { OcrWaitForTextDisplayedOptions, OcrGetElementPositionByText } from '../types.js'
 import ocrGetElementPositionByText from './ocrGetElementPositionByText.js'
 
-export default async function ocrWaitForTextDisplayed(
-    this: WebdriverIO.Browser,
-    options: OcrWaitForTextDisplayedOptions
-) {
+export default async function ocrWaitForTextDisplayed(this: WebdriverIO.Browser, options: OcrWaitForTextDisplayedOptions): Promise<OcrGetElementPositionByText>
+export default async function ocrWaitForTextDisplayed(browser: WebdriverIO.Browser, options: OcrWaitForTextDisplayedOptions): Promise<OcrGetElementPositionByText>
+export default async function ocrWaitForTextDisplayed(this: WebdriverIO.Browser | undefined, arg1: WebdriverIO.Browser | OcrWaitForTextDisplayedOptions, arg2?: OcrWaitForTextDisplayedOptions): Promise<OcrGetElementPositionByText> {
+    let browserInstance: WebdriverIO.Browser
+    let options: OcrWaitForTextDisplayedOptions
+    if (arg2 !== undefined) {
+        browserInstance = arg1 as WebdriverIO.Browser
+        options = arg2 as OcrWaitForTextDisplayedOptions
+    } else {
+        if (this === undefined) {
+            throw new Error('ocrWaitForTextDisplayed must be called as a WebdriverIO browser command or with a browser instance as the first argument.')
+        }
+        browserInstance = this as WebdriverIO.Browser
+        options = arg1 as OcrWaitForTextDisplayedOptions
+    }
     const { timeout, timeoutMsg } = options
 
-    return this.waitUntil(
-        async () =>  ocrGetElementPositionByText.bind(this)(options),
+    return browserInstance.waitUntil(
+        async () => {
+            // Pass browserInstance directly as the first argument
+            return ocrGetElementPositionByText(browserInstance, options)
+        },
         {
             timeout: timeout || 180000,
             timeoutMsg: timeoutMsg || `Could not find the text "${options.text}" within the requested time.`,
diff --git a/packages/ocr-service/src/service.ts b/packages/ocr-service/src/service.ts
@@ -1,5 +1,4 @@
 import logger from '@wdio/logger'
-import type { Capabilities } from '@wdio/types'
 import { isSystemTesseractAvailable } from './utils/tesseract.js'
 import { CONTRAST, DEFAULT_IMAGES_FOLDER, SUPPORTED_LANGUAGES } from './utils/constants.js'
 import { createOcrDir } from './utils/index.js'
@@ -9,26 +8,31 @@ import ocrGetElementPositionByText from './commands/ocrGetElementPositionByText.
 import ocrWaitForTextDisplayed from './commands/ocrWaitForTextDisplayed.js'
 import ocrClickOnText from './commands/ocrClickOnText.js'
 import ocrSetValue from './commands/ocrSetValue.js'
+import type { OcrGetTextOptions, OcrGetElementPositionByTextOptions, OcrWaitForTextDisplayedOptions, OcrClickOnTextOptions, OcrSetValueOptions } from './types.js'
 
-const log = logger('@wdio/ocr-service')
-const ocrCommands = {
-    ocrGetText,
-    ocrGetElementPositionByText,
-    ocrWaitForTextDisplayed,
-    ocrClickOnText,
-    ocrSetValue,
+const ocrCommands: {
+    [key: string]: (context: any, options: any) => Promise<any>
+} = {
+    'ocrGetText': async (context, options) => ocrGetText(context, options as OcrGetTextOptions),
+    'ocrGetElementPositionByText': async (context, options) => ocrGetElementPositionByText(context, options as OcrGetElementPositionByTextOptions),
+    'ocrWaitForTextDisplayed': async (context, options) => ocrWaitForTextDisplayed(context, options as OcrWaitForTextDisplayedOptions),
+    'ocrClickOnText': async (context, options) => ocrClickOnText(context, options as OcrClickOnTextOptions),
+    'ocrSetValue': async (context, options) => ocrSetValue(context, options as OcrSetValueOptions),
 }
 
+const log = logger('@wdio/ocr-service')
+
 export default class WdioOcrService {
-    private _browser?: WebdriverIO.Browser | WebdriverIO.MultiRemoteBrowser
     private _ocrDir: string
     private _ocrLanguage: string
     private _ocrContrast: number
+    private _isTesseractAvailable: boolean
 
     constructor(options: OcrOptions) {
         this._ocrDir = createOcrDir(options?.imagesFolder || DEFAULT_IMAGES_FOLDER)
-        this._ocrLanguage = options?.language || SUPPORTED_LANGUAGES.ENGLISH
         this._ocrContrast = options?.contrast || CONTRAST
+        this._ocrLanguage = options?.language || SUPPORTED_LANGUAGES.ENGLISH
+        this._isTesseractAvailable = isSystemTesseractAvailable()
     }
 
     /**
@@ -43,76 +47,44 @@ export default class WdioOcrService {
         _specs: string[],
         browser: WebdriverIO.Browser | WebdriverIO.MultiRemoteBrowser
     ) {
-        this._browser = browser
-
-        if (!this._browser.isMultiremote) {
-            log.info('Adding commands to global browser')
-            await this.#addCommandsToBrowser(this._browser)
-        } else {
-            await this.#extendMultiremoteBrowser(capabilities as Capabilities.RequestedMultiremoteCapabilities)
-        }
-    }
-
-    async #extendMultiremoteBrowser (capabilities: Capabilities.RequestedMultiremoteCapabilities) {
-        const browser = this._browser as WebdriverIO.MultiRemoteBrowser
-        const browserNames = Object.keys(capabilities)
         const self = this
-        log.info(`Adding commands to Multi Browser: ${browserNames.join(', ')}`)
-
-        for (const browserName of browserNames) {
-            const multiremoteBrowser = browser as WebdriverIO.MultiRemoteBrowser
-            const browserInstance = multiremoteBrowser.getInstance(browserName)
-            await this.#addCommandsToBrowser(browserInstance)
-        }
-
+        const browserNames = Object.keys(capabilities)
         /**
-         * Add all OCR commands to the global browser object that will execute
-         * on each browser in the Multi Remote.
+         * Add all OCR commands to the browser object and instances
          */
-        for (const command of Object.keys(ocrCommands)) {
-            browser.addCommand(command, async function (...args: unknown[]) {
-                const returnData: Record<string, any> = {}
-
+        for (const commandName of Object.keys(ocrCommands)) {
+            log.info(`Adding browser command "${commandName}" to browser object`)
+            browser.addCommand(commandName, async function (
+                this: WebdriverIO.Browser | WebdriverIO.MultiRemoteBrowser,
+                ...args: unknown[]
+            ) {
                 if (typeof args[0] === 'object' && args[0] !== null) {
                     const options = args[0] as Record<string, any>
+                    options.ocrImagesPath = options?.imagesFolder || self._ocrDir
                     options.contrast = options?.contrast || self._ocrContrast
+                    options.language = options?.language || self._ocrLanguage
+                    options.isTesseractAvailable = self._isTesseractAvailable
                     args[0] = options
                 }
-
-                for (const browserName of browserNames) {
-                    const multiremoteBrowser = browser as WebdriverIO.MultiRemoteBrowser
-                    const browserInstance = multiremoteBrowser.getInstance(browserName) as WebdriverIO.Browser & Record<string, any>
-
-                    if (typeof browserInstance[command] === 'function') {
-                        returnData[browserName] = await browserInstance[command].apply(browserInstance, args)
-                    } else {
-                        throw new Error(`Command ${command} is not a function on the browser instance ${browserName}`)
+                if (this.isMultiremote){
+                    const returnData: Record<string, any> = {}
+                    for (const browserName of browserNames) {
+                        const multiremoteBrowser = browser as WebdriverIO.MultiRemoteBrowser
+                        const browserInstance = multiremoteBrowser.getInstance(browserName) as WebdriverIO.Browser & Record<string, any>
+                        if (typeof browserInstance[commandName] === 'function') {
+                            returnData[browserName] = await browserInstance[commandName].call(browserInstance, args[0])
+                        } else {
+                            throw new Error(`Command ${commandName} is not a function on the browser instance ${browserName}`)
+                        }
                     }
+                    return returnData
                 }
-
-                return returnData
-            })
-        }
-    }
-
-    async #addCommandsToBrowser(currentBrowser: WebdriverIO.Browser) {
-        const isTesseractAvailable = isSystemTesseractAvailable()
-        const self = this
-
-        for (const [commandName, command] of Object.entries(ocrCommands)) {
-            log.info(`Adding browser command "${commandName}" to browser object`)
-            currentBrowser.addCommand(
-                commandName,
-                function (this: typeof currentBrowser, options) {
-                    return command.bind(this)({
-                        ...options,
-                        contrast: options?.contrast || self._ocrContrast,
-                        isTesseractAvailable,
-                        language: options?.language || self._ocrLanguage,
-                        ocrImagesPath: self._ocrDir,
-                    })
+                const handler = ocrCommands[commandName]
+                if (handler) {
+                    return await handler(this, args[0])
                 }
-            )
+                throw new Error(`Command ${commandName} is not a function of browser.`)
+            })
         }
     }
 }
diff --git a/pnpm-lock.yaml b/pnpm-lock.yaml
diff --git a/scripts/update.packages.mjs b/scripts/update.packages.mjs