Node similarity formula

IoannisPanagiotas · IoannisPanagiotas · commit 1445d48ec8e2 · 2024-01-11T12:12:58.000+01:00
diff --git a/doc/modules/ROOT/images/nodesim-formulas/cos.svg b/doc/modules/ROOT/images/nodesim-formulas/cos.svg
@@ -0,0 +1,2 @@
+<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
+<svg xmlns="http://www.w3.org/2000/svg" width="295.224px" height="57.936px" viewBox="0 -1381 16311 3201" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" style=""><defs><path id="MJX-56-TEX-I-1D450" d="M34 159Q34 268 120 355T306 442Q362 442 394 418T427 355Q427 326 408 306T360 285Q341 285 330 295T319 325T330 359T352 380T366 386H367Q367 388 361 392T340 400T306 404Q276 404 249 390Q228 381 206 359Q162 315 142 235T121 119Q121 73 147 50Q169 26 205 26H209Q321 26 394 111Q403 121 406 121Q410 121 419 112T429 98T420 83T391 55T346 25T282 0T202 -11Q127 -11 81 37T34 159Z"></path><path id="MJX-56-TEX-I-1D45C" d="M201 -11Q126 -11 80 38T34 156Q34 221 64 279T146 380Q222 441 301 441Q333 441 341 440Q354 437 367 433T402 417T438 387T464 338T476 268Q476 161 390 75T201 -11ZM121 120Q121 70 147 48T206 26Q250 26 289 58T351 142Q360 163 374 216T388 308Q388 352 370 375Q346 405 306 405Q243 405 195 347Q158 303 140 230T121 120Z"></path><path id="MJX-56-TEX-I-1D460" d="M131 289Q131 321 147 354T203 415T300 442Q362 442 390 415T419 355Q419 323 402 308T364 292Q351 292 340 300T328 326Q328 342 337 354T354 372T367 378Q368 378 368 379Q368 382 361 388T336 399T297 405Q249 405 227 379T204 326Q204 301 223 291T278 274T330 259Q396 230 396 163Q396 135 385 107T352 51T289 7T195 -10Q118 -10 86 19T53 87Q53 126 74 143T118 160Q133 160 146 151T160 120Q160 94 142 76T111 58Q109 57 108 57T107 55Q108 52 115 47T146 34T201 27Q237 27 263 38T301 66T318 97T323 122Q323 150 302 164T254 181T195 196T148 231Q131 256 131 289Z"></path><path id="MJX-56-TEX-I-1D464" d="M580 385Q580 406 599 424T641 443Q659 443 674 425T690 368Q690 339 671 253Q656 197 644 161T609 80T554 12T482 -11Q438 -11 404 5T355 48Q354 47 352 44Q311 -11 252 -11Q226 -11 202 -5T155 14T118 53T104 116Q104 170 138 262T173 379Q173 380 173 381Q173 390 173 393T169 400T158 404H154Q131 404 112 385T82 344T65 302T57 280Q55 278 41 278H27Q21 284 21 287Q21 293 29 315T52 366T96 418T161 441Q204 441 227 416T250 358Q250 340 217 250T184 111Q184 65 205 46T258 26Q301 26 334 87L339 96V119Q339 122 339 128T340 136T341 143T342 152T345 165T348 182T354 206T362 238T373 281Q402 395 406 404Q419 431 449 431Q468 431 475 421T483 402Q483 389 454 274T422 142Q420 131 420 107V100Q420 85 423 71T442 42T487 26Q558 26 600 148Q609 171 620 213T632 273Q632 306 619 325T593 357T580 385Z"></path><path id="MJX-56-TEX-N-28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path><path id="MJX-56-TEX-I-1D434" d="M208 74Q208 50 254 46Q272 46 272 35Q272 34 270 22Q267 8 264 4T251 0Q249 0 239 0T205 1T141 2Q70 2 50 0H42Q35 7 35 11Q37 38 48 46H62Q132 49 164 96Q170 102 345 401T523 704Q530 716 547 716H555H572Q578 707 578 706L606 383Q634 60 636 57Q641 46 701 46Q726 46 726 36Q726 34 723 22Q720 7 718 4T704 0Q701 0 690 0T651 1T578 2Q484 2 455 0H443Q437 6 437 9T439 27Q443 40 445 43L449 46H469Q523 49 533 63L521 213H283L249 155Q208 86 208 74ZM516 260Q516 271 504 416T490 562L463 519Q447 492 400 412L310 260L413 259Q516 259 516 260Z"></path><path id="MJX-56-TEX-N-2C" d="M78 35T78 60T94 103T137 121Q165 121 187 96T210 8Q210 -27 201 -60T180 -117T154 -158T130 -185T117 -194Q113 -194 104 -185T95 -172Q95 -168 106 -156T131 -126T157 -76T173 -3V9L172 8Q170 7 167 6T161 3T152 1T140 0Q113 0 96 17Z"></path><path id="MJX-56-TEX-I-1D435" d="M231 637Q204 637 199 638T194 649Q194 676 205 682Q206 683 335 683Q594 683 608 681Q671 671 713 636T756 544Q756 480 698 429T565 360L555 357Q619 348 660 311T702 219Q702 146 630 78T453 1Q446 0 242 0Q42 0 39 2Q35 5 35 10Q35 17 37 24Q42 43 47 45Q51 46 62 46H68Q95 46 128 49Q142 52 147 61Q150 65 219 339T288 628Q288 635 231 637ZM649 544Q649 574 634 600T585 634Q578 636 493 637Q473 637 451 637T416 636H403Q388 635 384 626Q382 622 352 506Q352 503 351 500L320 374H401Q482 374 494 376Q554 386 601 434T649 544ZM595 229Q595 273 572 302T512 336Q506 337 429 337Q311 337 310 336Q310 334 293 263T258 122L240 52Q240 48 252 48T333 46Q422 46 429 47Q491 54 543 105T595 229Z"></path><path id="MJX-56-TEX-N-29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path><path id="MJX-56-TEX-N-3D" d="M56 347Q56 360 70 367H707Q722 359 722 347Q722 336 708 328L390 327H72Q56 332 56 347ZM56 153Q56 168 72 173H708Q722 163 722 153Q722 140 707 133H70Q56 140 56 153Z"></path><path id="MJX-56-TEX-LO-2211" d="M60 948Q63 950 665 950H1267L1325 815Q1384 677 1388 669H1348L1341 683Q1320 724 1285 761Q1235 809 1174 838T1033 881T882 898T699 902H574H543H251L259 891Q722 258 724 252Q725 250 724 246Q721 243 460 -56L196 -356Q196 -357 407 -357Q459 -357 548 -357T676 -358Q812 -358 896 -353T1063 -332T1204 -283T1307 -196Q1328 -170 1348 -124H1388Q1388 -125 1381 -145T1356 -210T1325 -294L1267 -449L666 -450Q64 -450 61 -448Q55 -446 55 -439Q55 -437 57 -433L590 177Q590 178 557 222T452 366T322 544L56 909L55 924Q55 945 60 948Z"></path><path id="MJX-56-TEX-I-1D456" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path><path id="MJX-56-TEX-I-1D6FC" d="M34 156Q34 270 120 356T309 442Q379 442 421 402T478 304Q484 275 485 237V208Q534 282 560 374Q564 388 566 390T582 393Q603 393 603 385Q603 376 594 346T558 261T497 161L486 147L487 123Q489 67 495 47T514 26Q528 28 540 37T557 60Q559 67 562 68T577 70Q597 70 597 62Q597 56 591 43Q579 19 556 5T512 -10H505Q438 -10 414 62L411 69L400 61Q390 53 370 41T325 18T267 -2T203 -11Q124 -11 79 39T34 156ZM208 26Q257 26 306 47T379 90L403 112Q401 255 396 290Q382 405 304 405Q235 405 183 332Q156 292 139 224T121 120Q121 71 146 49T208 26Z"></path><path id="MJX-56-TEX-N-22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path><path id="MJX-56-TEX-I-1D6FD" d="M29 -194Q23 -188 23 -186Q23 -183 102 134T186 465Q208 533 243 584T309 658Q365 705 429 705H431Q493 705 533 667T573 570Q573 465 469 396L482 383Q533 332 533 252Q533 139 448 65T257 -10Q227 -10 203 -2T165 17T143 40T131 59T126 65L62 -188Q60 -194 42 -194H29ZM353 431Q392 431 427 419L432 422Q436 426 439 429T449 439T461 453T472 471T484 495T493 524T501 560Q503 569 503 593Q503 611 502 616Q487 667 426 667Q384 667 347 643T286 582T247 514T224 455Q219 439 186 308T152 168Q151 163 151 147Q151 99 173 68Q204 26 260 26Q302 26 349 51T425 137Q441 171 449 214T457 279Q457 337 422 372Q380 358 347 358H337Q258 358 258 389Q258 396 261 403Q275 431 353 431Z"></path><path id="MJX-56-TEX-LO-221A" d="M1001 1150Q1017 1150 1020 1132Q1020 1127 741 244L460 -643Q453 -650 436 -650H424Q423 -647 423 -645T421 -640T419 -631T415 -617T408 -594T399 -560T385 -512T367 -448T343 -364T312 -259L203 119L138 41L111 67L212 188L264 248L472 -474L983 1140Q988 1150 1001 1150Z"></path><path id="MJX-56-TEX-SO-2211" d="M61 748Q64 750 489 750H913L954 640Q965 609 976 579T993 533T999 516H979L959 517Q936 579 886 621T777 682Q724 700 655 705T436 710H319Q183 710 183 709Q186 706 348 484T511 259Q517 250 513 244L490 216Q466 188 420 134T330 27L149 -187Q149 -188 362 -188Q388 -188 436 -188T506 -189Q679 -189 778 -162T936 -43Q946 -27 959 6H999L913 -249L489 -250Q65 -250 62 -248Q56 -246 56 -239Q56 -234 118 -161Q186 -81 245 -11L428 206Q428 207 242 462L57 717L56 728Q56 744 61 748Z"></path><path id="MJX-56-TEX-N-32" d="M109 429Q82 429 66 447T50 491Q50 562 103 614T235 666Q326 666 387 610T449 465Q449 422 429 383T381 315T301 241Q265 210 201 149L142 93L218 92Q375 92 385 97Q392 99 409 186V189H449V186Q448 183 436 95T421 3V0H50V19V31Q50 38 56 46T86 81Q115 113 136 137Q145 147 170 174T204 211T233 244T261 278T284 308T305 340T320 369T333 401T340 431T343 464Q343 527 309 573T212 619Q179 619 154 602T119 569T109 550Q109 549 114 549Q132 549 151 535T170 489Q170 464 154 447T109 429Z"></path><path id="MJX-56-TEX-N-2E" d="M78 60Q78 84 95 102T138 120Q162 120 180 104T199 61Q199 36 182 18T139 0T96 17T78 60Z"></path></defs><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="scale(1,-1)"><g data-mml-node="math"><g data-mml-node="mi"><use data-c="1D450" xlink:href="#MJX-56-TEX-I-1D450"></use></g><g data-mml-node="mi" transform="translate(433,0)"><use data-c="1D45C" xlink:href="#MJX-56-TEX-I-1D45C"></use></g><g data-mml-node="msub" transform="translate(918,0)"><g data-mml-node="mi"><use data-c="1D460" xlink:href="#MJX-56-TEX-I-1D460"></use></g><g data-mml-node="mi" transform="translate(502,-150) scale(0.707)"><use data-c="1D464" xlink:href="#MJX-56-TEX-I-1D464"></use></g></g><g data-mml-node="mo" transform="translate(1976.3,0)"><use data-c="28" xlink:href="#MJX-56-TEX-N-28"></use></g><g data-mml-node="mi" transform="translate(2365.3,0)"><use data-c="1D434" xlink:href="#MJX-56-TEX-I-1D434"></use></g><g data-mml-node="mo" transform="translate(3115.3,0)"><use data-c="2C" xlink:href="#MJX-56-TEX-N-2C"></use></g><g data-mml-node="mi" transform="translate(3560,0)"><use data-c="1D435" xlink:href="#MJX-56-TEX-I-1D435"></use></g><g data-mml-node="mo" transform="translate(4319,0)"><use data-c="29" xlink:href="#MJX-56-TEX-N-29"></use></g><g data-mml-node="mo" transform="translate(4985.7,0)"><use data-c="3D" xlink:href="#MJX-56-TEX-N-3D"></use></g><g data-mml-node="munder" transform="translate(6041.5,0)"><g data-mml-node="mo"><use data-c="2211" xlink:href="#MJX-56-TEX-LO-2211"></use></g><g data-mml-node="TeXAtom" transform="translate(600,-1084.4) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g><g data-mml-node="mstyle" transform="translate(7652.2,0)"><g data-mml-node="mfrac"><g data-mml-node="mrow" transform="translate(2899.2,676)"><g data-mml-node="msub"><g data-mml-node="mi"><use data-c="1D6FC" xlink:href="#MJX-56-TEX-I-1D6FC"></use></g><g data-mml-node="mi" transform="translate(673,-150) scale(0.707)"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g><g data-mml-node="mo" transform="translate(1189.2,0)"><use data-c="22C5" xlink:href="#MJX-56-TEX-N-22C5"></use></g><g data-mml-node="msub" transform="translate(1689.4,0)"><g data-mml-node="mi"><use data-c="1D6FD" xlink:href="#MJX-56-TEX-I-1D6FD"></use></g><g data-mml-node="mi" transform="translate(599,-150) scale(0.707)"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g><g data-mml-node="mrow" transform="translate(220,-1249)"><g data-mml-node="msqrt"><g transform="translate(1020,0)"><g data-mml-node="munder"><g data-mml-node="mo"><use data-c="2211" xlink:href="#MJX-56-TEX-SO-2211"></use></g><g data-mml-node="TeXAtom" transform="translate(1089,-285.4) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g><g data-mml-node="msubsup" transform="translate(1549.6,0)"><g data-mml-node="mi"><use data-c="1D6FC" xlink:href="#MJX-56-TEX-I-1D6FC"></use></g><g data-mml-node="mn" transform="translate(673,353.6) scale(0.707)"><use data-c="32" xlink:href="#MJX-56-TEX-N-32"></use></g><g data-mml-node="TeXAtom" transform="translate(673,-293.8) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g></g><g data-mml-node="mo" transform="translate(0,79)"><use data-c="221A" xlink:href="#MJX-56-TEX-LO-221A"></use></g><rect width="2626.2" height="60" x="1020" y="1169"></rect></g><g data-mml-node="mo" transform="translate(3868.4,0)"><use data-c="22C5" xlink:href="#MJX-56-TEX-N-22C5"></use></g><g data-mml-node="msqrt" transform="translate(4368.6,0)"><g transform="translate(1020,0)"><g data-mml-node="munder"><g data-mml-node="mo"><use data-c="2211" xlink:href="#MJX-56-TEX-SO-2211"></use></g><g data-mml-node="TeXAtom" transform="translate(1089,-285.4) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g><g data-mml-node="msubsup" transform="translate(1549.6,0)"><g data-mml-node="mi"><use data-c="1D6FD" xlink:href="#MJX-56-TEX-I-1D6FD"></use></g><g data-mml-node="mn" transform="translate(599,353.6) scale(0.707)"><use data-c="32" xlink:href="#MJX-56-TEX-N-32"></use></g><g data-mml-node="TeXAtom" transform="translate(599,-293.8) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><use data-c="1D456" xlink:href="#MJX-56-TEX-I-1D456"></use></g></g></g></g><g data-mml-node="mo" transform="translate(0,79)"><use data-c="221A" xlink:href="#MJX-56-TEX-LO-221A"></use></g><rect width="2552.2" height="60" x="1020" y="1169"></rect></g></g><rect width="8140.8" height="60" x="120" y="220"></rect></g></g><g data-mml-node="mo" transform="translate(16033,0)"><use data-c="2E" xlink:href="#MJX-56-TEX-N-2E"></use></g></g></g></svg>
diff --git a/doc/modules/ROOT/pages/algorithms/node-similarity.adoc b/doc/modules/ROOT/pages/algorithms/node-similarity.adoc
@@ -23,7 +23,9 @@ include::partial$/algorithms/shared/algorithm-traits.adoc[]
 
 The Node Similarity algorithm compares a set of nodes based on the nodes they are connected to.
 Two nodes are considered similar if they share many of the same neighbors.
-Node Similarity computes pair-wise similarities based on either the Jaccard metric, also known as the Jaccard Similarity Score, or the Overlap coefficient, also known as the Szymkiewicz–Simpson coefficient.
+Node Similarity computes pair-wise similarities based on the Jaccard metric, also known as the Jaccard Similarity Score, the Overlap coefficient, also known as the Szymkiewicz–Simpson coefficient, and the Cosine Similarity score.
+The first two are most frequently associated with unweighted sets, whereas Cosine with weighted input.
+
 
 Given two sets `A` and `B`, the Jaccard Similarity is computed using the following formula:
 
@@ -37,6 +39,13 @@ image::nodesim-formulas/overlap_nodesim.svg[role="middle"]
 // This is the raw information for this image:
 // // O(A,B) = ∣A ∩ B∣ / min(|A|, |B|∣
 
+Formulas for the weighted case can be found  in the xref:algorithms-node-similarity-examples-weighted[weighted examples below].
+
+
+The cosine similarity score is computed using the following formula, where entries are implicitly given a weight of  `1` when A,B  are unweighted:
+
+image::nodesim-formulas/cos.svg[role="middle"]
+
 The input of this algorithm is a bipartite, connected graph containing two disjoint node sets.
 Each relationship starts from a node in the first node set and ends at a node in the second node set.
 
@@ -653,8 +662,8 @@ ORDER BY Person1
 [[algorithms-node-similarity-examples-weighted]]
 === Weighted Similarity
 
-Relationship properties can be used to modify the similarity induced by certain relationships.
-Weighted node similarity has as default the weighted Jaccard similarty, according to the formula:
+Relationship properties can be used to modify the similarity induced by certain relationships by taking their value as a way of measuring importance.
+By default,  Weighted node similarity uses weighted Jaccard similarity, according to the formula:
 
 image::nodesim-formulas/weighted_jaccard.svg[role="middle"]
 
@@ -664,6 +673,7 @@ It also supports weighted Overlap similarity, according to the formula:
 
 image::nodesim-formulas/weighted_overlap.svg[role="middle"]
 
+In addition, Cosine similarity can be used in the weighted case as mentioned in xref:algorithms-node-similarity-intro[introduction].
 
 [NOTE]
 ====