{"id":20180,"date":"2024-07-29T13:51:04","date_gmt":"2024-07-29T10:51:04","guid":{"rendered":"https:\/\/blogit.lab.fi\/labfocus\/?p=20180"},"modified":"2024-07-29T15:10:01","modified_gmt":"2024-07-29T12:10:01","slug":"tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla","status":"publish","type":"post","link":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/","title":{"rendered":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla"},"content":{"rendered":"\n<p>Tekstin samankaltaisuus on todella hy\u00f6dyllinen luonnollisen kielen (NLP) k\u00e4sittelyn ty\u00f6kalu. Tekstin samankaltaisuudella mitataan, kuinka paljon kahden tekstin merkitys tai sis\u00e4lt\u00f6 eroaa toisistaan. Digitaalisessa maailmassa samankaltaisuuden mittaamisella on monta sovellusta. Yleisimpi\u00e4 k\u00e4ytt\u00f6tapauksia ovat plagioinnin havaitseminen, asiakirjojen luokittelu, tiedonhaku ja kielik\u00e4\u00e4nn\u00f6kset (Van Otten 2022).<\/p>\n\n\n\n<p>Tripathy (2024) m\u00e4\u00e4ritt\u00e4\u00e4 kaksi samankaltaisuustyyppi\u00e4: leksikaalinen, joka mittaa kahden tekstien samankaltaisuutta sanajoukkojen l\u00e4heisyyden perusteella, ja semanttinen, joka luo kvantitatiivisen mittarin kahden sanan tai lauseen merkityksen l\u00e4heisyydest\u00e4. On olemassa useita koneoppimismalleja tekstin samankaltaisuuden mittaamiseen. Suosituimmat niist\u00e4 muun muassa ovat kosinien samankaltaisuus (Cosine Similarity) ja Levenshteinin et\u00e4isyys leksikaaliseen samankaltaisuuden mittaamiseen. On olemassa my\u00f6s kontekstuaalisia kielimalleja ja Sentence Transformers -malleja semanttisen samankaltaisuuden mittaamiseen.<\/p>\n\n\n\n<p>Sentence Transformerit ovat avoimen l\u00e4hdekoodin esikoulutettuja malleja. Ne ovat ladattavissa Hugging Facelta, joka on tunnettu NLP-mallien ja -sovellusten kehitt\u00e4j\u00e4. Fillion (2022) tiivist\u00e4\u00e4 kahden tekstin semanttisen samankaltaisuuden laskemisprosessia Sentence Transformers -mallin avulla kahteen vaiheeseen. Vaiheet ovat tekstin muuttaminen numeeriseen vektorimuotoon (embeddings) ja vektorien samankaltaisuuden laskeminen esimerkiksi kosinin samankaltaisuusmetriikan avulla.<\/p>\n\n\n\n<p>Alla on esimerkki Pytonilla toteutetun tekstin samankaltaisuuden laskemisesta Sentence Transformer -mallia MiniLM-L6-v2 hy\u00f6dynt\u00e4en. Ennen tekstin k\u00e4sittely\u00e4 on asennettava sentence_transformers<em>&#8211;<\/em>moduuli ja ladattava SentenceTransformer-kirjasto. T\u00e4m\u00e4n j\u00e4lkeen voidaan rakentaa malli ja aloittaa varsinainen k\u00e4sittely, jolloin teksti muutetaan numeerisen vektorimuotoon (embeddings). (Fillion 2022.) Kuva 1 esitt\u00e4\u00e4 t\u00e4m\u00e4n vaiheen sek\u00e4 k\u00e4sitelt\u00e4v\u00e4t lauseet.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"558\" src=\"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1-1024x558.png\" alt=\"Tietokonekoodia tekstin\u00e4ytteiden k\u00e4sittelyst\u00e4. \" class=\"wp-image-20182\" srcset=\"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1-1024x558.png 1024w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1-300x164.png 300w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1-768x419.png 768w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1-570x311.png 570w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png 1280w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Kuva 1. Tekstin muuttaminen vektorimuotoon. (Kuva: Ekaterina Ruotsalainen)<\/figcaption><\/figure>\n\n\n\n<p>Seuraavaksi voidaan siirty\u00e4 toiseen vaiheeseen eli vektoreiden samankaltaisuuden laskentaan. Kuva 2 n\u00e4ytt\u00e4\u00e4 laskutuloksena saadun samankaltaisuusmatriisin, jossa kaikki ensimm\u00e4isen ja toisen listan (em_1 ja em_2) vektorit vertaillaan kesken\u00e4\u00e4n.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"460\" src=\"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-1024x460.png\" alt=\"Tekstin\u00e4ytteiden samankaltaisuutta osoittava matriisi.\" class=\"wp-image-20183\" srcset=\"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-1024x460.png 1024w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-300x135.png 300w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-768x345.png 768w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-570x256.png 570w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2-1110x500.png 1110w, https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva2.png 1280w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Kuva 2. Lauseiden samankaltaisuusmatriisi. (Kuva: Ekaterina Ruotsalainen)<\/figcaption><\/figure>\n\n\n\n<p>Matriisin mukaan listojen ensimm\u00e4isten lauseiden samankaltaisuus on 0.6896, keskimm\u00e4isten lauseiden samankaltaisuus on 0.4320 ja viimeisten lauseiden samankaltaisuus on vain 0.0806. Samankaltaisuusmatriisin analyysin j\u00e4lkeen voidaan p\u00e4\u00e4tt\u00e4\u00e4, ett\u00e4 malli toimii onnistuneesti. (Fillion 2022.)<\/p>\n\n\n\n<p>Sentence Transformers -malleilla on monenlaiset sovelluskohteet. Esimerkiksi Ekaterina Ruotsalaisen (2024) opinn\u00e4ytety\u00f6ss\u00e4, jossa k\u00e4siteltiin nimikehallinnan laadunvarmistusta, t\u00e4t\u00e4 koneoppimismallia k\u00e4ytettiin nimikeduplikaattien suodattamiseen suuresta datamassasta.<\/p>\n\n\n\n<div class=\"wp-block-group\"><div class=\"wp-block-group__inner-container is-layout-constrained wp-block-group-is-layout-constrained\">\n<div class=\"wp-block-group has-background\" style=\"background-color:#b3edfb\"><div class=\"wp-block-group__inner-container is-layout-constrained wp-block-group-is-layout-constrained\">\n<p>Kirjoittajat<\/p>\n\n\n\n<p><strong>Ekaterina Ruotsalainen<\/strong> on valmistunut LAB-ammattikorkeakoulusta, IoT:st\u00e4 teko\u00e4lyyn -insin\u00f6\u00f6rikoulutusohjelmasta (YAMK). &nbsp;H\u00e4nell\u00e4 on useiden vuosien ty\u00f6kokemus j\u00e4rjestelm\u00e4tuen ja tuotetiedon hallinnan teht\u00e4vist\u00e4.<\/p>\n\n\n\n<p><strong>Minna Asplund<\/strong>, TkL, toimii LAB-ammattikorkeakoulussa yliopettajana ja koordinaattorina IoT:st\u00e4 teko\u00e4lyyn -insin\u00f6\u00f6rikoulutuksessa (YAMK).<\/p>\n<\/div><\/div>\n<\/div><\/div>\n\n\n\n<h3 class=\"wp-block-heading\">L\u00e4hteet<\/h3>\n\n\n\n<p>Fillion, E. 2022. Semantic Similarity With Sentence Transformers. Vennify.ai 8.6.2022. Viitattu 16.4.2024. Saatavissa <a href=\"https:\/\/www.vennify.ai\/semantic-similarity-sentence-transformers\/\">https:\/\/www.vennify.ai\/semantic-similarity-sentence-transformers\/<\/a><\/p>\n\n\n\n<p>Rokon, O. F. 2023. Transformers in NLP: BERT and Sentence Transformers. Medium.com 25.9.2023. Viitattu 17.4.2024. Saatavissa <a href=\"https:\/\/medium.com\/@mroko001\/transformers-in-nlp-bert-and-sentence-transformers-3faab61918ea\">https:\/\/medium.com\/@mroko001\/transformers-in-nlp-bert-and-sentence-transformers-3faab61918ea<\/a><\/p>\n\n\n\n<p>Ruotsalainen, E. 2024. Nimikehallinnan laadunvarmistuksen tehostaminen. YAMK-opinn\u00e4ytety\u00f6. LAB-ammattikorkeakoulu, IoT:st\u00e4 teko\u00e4lyyn -koulutus. Lahti. Viitattu 16.4.2024. Saatavissa <a href=\"https:\/\/www.theseus.fi\/bitstream\/handle\/10024\/851376\/Ruotsalainen_Ekaterina.pdf?sequence=2&amp;isAllowed=y\">https:\/\/www.theseus.fi\/bitstream\/handle\/10024\/851376\/Ruotsalainen_Ekaterina.pdf?sequence=2&amp;isAllowed=y<\/a><\/p>\n\n\n\n<p>Tripathy, S. 2024. Exploring Contextual Text Similarity: A Dive into Machine Learning Techniques. Medium.com 5.1.2024. Viitattu 16.4.2024. Saatavissa <a href=\"https:\/\/medium.com\/@swarup.t\/exploring-contextual-text-similarity-a-dive-into-machine-learning-techniques-3d477c88bf20\">https:\/\/medium.com\/@swarup.t\/exploring-contextual-text-similarity-a-dive-into-machine-learning-techniques-3d477c88bf20<\/a><\/p>\n\n\n\n<p>Van Otten, N. 2022. Top 7 Ways To Implement Document &amp; Text Similarity In Python: NLTK, Scikit-learn, BERT, RoBERTa, FastText and PyTorch. Spot Intelligence 19.12.2022. Viitattu 16.4.2024. Saatavissa <a href=\"https:\/\/spotintelligence.com\/2022\/12\/19\/text-similarity-python\/\">https:\/\/spotintelligence.com\/2022\/12\/19\/text-similarity-python\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Tekstin samankaltaisuus on todella hy\u00f6dyllinen luonnollisen kielen (NLP) k\u00e4sittelyn ty\u00f6kalu. Tekstin samankaltaisuudella mitataan, kuinka paljon kahden tekstin merkitys tai sis\u00e4lt\u00f6 eroaa toisistaan. Digitaalisessa maailmassa samankaltaisuuden mittaamisella on monta sovellusta. Yleisimpi\u00e4 k\u00e4ytt\u00f6tapauksia ovat plagioinnin havaitseminen, asiakirjojen luokittelu, tiedonhaku ja kielik\u00e4\u00e4nn\u00f6kset (Van Otten 2022). Tripathy (2024) m\u00e4\u00e4ritt\u00e4\u00e4 kaksi samankaltaisuustyyppi\u00e4: leksikaalinen, joka mittaa kahden tekstien samankaltaisuutta sanajoukkojen l\u00e4heisyyden [&hellip;]<\/p>\n","protected":false},"author":23,"featured_media":20182,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[43],"tags":[29,9874,9876,9878,5433],"class_list":{"0":"post-20180","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-yleinen-fi","8":"tag-artikkeli-e1","9":"tag-samankaltaisuus","10":"tag-sentence-transformers","11":"tag-tekstinkasittely","12":"tag-tietotekniikka","13":"czr-hentry"},"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.3 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/\" \/>\n<meta property=\"og:locale\" content=\"fi_FI\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus\" \/>\n<meta property=\"og:description\" content=\"Tekstin samankaltaisuus on todella hy\u00f6dyllinen luonnollisen kielen (NLP) k\u00e4sittelyn ty\u00f6kalu. Tekstin samankaltaisuudella mitataan, kuinka paljon kahden tekstin merkitys tai sis\u00e4lt\u00f6 eroaa toisistaan. Digitaalisessa maailmassa samankaltaisuuden mittaamisella on monta sovellusta. Yleisimpi\u00e4 k\u00e4ytt\u00f6tapauksia ovat plagioinnin havaitseminen, asiakirjojen luokittelu, tiedonhaku ja kielik\u00e4\u00e4nn\u00f6kset (Van Otten 2022). Tripathy (2024) m\u00e4\u00e4ritt\u00e4\u00e4 kaksi samankaltaisuustyyppi\u00e4: leksikaalinen, joka mittaa kahden tekstien samankaltaisuutta sanajoukkojen l\u00e4heisyyden [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/\" \/>\n<meta property=\"og:site_name\" content=\"LAB Focus\" \/>\n<meta property=\"article:published_time\" content=\"2024-07-29T10:51:04+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-07-29T12:10:01+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1280\" \/>\n\t<meta property=\"og:image:height\" content=\"698\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"pvitie\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@LABfinland\" \/>\n<meta name=\"twitter:site\" content=\"@LABfinland\" \/>\n<meta name=\"twitter:label1\" content=\"Kirjoittanut\" \/>\n\t<meta name=\"twitter:data1\" content=\"pvitie\" \/>\n\t<meta name=\"twitter:label2\" content=\"Arvioitu lukuaika\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minuuttia\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/\"},\"author\":{\"name\":\"pvitie\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#\\\/schema\\\/person\\\/a88d96323a2687eb54cce42cea788799\"},\"headline\":\"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla\",\"datePublished\":\"2024-07-29T10:51:04+00:00\",\"dateModified\":\"2024-07-29T12:10:01+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/\"},\"wordCount\":493,\"publisher\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2024\\\/07\\\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png\",\"keywords\":[\"Artikkeli E1\",\"samankaltaisuus\",\"Sentence Transformers\",\"tekstink\u00e4sittely\",\"tietotekniikka\"],\"inLanguage\":\"fi\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/\",\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/\",\"name\":\"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2024\\\/07\\\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png\",\"datePublished\":\"2024-07-29T10:51:04+00:00\",\"dateModified\":\"2024-07-29T12:10:01+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#breadcrumb\"},\"inLanguage\":\"fi\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"fi\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#primaryimage\",\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2024\\\/07\\\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png\",\"contentUrl\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2024\\\/07\\\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png\",\"width\":1280,\"height\":698},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#website\",\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/\",\"name\":\"LAB Focus\",\"description\":\"Focus Area blog | LAB University of Applied Sciences\",\"publisher\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"fi\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#organization\",\"name\":\"LAB Focus\",\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fi\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2020\\\/04\\\/cropped-cropped-tunnus_blogi-01.png\",\"contentUrl\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/wp-content\\\/uploads\\\/sites\\\/8\\\/2020\\\/04\\\/cropped-cropped-tunnus_blogi-01.png\",\"width\":1342,\"height\":288,\"caption\":\"LAB Focus\"},\"image\":{\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/x.com\\\/LABfinland\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/#\\\/schema\\\/person\\\/a88d96323a2687eb54cce42cea788799\",\"name\":\"pvitie\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fi\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g\",\"caption\":\"pvitie\"},\"url\":\"https:\\\/\\\/blogit.lab.fi\\\/labfocus\\\/author\\\/pvitie\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/","og_locale":"fi_FI","og_type":"article","og_title":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus","og_description":"Tekstin samankaltaisuus on todella hy\u00f6dyllinen luonnollisen kielen (NLP) k\u00e4sittelyn ty\u00f6kalu. Tekstin samankaltaisuudella mitataan, kuinka paljon kahden tekstin merkitys tai sis\u00e4lt\u00f6 eroaa toisistaan. Digitaalisessa maailmassa samankaltaisuuden mittaamisella on monta sovellusta. Yleisimpi\u00e4 k\u00e4ytt\u00f6tapauksia ovat plagioinnin havaitseminen, asiakirjojen luokittelu, tiedonhaku ja kielik\u00e4\u00e4nn\u00f6kset (Van Otten 2022). Tripathy (2024) m\u00e4\u00e4ritt\u00e4\u00e4 kaksi samankaltaisuustyyppi\u00e4: leksikaalinen, joka mittaa kahden tekstien samankaltaisuutta sanajoukkojen l\u00e4heisyyden [&hellip;]","og_url":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/","og_site_name":"LAB Focus","article_published_time":"2024-07-29T10:51:04+00:00","article_modified_time":"2024-07-29T12:10:01+00:00","og_image":[{"width":1280,"height":698,"url":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png","type":"image\/png"}],"author":"pvitie","twitter_card":"summary_large_image","twitter_creator":"@LABfinland","twitter_site":"@LABfinland","twitter_misc":{"Kirjoittanut":"pvitie","Arvioitu lukuaika":"4 minuuttia"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#article","isPartOf":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/"},"author":{"name":"pvitie","@id":"https:\/\/blogit.lab.fi\/labfocus\/#\/schema\/person\/a88d96323a2687eb54cce42cea788799"},"headline":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla","datePublished":"2024-07-29T10:51:04+00:00","dateModified":"2024-07-29T12:10:01+00:00","mainEntityOfPage":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/"},"wordCount":493,"publisher":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/#organization"},"image":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#primaryimage"},"thumbnailUrl":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png","keywords":["Artikkeli E1","samankaltaisuus","Sentence Transformers","tekstink\u00e4sittely","tietotekniikka"],"inLanguage":"fi"},{"@type":"WebPage","@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/","url":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/","name":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla - LAB Focus","isPartOf":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#primaryimage"},"image":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#primaryimage"},"thumbnailUrl":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png","datePublished":"2024-07-29T10:51:04+00:00","dateModified":"2024-07-29T12:10:01+00:00","breadcrumb":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#breadcrumb"},"inLanguage":"fi","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/"]}]},{"@type":"ImageObject","inLanguage":"fi","@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#primaryimage","url":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png","contentUrl":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2024\/07\/571_2024_Tekstidatan-samankaltaisuuden-arviointi-Sentence-Transformers-mallin-avulla_Kuva1.png","width":1280,"height":698},{"@type":"BreadcrumbList","@id":"https:\/\/blogit.lab.fi\/labfocus\/tekstidatan-samankaltaisuutta-voi-arvioida-sentence-transformers-mallin-avulla\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blogit.lab.fi\/labfocus\/"},{"@type":"ListItem","position":2,"name":"Tekstidatan samankaltaisuutta voi arvioida Sentence Transformers -mallin avulla"}]},{"@type":"WebSite","@id":"https:\/\/blogit.lab.fi\/labfocus\/#website","url":"https:\/\/blogit.lab.fi\/labfocus\/","name":"LAB Focus","description":"Focus Area blog | LAB University of Applied Sciences","publisher":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blogit.lab.fi\/labfocus\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"fi"},{"@type":"Organization","@id":"https:\/\/blogit.lab.fi\/labfocus\/#organization","name":"LAB Focus","url":"https:\/\/blogit.lab.fi\/labfocus\/","logo":{"@type":"ImageObject","inLanguage":"fi","@id":"https:\/\/blogit.lab.fi\/labfocus\/#\/schema\/logo\/image\/","url":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2020\/04\/cropped-cropped-tunnus_blogi-01.png","contentUrl":"https:\/\/blogit.lab.fi\/labfocus\/wp-content\/uploads\/sites\/8\/2020\/04\/cropped-cropped-tunnus_blogi-01.png","width":1342,"height":288,"caption":"LAB Focus"},"image":{"@id":"https:\/\/blogit.lab.fi\/labfocus\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/x.com\/LABfinland"]},{"@type":"Person","@id":"https:\/\/blogit.lab.fi\/labfocus\/#\/schema\/person\/a88d96323a2687eb54cce42cea788799","name":"pvitie","image":{"@type":"ImageObject","inLanguage":"fi","@id":"https:\/\/secure.gravatar.com\/avatar\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/c6efb3d583817a7d4044d9c74e15ee62bfc7174360a560f1ad3a04099475664a?s=96&d=mm&r=g","caption":"pvitie"},"url":"https:\/\/blogit.lab.fi\/labfocus\/author\/pvitie\/"}]}},"_links":{"self":[{"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/posts\/20180","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/users\/23"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/comments?post=20180"}],"version-history":[{"count":5,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/posts\/20180\/revisions"}],"predecessor-version":[{"id":20190,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/posts\/20180\/revisions\/20190"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/media\/20182"}],"wp:attachment":[{"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/media?parent=20180"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/categories?post=20180"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.lab.fi\/labfocus\/wp-json\/wp\/v2\/tags?post=20180"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}