Tekoälyavustaja auttaa ohjelmistokehityksessä

Suuret kielimallit ovat muutaman vuoden aikana muuttuneet kapeista tekstinkäsittelyn työkaluista yleiskäyttöisiksi alustoiksi erilaisten käytännön ongelmien ratkaisemiseen. Zhao ym. (2023) osoittavat katsauksessaan, että LLM-tutkimus on kasvanut räjähdysmäisesti. Esimerkiksi sellaisten arXiv-julkaisujen määrä, joiden otsikossa tai abstraktissa esiintyy termi ”large language model”, moninkertaistui ChatGPT:n julkaisun jälkeen. Samalla kielimallit ovat kehittyneet kohti massiivisia Transformer-pohjaisia malleja, joita tarkastellaan jo monilla aloilla yleiskäyttöisinä tekoälyratkaisuina. (Zhao ym. 2023.)

LLM:t ohjelmistokehityksessä

Ohjelmistokehityksessä suuria kielimalleja hyödynnetään yhä useammin koodin tuottamiseen ja muokkaamiseen luonnollisen kielen avulla. Mallit koulutetaan suurilla koodiaineistoilla, jotka on kerätty esimerkiksi GitHubista ja ohjelmointifoorumeilta, ja ne pystyvät tulkitsemaan lyhyen tekstikuvauksen ja tuottamaan sitä vastaavan koodilohkon tai kokonaisen funktion. Tyypillisiä käyttökohteita ovat koodin automaattinen täydennys, uusien funktioiden ja luokkien generointi, refaktorointi ja testauksen erilaiset tarpeet. Monissa kehitystyökaluissa, kuten editoreissa, malli toimii ”tekoälykumppanina”, joka ehdottaa ratkaisuja suunnittelun aikana (Kuva 1). (Huynh & Lin 2025.)

Näytönkuva Visual Studio Code -editorista. Vasemmalla näkyy projektin tiedostopuu, keskellä auki oleva JavaScript-lähdekoodi, josta useita rivejä on korostettu. Oikealla puolella on Claude Code -laajennuksen näkymä, jossa näkyy keskusteluikkuna, tekstikenttä viestin kirjoittamista varten ja tieto siitä, että 12 riviä koodia on valittuna. — Kuva 1. Claude Code -laajennus Visual Studio Codessa. (Volkov 2025)

LLM-avustajien käytössä ohjelmistokehityksessä on myös haasteita, jotka voivat rajoittaa niiden käyttöä. Generoitu koodi voi sisältää virheitä, tietoturvariskejä tai suorituskykyongelmia esimerkiksi siksi, että malli on koulutettu puutteellisesti tarkastetulla avoimen lähdekoodin aineistolla, joka sisältää virheellisiä tai haavoittuvia esimerkkejä, minkä vuoksi ihmisen tekemä tarkastus on edelleen tärkeässä roolissa. Lisäksi koodin laadun arviointi vaatii huolellisesti suunniteltuja mittareita ja testiaineistoja. (Huynh & Lin 2025.) Käytännössä LLM-työkalut näyttäytyvätkin ennen kaikkea tuottavuutta parantavina apuvälineinä, jotka nopeuttavat rutiinitehtäviä, mutta eivät vielä korvaa asiantuntevaa kehittäjää tai testaajaa (Dell’Acqua ym. 2023; Dohmke 2024; Huynh & Lin 2025).

Opinnäytetyössään LAB-ammattikorkeakoulun opiskelija Roman Volkov arvioi LLM-avustajien kykyä suorittaa laajaa refaktorointia kirjallisten ohjeiden ja selkeästi määriteltyjen laatukriteerien mukaisesti. Tässä tehtävässä avustajan tuli tehdä rakenteellisia muutoksia jakamalla monoliittinen testitiedosto useisiin loogisiin kokonaisuuksiin, mikä parantaisi testien ylläpidettävyyttä ja nopeuttaisi uusien testien kirjoittamista. Vertailuun valittiin kolme käytännössä yleistä LLM-avustajaa: Claude Code, Codex CLI ja GitHub Copilot. Kaikille annettiin samat lähtötiedot ja ohjeet. Työkalujen tuli muokata olemassa olevat testit uuteen arkkitehtuuriin siten, että kaikki testit suoritettiin edelleen virheittä ja tuotettu koodi täytti tyylivaatimukset. Arvioinnissa painotettiin erityisesti refaktorointiin kuluvaa aikaa ja API-kustannuksia. Ratkaisujen laatua arvioitiin lisäksi LLM-avustajien tekemällä ristiinarvioinnilla yhteisten kriteerien mukaan. Parhaiten tehtävästä suoriutui Claude Code, joka käytti tehtävään vajaat kaksi tuntia (Taulukko 1), kun vastaavan tehtävän arvioitiin vievän vähintään kaksi työpäivää manuaalisesti. Työn aikana havaittiin myös selviä eroja testattujen työkalujen tuottaman koodin laadussa. (Volkov 2025.)

Taulukko esittää Claude Coden suorittaman refaktorointitehtävän tulokset kahdessa vaiheessa. Ensimmäisessä vaiheessa aika on 880 sekuntia (josta API-aikaa 734 s), kustannukset 2,04 dollaria, lisättyjä rivejä 1911, poistettuja rivejä 17, läpäisyprosentti 47,7 % ja Robocop-varoituksia 70. Toisessa vaiheessa aika on 5580 sekuntia (API 1204 s), kustannukset 7,29 dollaria, lisättyjä rivejä 54, poistettuja rivejä 44, läpäisyprosentti 100 % ja Robocop-varoituksia 0. Yhteensä aika on 6460 sekuntia, API-aika 1938 s, kustannukset 9,33 dollaria, lisättyjä rivejä 1965 ja poistettuja rivejä 61. — Taulukko 1. Claude Coden refaktorointitehtävän tulokset. (mukailtu Volkov 2025)

Tehtävä suoritettiin kahdessa vaiheessa. Ensimmäisessä vaiheessa Claude Code teki refaktoroinnin noin 15 minuutissa. Toisessa vaiheessa korjattiin muutosten seurauksena rikkoutuneet automaattiset testit ja viimeisteltiin koodi, mikä vei noin puolitoista tuntia. Testaajan oma panos rajoittui pääasiassa ohjeiden antamiseen, avustajan ehdotusten hyväksymiseen, testien ajamiseen sekä lopullisten johtopäätösten tekemiseen mittareiden perusteella. Vaikka jonkin verran manuaalista viimeistelyä tarvittiin, suurin osa työstä syntyi LLM-avustajan toimesta, mikä säästi merkittävästi testaajan aikaa. Työn kokonaiskustannus oli 9,33 dollaria, ja vajaan kahden tunnin aikana avustaja lisäsi noin 2000 koodiriviä. Tulokset osoittivat, että hyvin rajatussa tehtävässä LLM voi toimia lähes autonomisena refaktorointikumppanina ja vähentää merkittävästi testaajan työmäärää.

Kirjoittajat

Roman Volkov valmistuu LAB-ammattikorkeakoulusta tieto- ja viestintätekniikan insinööriksi keväällä 2026. Hän on työskennellyt testiautomaatioinsinöörinä Sympalla vuodesta 2024.

Matti Welin toimii yliopettajana LAB-ammattikorkeakoulussa tieto- ja viestintätekniikan koulutusvastuussa. Hän on kiinnostunut suurista kielimalleista ja niiden hyväksikäytöstä insinöörityössä erityisesti ICT-alalla. Hän toimi Volkovin opinnäytetyön ohjaajana.

Lähteet

Dell’Acqua, F., McFowland, E. III, Mollick, E., Lifshitz-Assaf, H., Kellogg, K.C., Rajendran, S., Krayer, L., Candelon, F. & Lakhani, K.R. 2023. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. HBS Working Paper 24-013. Harvard Business School. Viitattu 19.12.2025. Saatavissa https://www.hbs.edu/ris/Publication%20Files/24-013_d9b45b68-9e74-42d6-a1c6-c72fb70c7282.pdf

Dohmke, T. 2024. The economic impact of the AI-powered developer lifecycle and lessons from GitHub Copilot. GitHub Blog. Viitattu 19.12.2025. Saatavissa https://github.blog/news-insights/research/the-economic-impact-of-the-ai-powered-developer-lifecycle-and-lessons-from-github-copilot

Huynh, N. & Lin, B. 2025. Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications. arXiv. Viitattu 19.12.2025. Saatavissa https://arxiv.org/abs/2503.01245

Volkov, R. 2025. Evaluating LLM-powered coding assistants for refactoring test assets to the Page Object Model. AMK-opinnäytetyö. LAB-ammattikorkeakoulu, tieto- ja viestintätekniikka. Lahti. Viitattu 19.12.2025. Saatavissa https://urn.fi/URN:NBN:fi:amk-2025121637084

Zhao, W.X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., Liu, P., Nie, J.-Y. & Wen, J.-R. 2023. A Survey of Large Language Models. arXiv. Viitattu 19.12.2025. Saatavissa https://arxiv.org/abs/2303.18223