Artikkeli kuva

Google Perspective arvioi verkkokommentteja loukkaavuuden perusteella. Vihapuheeksi alun perin tunnistettu lause läpäisee seulan, kun se sotketaan kirjoitusvirheellä ja sanalla ’rakkaus’. Kuva: Aalto-yliopisto.

Tutkimus: Vihapuhealgoritmeja on helppo huijata – rakkaus ja kielioppivirheet nujertavat koneoppimisenkin

14.09.2018 |13:50

Niin kutsutun vihapuheen ja loukkaavan kommentoinnin hillitsemiseksi on kehitetty automaattisia työkaluja, joiden väitetään tunnistavan verkkopalvelujen sääntöjen vastaisen tai jopa laittoman sisällön. Aalto-yliopiston Secure Systems -tutkimusryhmä on kuitenkin löytänyt parhaistakin koneoppimiseen perustuvista vihapuheentunnistimista merkittäviä heikkouksia.

Aalto-yliopiston tiedotteen mukaan käyttäjien on yllättävän helppo kiertää vihapuheen suitsemiseen kehitettyjä tekoälytyökaluja. Tarkoituksellinen tai tahaton huono kielioppi ja kirjoitusvirheet voivat tehdä vihanlietsonnasta ja loukkauksista tekoälylle vaikeita tunnistaa.

Suomen Uutiset kertoi vuosi sitten Aalto-yliopiston kehittämästä vihapuhekoneesta, jolla silläkin oli ongelmia suomenkielisen vihapuheen tunnistamisessa. Uusi tutkimus osoittaa, että englanninkieliset vihapuhekoneet eivät pärjää sen paremmin.

Ryhmä kokeili seitsemän uuden tunnistamistyökalun tarkkuutta. Kaikki reputtivat testit.

Nykyaikaiset luonnollisen kielen prosessointiin käytetyt mallit pystyvät luokittelemaan tekstiä merkkien, sanojen ja lauseiden piirteiden perusteella. Kun mallit joutuvat analysoimaan tekstidataa, jollaista ei ole käytetty niiden opettamiseen, tulosten laatu alkaa kärsiä.

– Lisäsimme vihapuheeksi tai loukkaavaksi määriteltyjen kommenttien sekaan kirjoitusvirheitä, muokkasimme sanojen rajoja tai lisäsimme joukkoon neutraaleja sanoja. Välilyöntien poistaminen sanojen välistä osoittautui englanninkielisen sisällön manipuloinnissa tehokkaimmaksi. Kaikkia keinoja yhdistelemällä saimme jopa Googlen kommenttien arvottamiseen käyttämän Perspective-työkalun sekaisin”, kertoo Tommi Gröndahl, Aalto-yliopiston tohtorikoulutettava.

Google Perspective luokittelee kommenttien loukkaavuutta tai ”toksisuutta” eri tekstianalyysin menetelmien avulla. Vuonna 2017 Washingtonin yliopiston tutkijat osoittivat, että Perspectiveä voi kuitenkin huijata lisäämällä tekstiin pieniä kirjoitusvirheitä.

Gröndahl havaitsi kollegoineen, että Perspective on sittemmin oppinut tunnistamaan myös kirjoitusvirheet, mutta se on edelleen huijattavissa muunlaisella manipuloinnilla, esimerkiksi poistamalla välilyöntejä ja lisäämällä harmittomia sanoja, kuten love, ’rakkaus’.

Perspectiven ja monen muun edistyneen vihapuheentunnistimen seulan läpäisi esimerkiksi lause ”I hate you” (”minä vihaan sinua”), kun se muokattiin muotoon ”Ihateyou love”.

Konteksti ratkaisee

Tutkijat huomauttavat, että asiayhteys määrittää pitkälti sen, tulkitaanko yksittäinen kommentti vihaksi vai vain asiattomaksi tai mauttomaksi. Vihapuhe on subjektiivista ja kontekstisidonnaista, ja tutkijoiden mukaan pelkät koneelliset tekstianalyysimenetelmät eivät riitä sen tarkkaan tunnistamiseen.

”Ihmiset muuttavat toimintaansa ja alkavat kokeilla eri tapoja kirjoittaa, koska he haluavat välttää kiinnijäämistä. Ollakseen tehokas tekoäly tarvitsee avukseen ihmisen tekemää tulkintaa”, uskoo tutkimusryhmän johtaja, Aalto-yliopiston professori N. Asokan.

Tekstiä analysoivien koneoppimismallien kehittämisessä tulisi tutkijoiden mukaan kiinnittää huomiota mallien opettamiseen käytettävän datan laatuun ja monipuolisuuteen, eikä niinkään mallien rakenteiden hiomiseen.

Ryhmän tulokset osoittavat myös, että vihapuheentunnistimet voisivat olla nykyistä tarkempia, jos ne analysoisivat tekstiä yksittäisten merkkien ja niiden yhdistelmien tasolla. Lisäksi kommenttien kontekstin luokittelua pitäisi saada hienovaraisemmaksi, jotta mallit osaisivat erottaa toisistaan esimerkiksi rasismin, seksismin ja henkilökohtaiset hyökkäykset.

 

Suomen Uutiset


Artikkeliin liittyvät aiheet


Mitä mieltä?

Viikon suosituimmat

1.
Suomen uutiset logo

Elon Muskin “nörttitiimi” sulki USA:n kehitysapuviraston – demokraatit raivoissaan

06.02.2025 |19:24
2.
Suomen uutiset logo

Kansanedustaja Sanna Antikainen teki selvitystyön toimittajien puolesta: Eduskunnan puhemies Jussi Halla-aho on jakanut oppositiolle enemmän puheenvuoroja kuin edellinen puhemies Matti Vanhanen

07.02.2025 |12:11
3.
Suomen uutiset logo

Vanha valtamedia johtaa harhaan uutisoidessaan maahanmuutosta – lukijoita vedätetään osatotuuksilla ja valikoiduilla tiedon palasilla

06.02.2025 |09:21
6.
Suomen uutiset logo

Yrittäjien vaalitentin saldoa – Purra: Antti Lindtmanilta kuultiin poskettomia väitteitä niin julkisen talouden korjaamisesta kuin demarien velkaantumishuolestakin

07.02.2025 |17:54
7.
Suomen uutiset logo

Aluevaltuustojen hillotolppiin hupenee vuodessa yli 20 miljoonaa euroa – pelkän ryhmärahan lopettamisella voisi rahoittaa kokopäivähoidon kuukausikustannukset 1 600 vanhukselle

08.02.2025 |17:37
8.
Suomen uutiset logo

Ex-puhemies Matti Vanhanen puhuu pötyä, ja media jättää yleisön virheellisen tiedon varaan – tilastot osoittavat, etteivät väitteet Halla-ahon puolueellisuudesta pidä alkuunkaan paikkaansa

07.02.2025 |17:20
9.
Suomen uutiset logo

Vasemmistoliitto ottaisi vastaan kaikki ihmiset, jotka vain pääsevät rajan yli Suomeen – Mäkelä: Vaarallista puhetta – ”Jos kaikki otettaisiin vastaan, se väki ei lopu koskaan”

06.02.2025 |15:59

Uusimmat

Perussuomalainen 1/2025

Mainos kuva

Lue lisää

PS Naiset 3/2024

Mainos kuva

Lue lisää