Érzelemfelismerés – bárány, vagy báránybőrbe bújt farkas? (I. rész)


Az EU mesterséges intelligencia rendelete (AI Act) újra fókuszba helyezte az érzelmek felismerését, melyet teljesen tiltani terveznek bizonyos környezetekben. A technológia veszélyei és hatékonysága kapcsán megoszlanak a vélemények.

Az érzelmek számítógéppel támogatott felismerése (emotion recognition) a közelmúltban ismét reflektorfénybe került, az EU készülőben levő[1] mesterséges intelligenciáról szóló jogszabálya (AI Act) kapcsán. A tervezet szerint az érzelemfelismerésen alapuló rendszerek teljes tiltása várható például munkahelyi vagy oktatási környezetben, illetve a határellenőrzés során. A tervezet ellenzőkre és támogatókra is talált, és mindkét oldalnak első hallásra meggyőző érvek állnak a rendelkezésére. De mi ez a technológia, milyen veszélyeket rejt a személyiségi jogokra nézve, és úgy általában – tényleg képesek vagyunk algoritmusokkal érzelmeket megfigyelni?

Ahhoz, hogy a probléma világossá váljon, érdemes onnan elindulni, hogy milyen módszerek jelentek meg az érzelmek automatizált azonosítására.

Az érzelmek számítógéppel támogatott felismerése az elmúlt évtizedekben számos formát öltött. A téma olyannyira népszerű, hogy a mesterséges intelligencia, illetve az annak részterületét képező természetesnyelv-feldolgozáson (NLP) belül külön kutatási irány foglalkozik vele. Maga az NLP a mesterséges intelligencia kutatás azon területe, amely olyan algoritmusok és modellek fejlesztésével foglalkozik, amelyek célja az emberi nyelveken írt szövegek megértése úgy, ahogyan azokat egy ember is értelmezné. Ez a terület áll számos, napjainkban is igen elterjedt megoldás, például a gépi fordítási, vagy diktáláskor a hangzó beszédet leiratozó alkalmazások mögött is.

Az NLP-n belül szinte a kezdetektől jelen van az a törekvés, hogy egy írott szövegben azonosítani lehessen, hogy annak írója milyen érzelmeket igyekezett kifejezni. Az ilyen irányú kutatásokat leginkább a szentiment analízis címszó alatt lehet összefoglalóan megragadni, ugyanakkor szokás rá „opinion mining”, vagy „emotion analysis” néven is utalni. A fentiekből az első kettő többé-kevésbé azonos jelentéssel bír, a harmadik azonban némileg eltér. A fő kérdés ugyanis az, hogy a szöveg írójának viszonyulását valamilyen témához milyen granularitással szeretnénk elemezni.

Szentiment analízis esetében alapvetően három kategóriával dolgozunk, amelyek hagyományosan a pozitív – semleges – negatív tengely elemeit jelentik. Itt a cél az, hogy megállapítsuk, hogy az adott szöveg vagy szövegegység madártávlatból szemlélve milyen érzelmi viszonyulást hordoz. Érzelemelemzés esetében a helyzet annyival összetettebb, hogy a megtalálandó kategóriák konkrét érzelmeknek egy sokkal szélesebb spektrumából kerülnek ki. A feladattal kapcsolatos problémák pedig pontosan ezen az alapvető szinten kezdődnek.

Mint minden gépi tanulási feladat esetében, a feladat itt is a felismerendő kategóriák pontos megadásával kezdődik. Érzelemelemzésnél logikusan tehát meg kell határoznunk, mely érzelmeket is keressük. A részletekbe és az egyes elméletek körül kibontakozó vitákba nem túlságosan belemenve itt megemlíthetjük például a basic emotion theory-t. Ez abból az alapvető feltevésből indul ki, hogy az embernek korlátozott számú, biológiailag és pszichológiailag „alapvető” érzelme van. Ezek mindegyike a kapcsolódó viselkedési komponensek egy szervezett és ismétlődő mintázatában nyilvánul meg, azaz egymástól jól elkülöníthető. A kulcsszó az univerzalitás, hiszen az elmélet alapvetően arra kereste a választ, hogy mely érzelmek azok, amelyek kultúrafüggetlenül többé-kevéssé azonos külső jegyek (főként arckifejezés) alapján azonosíthatók. Ezek száma azonban még az elmélet képviselői között is eltér.

A legismertebb két osztályozás 6, illetve 8 alap érzelmet különböztet meg. Előbbi Ekman, míg utóbbi Plutchik nevéhez fűződik. A 6 osztályos rendszerben tényleg pusztán alapérzelmek elkülönítése történik meg (harag, undor, félelem, boldogság, szomorúság and meglepettség), míg a 8 osztályt megkülönböztetőben ezek ellentétpárokba rendeződnek (pl. szomorúság – öröm) és erősséggel is rendelkeznek (pl. bosszúság – düh – harag). Ez utóbbit szokás Plutchik-féle érzelemkerékként is emlegetni. A helyzet még inkább összetetté válik, ha figyelembe vesszük, hogy a fenti két rendszer az érzelmeket diszkrét, egymástól élesen elhatárolható pszichológiai állapotokként írja, azonban ezzel nem mindenki ért egyet. Egyes megközelítések amellett érvelnek, hogy minden érzelem egy többdimenziós koordinátarendszerben helyezhető el. Ennek tengelyei az érzelmek mögött álló pszichológiai komponenseket jelölik. Ilyen tengelyek lehetnek például a kellemes-kellemetlen, feszültség-ellazultság, és izgalom-nyugalom felosztások. Érdemes megjegyezni, hogy ebben a rendszerben minden érzelem alapvetően azonos, csak az intenzitás és a kellemesség fokában térnek el egymástól.

A fentiekből a fontos tanulság az, hogy az emberi érzések rendszere egyszerre lehet nagyon egyértelmű és nagyon összetett is. Ez igaz akár pszichológiai jelenségként, akár gépi tanulási osztályozási problémaként tekintünk rá.

Utóbbi esetében a tanítóadatokat valahogyan elő is kell állítanunk, ami legtöbbször kézi annotációval történik. Ilyenkor emberek felcímkézik a szövegeket a megfelelő szentiment vagy emóció kategóriákkal. A címkézés során bekövetkező hibák inkonzisztens eredményekhez vezethetnek a modelltanítás során, így az adathalmaz validálására is különös figyelmet kell fordítani.

Mindezeken túl nem szabad arról sem elfeledkeznünk, hogy az emberi viselkedés rendkívül összetett, ennek megfelelően kommunikációs szándékaink is sokfélék lehetnek, ezeket pedig explicit és implicit módon is kifejezhetjük. Írott szövegek esetében egy gyakran felmerülő probléma például az irónia vagy a szarkazmus. Ezekben az esetekben a mondatok szándékolt jelentése gyakran épp a szó szerintivel ellentétes. Ez nyilván kihatással van a szövegben detektálható szentiment vagy emóció értékre is, amely szintén megváltozik. Az ilyen anomáliákat írott szövegek esetében különösen nehéz detektálni, hiszen az, hogy valamit a beszélő ironikusan gondolt, nem állapítható meg egy konkrét szöveg alapján, csak egy sokkal tágabb kontextust figyelembevéve, vagy éppen a világtudásunk alapján kikövetkeztetve. Az ilyen helyzetek elemzése egyben a jelenleg létező modellek egyik legnagyobb korlátja is.

A fentieken túl felmerül még egy probléma, mégpedig a megfelelő szövegegység kiválasztása. Nem mindegy ugyanis, hogy egy teljes szöveghez, egy bekezdéshez, egy mondathoz, vagy akár csak egyetlen tagmondathoz szeretnénk valamilyen címkét rendelni az elemzés során. A mai leginkább kifinomult elemzési módszerek nemcsak arra képesek, hogy egy szöveg minden egyes mondatát osztályozzák, de megállapíthatják azt is, hogy az adott érzelem a szövegben melyik kifejezéshez kapcsolódik (Aspect-based Sentiment Analysis – ABSA).

Az eddig említett problémák persze itt is rendre felmerülnek, arról nem is beszélve, hogy minden eddig említett megoldás erősen doménspecifikus is lesz. Nem mindegy például, hogy egy modellnek egy webshopon forgalmazott termékekkel kapcsolatos vásárlói véleményeken kell helyesen működnie, vagy éppen egy politikai diskurzusban kell érzelmeket azonosítania.

A kérdés viszont talán legfontosabb aspektusa, hogy az érzelmek felismerése az emberi szociális interakciók során alapvetően multimodális folyamat. Amikor ösztönösen igyekszünk felmérni a velünk szemben álló személy érzelmi állapotát például egy beszélgetés során, akkor nem pusztán az alapján ítélünk, amit az illető mond. Az NLP-ben elterjedt módszerek esetében persze ez egy szükségszerű limitáció, hiszen a terület vizsgálati alanya ebből a szempontból pusztán a nyelvhasználat. Megjegyzendő, hogy ez számos esetben elég is pontos és releváns következtetések levonásához. Az érzelemfelismerés ennél egy fokkal tovább megy.

A cikk szerzője Üveges István, a MONTANA Tudásmenedzsment Kft. számítógépes nyelvészeti szakértője, valamint a HUN-REN Társadalomtudományi Kutatóközpont projektkutatója.

A cikk angolul Emotion Recognition—a Sheep or a Wolf in Sheep’s Clothing? (PART I.) címmel a Constitutional Discourse oldalán jelent meg.


[1] A cikk eredeti verziója tavaly jelent meg, azóta az EU AI Act-et elfogadták, és már csak kihirdetésre vár.


Kapcsolódó cikkek

2024. május 22.

Egyenlőtlenségek és lehetőségek a nagy nyelvmodellek világában

A mesterséges intelligencia fejlődése válaszút előtt áll. Attól függően, hogy hogyan alakítjuk a jövőt, válhat belőle mindenki számára elérhető, vagy csak a globális nagyvállalatok által privilegizált eszköz is. Az MI demokratizálása nemes és hasznos cél ugyan, de a kapcsolódó fejlesztéseket jelenleg mégis jelentős globális egyenlőtlenségek jellemzik. A kérdés az, mi ezen egyenlőtlenségek gyökere, és mit tehetünk, hogy felszámoljuk azokat?
2024. május 6.

A feketedoboz jelensége és következményei a mesterséges intelligencia alapú technológiákban

Vajon mennyire átlátható a mesterséges intelligencia működése? A „black box” kifejezés azt sugallja, hogy egy rendszer működése gyakran rejtély az emberek számára. De mi történik, ha például az OpenAI által fejlesztett ChatGPT algoritmus működését vizsgáljuk? És vajon ez a „fekete doboz” jelenség milyen kérdéseket vet fel a jogi és szabályozási követelmények teljesítésének képességéről, valamint a hibás döntésekért való felelősségről?