Nyelvi modellek és AI alkalmazások a jogi munkában I. rész


A különböző generatív mesterséges intelligencia alkalmazások bevezetése a jogi munkavégzési folyamatok támogatásába jelentős változásokat hozhat a jogászok életében. Ennek a cikksorozatnak ezért az a célja, hogy bemutassa, milyen újításokat jelentenek a nyelvi modellekre épülő megoldások a korábbi módszerekhez képest, milyen feladatokban képesek támogatni a jogászi munkavégzést, milyen korlátai vannak jelenleg az elterjedésüknek, valamint milyen különböző jogi, etikai, társadalmi kihívásokat hoznak létre. Ez a cikksorozat első része, amelyben azt járom körül, hogy miben jelentenek újítást az olyan nyelvi modellekre épülő megoldások, mint a ChatGPT, a Gemini és a Claude a korábbi mesterséges intelligencia alkalmazásokhoz képest.

A nyelvi modell alapú szövegvektorizálás

Bevezetés

A ChatGPT 2022. november végi megjelenése óta a jogi szakirodalomban is számos cikk és tanulmány született erről és az ehhez hasonló megoldásokról. Ezekben a megoldásokban közös, hogy képesek szövegeket, képeket, videókat vagy hangokat mesterségesen olyan minőségben generálni, amiről korábban azt gondoltuk, hogy csak az emberek képesek rá. Az ezekről szóló írások azonban sok esetben csak egy-egy konkrét mesterséges intelligencia megoldásra vagy felületre fókuszálnak, és ritkán kerül szóba az ezeket körbevevő teljes ökoszisztéma, mint a nagy nyelvi modellek és a generatív mesterséges intelligencia.

Ha viszont valóban tisztábban szeretnénk látni azzal kapcsolatban, hogy ezek a megoldások milyen jogi, etikai és társadalmi kihívásokat hoznak létre, valamint milyen hatással lesznek a közeljövőben a jogászi munkavégzésre, akkor fontos látni, hogy pontosan mit takarnak és hogyan működnek.

Különösen igaz ez, ha figyelembe vesszük, hogy a legtöbb jövőkutatással kapcsolatos jelentés már a generatív mesterséges intelligenciát tartja a következő diszruptív technológiának, amely átalakítja a társadalmunkat és a munkahelyeket, és a jogászi társadalomra, a jogi munkavégzésre is nagy hatással lesz.

Fontos azonban megállapítani, hogy ezek az új típusú MI-megoldások, mint a nagy nyelvi modellek és a generatív mesterséges intelligencia alkalmazások, nem hoznak merőben új, forradalmi változásokat a számítógépes algoritmusok területén. A ChatGPT megjelenésével nagyon sokan kezdtek el rögtön az életünk teljes területét felforgató változásokról vizionálni, amelyek kissé fel is nagyították azokat a várakozásokat, amiket ez iránt a technológia iránt táplálhatunk racionálisan. Az viszont igaz, hogy a széles közvélemény számára ekkor vált igazán kézzel foghatóvá, hogy mire is képes az MI, és pontosan hol tartanak az ez irányú fejlesztések. A különböző mesterséges intelligencia és gépi tanulási megoldások azonban már viszonylag régóta az életünk részét képezi, elég akár csak a közösségi média tartalomajánló algoritmusaira gondolni, vagy a különböző automatikus döntéstámogatási rendszerekre, mint például a pénzügyi intézményeknél vagy bíróságoknál alkalmazott kockázatelemző alkalmazásokra, amelyek a hitelvisszafizetés vagy a visszaesés kockázatát képesek előrejelezni, és ezzel a döntéshozó munkáját támogatni.

Ebben a cikksorozatban ezért azt mutatom be, hogy

  • miben jelent mást a nyelvi modellekre épülő technológia, mint a korábbi mesterséges intelligencia megoldások;
  • miben tudnak ezek az alkalmazások segítséget nyújtani a jogászok számára a munkavégzésben;
  • milyen elterjedési korlátai vannak ezeknek az alkalmazásoknak;
  • mikben különböznek egymástól ezek a technológiák és ezáltal milyen különböző jogi, etikai, társadalmi kihívásokat hoznak létre.

Ebben az első részben technológia fókuszúan bemutatásra kerülnek a természetesnyelv-feldolgozás és a szövegvektorizálás alapfogalmai is.

Természetesnyelv-feldolgozás és szövegvektorizálás

A statisztikai alapú vektorizálástól a szóvektorizáláson át a nyelvi modellekig

A természetesnyelv-feldolgozás, vagy más néven Natural Language Processing (NLP) a mesterséges intelligencia, illetve azon belül is a gépi tanulás, valamint a számítógépes nyelvészet régi hagyományra visszanyúló közös részterületei. Lényege, hogy a gépi tanuláson alapuló algoritmusokat fel lehessen használni az emberi szövegek minél hatékonyabb feldolgozására, megértésére, illetve generálására.  Az NLP egyes megoldásait olyan területeken használják jelenleg, mint az automatikus összefoglaló-készítés, az információ kinyerés vagy névelem-felismerés, gépi fordítás stb.

Nagyon madártávlatból nézve egy NLP-alapú szövegfeldolgozásnak három fő lépése van: a szövegelőkészítés vagy -előfeldolgozás, a vektorizáció és a végső feldolgozás. Mind az előfeldolgozás, mind pedig a végső feldolgozás nagy területe az NLP-nek, hosszan lehetne a részleteikről írni, azonban ez túlfeszítené jelen cikknek kereteit, ezért a továbbiakban a vektorizálási folyamatot bontom ki bővebben, ugyanis az kapcsolódik közvetlenül a nyelvi modellekhez.

A vektorizáció lényege visszavezethető a szöveges információk általános természetére. A szöveges információk ugyanis eltérnek abban a többi adattípustól, hogy egyrészt a többihez képest strukturálatlanabb információtípusról van szó, másrészt viszont sokkal több jelentéstani/szemantikai információt hordoznak, ezért figyelemmel kell lenni arra, hogy ezek minél kevésbé torzuljanak a gépi feldolgozás során. A vektorizáció ugyanis röviden azt jelenti, hogy a szöveget numerikus adattá alakítjuk annak érdekében, hogy a különböző algoritmusok fel tudják dolgozni azt. Ugyanis a gépek nem tudnak „olvasni” olyan értelemben, mint az ember, nekik szükség van a numerikus formára, hogy fel tudják dolgozni az információt, ezt hívjuk vektorreprezentációnak. Az egyes vektorizáló megoldások pedig eltérnek abban, hogy hogyan készítik el a szövegből a numerikus információt. A végcél ugyanis az, hogy minél jobban le lehessen képezni a szöveges információt úgy, hogy minél kevesebb jelentéstani információ vesszen el útközben, ugyanis az negatívan hathat a konkrét NLP feladatra. A különböző vektorizálási megoldásokat megkülönböztethetjük aszerint, hogy statisztikai, szóbeágyazási vagy nyelvi modell alapú megközelítést használnak.

A statisztikai alapú vektorizálási lehetőségek a számítógépes nyelvészet terén az egyik legrégebb óta használt megoldások a szövegek numerikus leképezéséhez. Ezeknek a lényege, hogy a dokumentumban, illetve a teljes szövegállományban előforduló szavak vagy más nyelvtani egységek előfordulási statisztikáit vizsgálja, és ez alapján rendel minden szóhoz valamilyen numerikus reprezentációt, amit utána a gépi algoritmusok is fel tudnak használni. Ezeknek a típusú megközelítéseknek az egyik legjobban elterjedt megoldása az úgynevezett TF-IDF vektorizálás (term frequency inverse document frequency). Ennek a megoldásnak a kiindulópontja, hogy képes a szavakat numerikusan megjeleníteni az alapján, hogy az egyes szavakat súlyozza a fontosságuk alapján a szavak előfordulási gyakorisága alapján.

Az ilyen statisztikai alapú vektorizálási lehetőségek a kiindulópontját szokták jelenteni az NLP megoldásoknak, hiszen egyszerűen implementálhatóak és nem igényelnek nagy számítási kapacitást még nagy mennyiségű szöveg esetén sem. Hátránya viszont, hogy minden egyes szót azonos súllyal vizsgál, miközben tudjuk, hogy bizonyos szavak jobban tudnak reprezentálni egyes dokumentumokat, még ha ritkábban is fordulnak elő, illetve hogy ez a megközelítés statisztikai reprezentációkra redukálja a szavakat, melyeknek így elvesznek a jelentéseik, ezért az egyes kifejezések hasonló jelentése kezelhetetlenné válik.

Ezeket a hátrányokat igyekeznek kiküszöbölni a szóbeágyazás alapú megközelítések. Lényegük, hogy egy előzetesen felépített mélytanuláson alapú neurális háló segítségével az egyes szavakat leképezik egy adott vektortérben. Ezt úgy kell elképzelni, mintha lenne egy előzetesen megalkotott szótár, ami alapján át lehet alakítani az egyes szavak ember által olvasható formáját gép által olvasható numerikus formára és az adott szó mindig ugyanolyan megjelenítést kap, akármi legyen is a kontextusa. Ezek a megoldások tehát már képesek hordozni az egyes szavak alapvető jelentéstani információját, azonban hátrányuk, hogy csak a lokális információt veszik figyelembe, tehát nem veszik figyelembe az adott szó kontextusát, így a többjelentésű szavak leredukálódnak, illetve az algoritmus nem tudja figyelembe venni az adott szó környezetét, hogy az hogyan alakít a szó jelentésén, így természetesen a szöveg megértése torzul. Emellett pedig a szavak szórendje is elveszik, ezért szokták mind a statisztikai megközelítéseket, mind pedig a szóvektorizáláson alapuló modelleket szózsák (bag of words) modelleknek hívni.

Ezeket a hiányosságokat hivatottak kiküszöbölni a nyelvi modellek, amelyeknek célja, hogy a vektorreprezentáció kialakítása során figyelembe vegyék a szöveg kontextusát is, hiszen ez vezet a minél pontosabb jelentéstani reprezentációhoz. Ennek a feladatnak a megoldása koránt sem magától értetődő, hiszen minél inkább növeljük azt a kontextust, amit figyelembe akarunk venni, annál inkább növeljük azt a dimenziót, amit értelmeznie kell az algoritmusnak, ezzel pedig a modell működéséhez szükséges számítási kapacitás is nagy mértékben megnövekszik. Ezért a nagy kontextust is kezelni képes nyelvi modellek egyik legnagyobb felhasználási korlátja, ahogy majd látni fogjuk, pont ennek a nagymértékű számítási kapacitásnak a kezelése.

A nyelvi modellek tehát tulajdonképpen olyan gépi tanulási architektúrák, amik jelentős jelentéstani veszteség nélkül képesek nagyobb szövegkontextus értelmezésére és generálására úgy, hogy a szavak szórendjéből és szövegbeli elhelyezkedéséből fakadó többletinformáció nem veszik el. A legjobban működő gépi tanulás alapú szövegértelmező és szöveggeneráló megoldások ma már ilyen nyelvi modellekre, azon belül is főleg Transzformer alapú nyelvi modellekre épülnek.

Összefoglalás

Látszik tehát, hogy nem mindegy, hogy mi az a modell, amin az adott alkalmazás alapul, mert aszerint, hogy milyen típusú vektorizálást alkalmaz vagy milyen architektúra szerint épül fel, teljesen más feladatokra lehet használni, más társadalmi hatást várhatunk el tőlük, valamint más szabályozási kérdéseket is nyitnak meg.

Ezért érdemes tisztában lenni a különböző modellek és szövegvektorizálási megoldások képességével, ugyanis sem a társadalmi, jogi, etikai hatások, illetve az esetleges szabályozási kihívások vizsgálata, sem pedig a jogászi hivatásra gyakorolt jövőbeli hatások számbavételekor nem mindegy, hogy milyen típusú modell az, amire az adott alkalmazás épül. Nem mindegy ugyanis, hogy statisztikai vektorizáláson, szóvektorizáláson, vagy transzformer alapú vektorizáláson alapul az adott megoldás. Ezek ugyanis más-más hatásokkal járnak a társadalomra és a jogászi hivatásra is, valamint más-más szabályozási lehetőségeket vetítenek előre.

A cikksorozat következő részében ezért bemutatom, hogy hogyan épülnek fel a ma legkorszerűbb megoldásokként kezelt transzformer alapú nyelvi modellek, milyen komponensei vannak, mire lehet használni, illetve aszerint, hogy milyen komponensekből épül fel, milyen jogi munkavégzési folyamat támogatására lehet használni.

A szerző a Wolters Kluwer Hungary Kft. Legal Engineer és Legal AI szakértője, valamint az ELTE Állam- és Jogtudományi Doktori Iskola doktorandusz hallgatója


Felhasznált irodalom

  • Jain, A., Kulkarni, G., Shah, V., (2018). Natural Language Processing. International Journal of Computer Sciences and Engineering, 6(1)
  • Khurana, D., Koli, A., Khatter, K., & Singh, S. (2023). Natural language processing: State of the art, current trends and challenges. Multimedia tools and applications, 82(3)
  • Qaiser, S., & Ali, R. (2018). Text mining: use of TF-IDF to examine the relevance of words to documents. International Journal of Computer Applications, 181(1)
  • Yang, X., Yang, K., Cui, T., Chen, M., & He, L. (2022). A Study of Text Vectorization Method Combining Topic Model and Transfer Learning. Processes, 10(2)
  • Bengio, Y., Ducharme, R., & Vincent, P. (2000). A neural probabilistic language model. Advances in neural information processing systems, 13.

A cikk a Wolters Kluwer Hungary termékeire/szolgáltatásaira vonatkozó reklámot tartalmaz.


Kapcsolódó cikkek

2024. szeptember 11.

A compliance „állatorvosi lova”: a Boeing – 1. rész

A compliance életünk számos területén jelen van, gyakran észrevétlenül is: legyen szó például olyan nyaralásról, ahol repülőgéppel utazunk – itt is létfontosságú a szabályok betartása. A cikksorozat a Boeing esetét felhasználva szemlélteti, milyen következményekkel járhat egy hibásan működő compliance rendszer.