Jogászok vs. algoritmusok: a gépi tanulás teljesítményének mérése a gyakorlatban egy LegalTech probléma esetén I.


LegalTech kutatás a gyakorlatban: a bírósági határozatok kereshetősége és klasszifikálása a gépi tanulás segítségével.

Jelen cikksorozatunk keretében egy felmerülő jogi informatikai problémára fókuszálva mutatjuk be azt, hogy hogyan lehet a gépi tanulás hatékonyságát mérni, és milyen eredményeket lehet elérni.

A sorozatban igyekszünk közérthetően, rövidebb cikkekre tagoltan a témát mélyebben nem ismerő jogászok számára is megvilágítani a kutatás egyes kulcsfontosságú részeit, és átadni az ebből nyert tapasztalatokat azért, hogy közelebb hozzuk a jogászokat a LegalTech gyakorlati hátterének és lehetőségeinek megismeréséhez.

Ebben az első részben a megoldani kívánt problémát és a fő kutatási kérdéseket mutatjuk be.

A jogászok és az informatika, programozás területe látszólag két külön világ, külön nyelvezettel: a jogász nem érti a programozót és vice versa – de ahhoz, hogy jogászként eligazodjunk a LegalTech ma már megkerülhetetlen világában, érdemes tájékozódni és szakmai ismeretekkel bővíteni a tudásunkat. A gépi tanulás és a mesterséges intelligencia nagyon felkapott témák lettek az utóbbi években, azonban a nem szakmabelieknek nehéz lehet felismerni, hogy mely program mögött áll valódi AI alapú megoldás, mit takarnak az egyes (nem jogi) szakkifejezések, és egyáltalán valóban olyan hasznos-e, mint ahogy azt állítják.

Ez utóbbi kérdést mindenkinek magának, a saját munkájára vetítve kell eldöntenie, hiszen azt tudni kell, hogy a mesterséges intelligencia alapú megoldások bevezetése egy cég, vagy ügyvédi iroda munkafolyamatai közé kezdetben sok esetben költséges és nagy időráfordítást igényelhetnek, ezért jogászként is tisztában kell lenni azzal, hogy milyen előnyöket hozhat egy program, milyen esetekben van rá szükség.

Az elmúlt években a szakmai adatbázisok területén is megjelentek különböző machine learning alapú szoftverek – alapvetően mindezek célja a munka pontosságának, gyorsaságának javítása mellett a jogászi munkának a „favágó”, sokszor nem is jogi jellegű feladatainak kiváltása, a leterheltség csökkentése azért, hogy az így felszabadult energiákat kreatívabban, valódi szakértői munkára tudják felhasználni az emberek.

Kiindulási pont: a bírósági határozatok kereshetősége

A jogi forráskutatás egyik meghatározó része az egyéni ügyünk számára releváns esetjog megtalálása. A fő cél, hogy megtaláljuk azokat a jogszabály-értelmezéseket és érveléseket, amelyek a peres eljárás során az ügyfelünk érdekeit szolgálják. Ez azonban az a része a jogászi munkavégzésnek, ami talán a legidőigényesebb és a legköltségesebb. A fő oka az, hogy a bírósági dokumentumokban való keresés sok esetben pontatlan, mivel a bírósági határozatokban az adott tényállásokat (amelyek alapján lehetne hasonló ügyeket keresni) sok esetben nagyon részletesen írják le, a használt fogalmak jelentése és a használt nyelvezet pedig eltérő lehet különböző bíráknál. Az egyszerű kulcsszavas keresés ezért sok esetben pontatlan találatokat eredményezhet, a releváns találatokat pedig nem mindig adja vissza.

Egy jó példa erre annak a munkavállalónak az ügye, akit elítéltek csempészésért és emiatt elbocsátották a munkahelyéről. A munkavállaló ezt követően beperelte a munkáltatóját az egyenlő bánásmód megsértése, az elmaradt bér és cafeteria juttatások, valamint a munkaviszony jogellenes felmondása miatt. Nehéz helyzetben vannak azok az ügyvédek, akik ehhez hasonló ügyeket szeretnének megtalálni. Ha ugyanis a csempészésre, illetve az azzal összefüggő szavakra keresnek rá, akkor büntetőjogi ügyeket fognak elsősorban kapni. Ha viszont az egyenlő bánásmód megsértésére vagy a munkaviszony jogellenes felmondására keresnek rá, akkor sokkal általánosabb ügyeket fognak kapni.

A pertárgyak felhasználása és a kategorizálás problémája

Az ilyen ügyek feltérképezésében a bírósági dokumentumok pertárgy szerinti kategorizálása jelenthet segítséget, és igaz ez általánosan a jogi forráskutatás során is, ugyanis akkor az egy témába tartozó dokumentumok egy csoportban lennének láthatóak. A dokumentumoknak a csoportosítása azonban nem egyszerű feladat. Jogászokkal, jogi szerkesztőkkel elvégeztetni a feladatot ugyanis jelentősen idő- és munkaerőigényes, hiszen az egyes határozatok hosszúak, bizonyos esetekben száz oldalasak is lehetnek, ráadásul egy dokumentum egyszerre több kategória alá is tartozhat. Emellett ennek a munkának a pontossága is kérdéses. Több kutatás kimutatta ugyanis, hogy már az emberi bináris kategorizálás is (tehát amikor csak azt kell eldönteniük, hogy a dokumentum egy adott téma szempontjából releváns-e vagy nem) eléggé pontatlan, ráadásul az egyes emberi kategorizálók közötti egyetértés általában 70% körül van. Így tehát a kézzel történő címkézés nemcsak sok időbe telik, hanem azok pontossága és kiértékelési módszere is kérdéses.

Ezek miatt az okok miatt egyértelműen felmerül a dokumentumok kategorizálásának automatizálása valamilyen gépi tanuláson alapuló módszer felhasználásával, amelyek az utóbbi időben a jogi informatika területén is kezdenek elterjedni. Ezeknek a megoldásoknak és módszereknek a legfőbb hiányossága azonban, hogy nem vizsgálják a pontosságát és a megbízhatóságát az emberi címkézéshez viszonyítva. A legtöbb kutatás ugyanis jobbára csak arra tér ki, hogy az egyes gépi tanuláson alapuló megoldásoknak a hatékonysága hogyan viszonyul más mesterséges intelligenciát használó módszerhez, illetve hogyan viszonyul az abszolút pontossághoz. Az ügyvédi irodák, illetve más jogi adatbázist építő vállalatoknak azonban fontos lenne ismerni azt is, hogy a használt megoldás hogyan viszonyul az emberi pontossághoz, azaz mikor érdemes felváltani azt gépi megoldással.

A Wolters Kluwer Hungary Kft. és a MONTANA Tudásmenedzsment Kft. ezért ebben a közös kutatásában azt vizsgálta, hogy milyen előnyei vannak a publikusan elérhető, anonimizált bírósági határozatok gépi tanulás alapú kategorizálásának. A cél az volt, hogy rámutassunk, hogy a gépi tanulás alapú megoldások hogyan használhatók a gyakorlatban: mikor képesek felváltani az emberi szerkesztők munkáját, és hogyan tudják növelni a minőségét és a kutathatóságát a jogi adatbázisoknak, ezáltal pedig segíteni a jogászi munkát.

A kutatás fő kérdései

Összefoglalva tehát gyakorlati értelemben a legérdekesebb kérdés, hogy mikor mondhatjuk azt, hogy a gépi tanulás hatékonysága elérte az emberi hatékonyságot, és hogyan lehet beépíteni ezeket a megoldásokat a már létező üzleti dokumentumfeldolgozási folyamatokba. A kutatás ezért a következő öt fő kérdés megválaszolására irányult:

  1. Mennyi időbe telik az emberi kategorizálónak felcímkézni a teljes adatállományt (ami a kutatás idején a több, mint 170 000 anonimizált bírósági határozatot jelentette), mennyire képes gyorsítani a folyamatot a gépi támogatás?
  2. Mennyi információt képes kinyerni az emberi kategorizáló a gép segítségével és anélkül?
  3. Megbízhatóbban teljesítenek-e a gépi tanuláson alapuló algoritmusok az embereknél a jogi dokumentumok kategorizálása esetén?
  4. Az algoritmusok képesek-e elfedni a különbségeket a jogi szerkesztők és a jogi szakértelemmel nem rendelkező emberek vagy a nem-szerkesztő jogászok között?
  5. Mekkora az egyetértés a jogi szerkesztők kategorizálása között?

Jövő hét kedden a cikksorozat második részében bemutatjuk, hogy milyen módszertant használtunk a kutatás során.

Montana logó

wolters kluwer logó

Akiket pedig részletesebben is érdekelnek a kutatás eredményei és a megállapításaink, megtalálhatja a kutatásból készült teljes, angol nyelvű tanulmányunkat itt.

 A tanulmány szerzői:

  • Vági Renátó, jogász, az Eötvös Loránd Tudományegyetem Állam- és Jogtudományi Karának Jog- és Társadalomelméleti Tanszékének doktorandusz hallgatója, valamint a MONTANA Tudásmenedzsment Kft. jogi informatikai szakértője
  • Megyeri Andrea, a Wolters Kluwer Hungary Kft. innovációs és tartalomfejlesztési igazgatója
  • Csányi Gergely Márk PhD, NLP mérnök, a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karán doktorált, a MONTANA Tudásmenedzsment Kft. természetesnyelv-feldolgozási szakértője
  • Üveges István, a Szegedi Tudományegyetem Nyelvtudományi Doktori Iskolájának doktorandusz hallgatója, valamint a MONTANA Tudásmenedzsment Kft. számítógépes nyelvészeti szakértője
  • Vadász János Pál PhD, a Nemzeti Közszolgálati Egyetem Információs Társadalom Kutatóintézet, valamint a Nemzeti Közszolgálati Egyetem Digitális Jogalkalmazás Kutatócsoport kutatója, a MONTANA Tudásmenedzsment Kft. ügyvezető igazgatója
  • Orosz Tamás PhD, szoftverfejlesztő mérnök
  • Nagy Dániel, a MONTANA Tudásmenedzsment Kft. szoftverfejlesztési üzletágának vezetője

Kapcsolódó cikkek

2022. május 12.

Perbeszédverseny a Kúrián

2022. május 7-8-án a Kúria adott otthont a 2022. évi Közép- és Kelet-Európai Perbeszédversenynek. A magyar legfelsőbb bírói fórum tárgyalótermeiben a próbatétel előfordulói zajlottak.