BHGY kivonatkészítés algoritmusok segítségével I. – Hogyan segít a mesterséges intelligencia a Jogtáron a bírósági határozatok tartalmának gyors megismerésében?
Ez a cikk több mint egy éve került publikálásra. A cikkben szereplő információk a megjelenéskor pontosak voltak, de mára elavultak lehetnek.
Újabb gépi tanuláson, azaz mesterséges intelligencián alapuló fejlesztés érhető el a Jogtáron: a bírósági határozatoknak készültek el automatikus kivonatai, melyek meggyorsítják a releváns ügyek kiválasztását.
A jogászok számára visszatérő feladat a munkájuk során, hogy az egyes ügyükhöz tartozó összes fontos jogi dokumentumot megtalálják, és az azokban lévő releváns információkat feldolgozzák, legyenek azok akár jogszabályok, akár bírósági határozatok. A jogi szövegek azonban az átlagos szövegeknél többnyire jóval hosszabbak és jóval bonyolultabb nyelvezetűek, azok feldolgozása és megértése emiatt jelentősen hosszabb időt vesz igénybe egy gyakorlott szakember számára is. Ezért kulcsfontosságú, hogy a jogászok minél hamarabb el tudják dönteni egy-egy dokumentumról, hogy az számukra releváns-e vagy sem, hogy ne töltsenek el feleslegesen sok időt olyan dokumentumok elolvasásával, amelyekről kiderül, hogy nem lényegesek az ügyükben. Ehhez nyújtanak segítséget az automatikus összefoglaló készítő megoldások, amelyek lerövidítik nekünk a szövegeket és megadott szempontrendszerek szerint kiemelik a számunkra legfontosabb tartalmi elemeket.
Ez az írás a Wolters Kluwer Hungary Kft. és a MONTANA Tudásmenedzsment Kft. közös, automatikus összefoglalót készítő algoritmusának fejlesztését bemutató cikksorozatának első része, amelyben bemutatjuk a megoldani szánt problémákat, az automatikus összefoglaló készítő algoritmusok típusait, valamint az elkészült kivonatok minőségét alakító tényezőket.
A fejlesztés már élesben elérhető a Jogtáron is a Döntvénytárban.
Megoldandó probléma
Manapság már evidenciának számít, hogy a technológiai fejlődésnek köszönhetően rengeteg digitális adat vesz minket körbe és rengeteg ilyen adat generálódik napi szinten is. Nincs ez máshogy a szövegek esetében sem. A szövegszerkesztő eszközök elterjedésével és a digitálisan elérhető információk térnyerésével már nem okoz problémát akár szakmai tartalmú szövegek nagy mennyiségű előállítása sem. Emellett ma már elérhetőek olyan alkalmazások is, amelyek pár attribútum megadása után több-kevesebb pontossággal akár teljes mértékben legenerálják nekünk ezeket a szövegeket. Ez pedig nagy kihívás elé állítja azon a szakmák képviselőit, akiknek az a napi feladata, hogy bizonyos szakterületek változásaival képben maradjanak.
Különösen igaz ez a jogászok esetén. A jogászoknak ugyanis visszatérő feladata, hogy az egyes ügyekben, amelyekben jogi képviseletet vállalnak vagy akár csak tanácsokat adnak az ügyfeleiknek, ismerjék az adott terület teljes szabályozását és joggyakorlatát. Ugyanis, ha valamilyen fontos információ elsikkad, akkor az ügyfél rosszul jár, a jogász reputációja pedig romlik. Ehhez viszont az kell, hogy a jogász teljeskörűen ismerje az adott ügyhöz tartozó összes releváns dokumentumot. Természetesen a jogászoknak ma is számos stratégiájuk van arra, hogy hogyan szűrjék ki a nem lényeges dokumentumokat (pl. joggyakorlat esetében érdemesebb csak a felsőbb bíróságok iránymutatásait alapul venni), de így is előfordulhat az, hogy az ügyvéd már csak akkor tudja meg, hogy nem releváns számára az adott határozat, amikor már végigolvasta azt, ami természetesen feleslegesen vesz el sok időt a munkájából, amit hasznosabban is tölthetett volna.
Ahogy azonban az egyes eszközök megkönnyítették a szöveggenerálást a technológia fejlődésével, úgy megjelentek olyan eszközök is, amelyek a szöveg feldolgozását és megértését teszik könnyebbé és gyorsabbá. Az egyik ilyen lehetőség az automatikus összefoglaló készítés. Az összefoglaló készítés gyakorlatát manuálisan már régóta alkalmazzák számos területen a szövegek terjedelmének lerövidítéséhez és a lényeg kiemeléséhez. A legtöbb szakmai területen azonban ez a feladat eléggé idő- és munkaerőigényes, ugyanis egy szöveg ilyen módon való feldolgozásához sok befektetett munka és szakértelem szükséges. Különösen igaz ez a jogi szövegek esetén, amelyek általában hosszabbak és bonyolultabbak is, mint a hétköznapi szövegek. Ha például az összes jelenleg nyilvánosan elérhető, kétszázezres nagyságrendű bírósági határozatból szeretnénk egy pármondatos kivonatot csinálni, akkor ahhoz sok idő és jelentős szakértői gárda lenne szükséges. Ráadásul ezres nagyságrendben keletkeznek havonta is új dokumentumok, amelyeket szintén folyamatosan fel kell dolgozni. A jogi összefoglaló készítés pedig olyan szakértelmet igényel, aminek ellátásához olyan kompetenciával rendelkező szakembereket kell alkalmazni, akik esetében nem biztos, hogy azt szeretnénk, hogy összefoglalókat készítsenek az összes munkanapjuk minden percében.
Ehhez tudnak segítséget nyújtani az automatikus összefoglalókat készítő algoritmusok, amely megadott paraméterek és szempontok szerint képesek összefoglalni egy adott szöveg tartalmát. A Wolters Kluwer Hungary Kft. és a MONTANA Tudásmenedzsment Kft. ezeknek a problémáknak a kezelésére fejlesztett egy algoritmust, ami képes minden, bármilyen karakterhosszúságú bírósági határozat lényegét kiemelni 4 mondatban kivonatként anélkül, hogy például ehhez a szöveget egyesével más alkalmazásban külön be kelljen másolni azért, hogy arról valamilyen összefoglaló készüljön.
Fontos azonban hangsúlyozni, hogy az összefoglaló készítés szubjektív műfaj, mindenki mást tarthat lényegesnek egy határozatból. A fejlesztés célja nem az volt, hogy a jogi lényegét emeljük ki a szövegeknek, hanem hogy megtaláljuk azt a módszert, amivel ki lehet emelni azokat a mondatokat, amik leginkább segíthetnek eldönteni a Jogtár felhasználóinak, hogy az adott határozat releváns-e az ügyükben vagy esetleg nem is érdemes vele foglalkozniuk.
Ebben a cikksorozatban bemutatjuk, hogy végül miért éppen 4 mondat, és miért kivonat mellett döntöttünk. Az alábbiakban ismertetjük, hogy milyen módszerei vannak az összefoglaló készítésnek, és hogy melyek azok a tényezők általánosságban, amelyek a kivonat minőségét befolyásolják. A következő részekben pedig részletesen is bemutatjuk a befolyásoló tényezőket, illetve az elkészült kivonatkészítő algoritmus eredményeit.
Összefoglaló készítés módszerei
Az automatikus összefoglaló készítő megoldásokat csoportosíthatjuk egyfelől aszerint, hogy egy dokumentumról készítünk összefoglalót, vagy egyszerre több dokumentum rövidítését szeretnénk elkészíteni. Az előbbit Single Document Summarizationnek nevezik, és ez áll a legközelebb ahhoz, amire gondolni szoktunk, amikor összefoglalóról beszélünk: amikor áttekintést szeretnénk kapni egy dokumentum tartalmáról annak érdekében, hogy képet kapjunk, hogy a dokumentum releváns-e a számunkra vagy nem, vagy nincs időnk részleteiben végigolvasni, és csak a fő tartalmi elemeit szeretnénk megismerni. A másik a Multi Document Summarization, amikor több azonos témában született szövegről készítünk egyszerre egy összefoglalót, ami abban segít, hogy egy témával kapcsolatban kerüljünk gyorsan képbe, illetve lássuk azokat a főbb tartalmi pontokat, amik közösek több dokumentumban. A bírósági határozatok tartalmi összefoglalásához, ami a projekt célja volt, természetesen az egy dokumentumból nyert összefoglalók azok, amelyekre szükségünk van.
A másik csoportosítási lehetősége az automatikus összefoglalóknak az a készítés módja. Ez alapján beszélhetünk absztraktív és extraktív összefoglalókról. Absztraktív összefoglalóknak hívjuk azokat az összefoglaló készítési módszereket, amikor az algoritmus a dokumentum és annak fő tartalmi elemei alapján tulajdonképpen új szöveget generál összefoglalóként. Ezért ezt a módszert generatív módszernek is szokták nevezni. Ezzel szemben az extraktív kivonat nem új szöveget generál, hanem a dokumentum mondatait bizonyos szempontok szerint rangsorolja, a legrelevánsabbakat kiemeli és azok összefűzéséből készít kivonatot. Ez a módszer gyakorlatilag ahhoz az eljáráshoz áll a legközelebb, amikor vizsgára való tanuláskor a tankönyv első elolvasása során szövegkiemelővel kiemeljük a legfontosabb mondatokat, hogy később elég legyen csak azokat átolvasni az optimális időkihasználás érdekében.
Mindkét módszernek megvannak az előnyei és a hátrányai. Ha igazán jól működik, akkor az absztraktív módszer áll a legközelebb ahhoz, amit az emberek csinálnak akkor, amikor saját szavaikkal foglalnak össze egy szöveget. Manuálisan is általában ilyeneket szoktunk készíteni, ha az a feladatunk, hogy egy szöveg lényegét kiemeljük. Viszont a másikhoz képest ez a módszer még sokkal inkább kísérleti fázisban van, sok tanítóadat, illetve akár egy nagyobb nyelvi modell feltanítása is szükséges, ráadásul semmi nem garantálja, hogy nyelvileg és jogilag helyes mondatokat képes összerakni, különösen nem magyar nyelven. Gondoljunk csak a Chat-GPT esetére, ami bizonyos esetekben teljesen magabiztosan állít össze akár nyelvileg, akár tartalmilag helytelen mondatokat, amelyekről utóbbi esetben csak a szakértők képesek eldönteni, hogy hibásak.
Az automatikusan készített extraktív kivonatok ezzel szemben nem igényelnek előzetesen tanítóadatokat, ugyanis teljesen felügyelet nélküli módon készülnek, emellett pedig a hosszuk rugalmasan alakítható és mondatszinten biztosan értelmes és megbízható lesz, hiszen a dokumentum konkrét mondatait válogatja ki. A hátránya viszont ennek a megoldásnak az, hogy a kiválasztott mondatokat összeolvasva nem biztos, hogy logikailag összefüggő szöveget kapunk, hiszen a dokumentum különböző részeiről választja a mondatokat, amelyek nem biztos, hogy összetartoznak.
Mindezen okok miatt a Wolters Kluwer Hungary Kft. és a MONTANA Tudásmenedzsment Kft. úgy döntött, hogy az automatikus összefoglalók induló bevezetéséhez az egy dokumentumból készített extraktív kivonatok fejlesztése az, ami eléri azt a célt, hogy a felhasználók képet kaphassanak az egyes bírósági határozatok főbb tartalmi elemeiről, és a kapott Döntvénytáras találati listájuk esetén eldönthessék, hogy az ügyükhöz szükséges-e az adott határozat elolvasása vagy nem, ezzel gyorsítva és pontosítva a munkafolyamatukat.
Az extraktív kivonat minőségét befolyásoló tényezők
Az automatikus extraktív kivonat készítő algoritmus fejlesztése tehát tulajdonképpen nem más, mint egy nem-felügyelt gépi tanításon alapuló fejlesztés. Ahogy korábbi fejlesztéseinkről szóló cikkekben bemutattuk, a nem-felügyelt tanítás lényege, hogy a felügyelt tanítástól eltérően nincs szükség tanítóadatokra, hanem a szöveghalmaz belső szabályszerűségeit képes felismerni és ez alapján csoportosítani és rangsorolni az egyes szövegegységeket. Ez a kivonatkészítéssel kapcsolatban a gyakorlatban azt jelenti, hogy a nem felügyelt gépi tanuláson alapuló kivonatkészítő algoritmusok képesek vagy témakörök szerint csoportosítani az egyes dokumentumok mondatait és aztán általunk tetszőlegesen választott számú legfontosabb mondatot kiemelni az egyes témákból, vagy megadott szempontrendszer szerint rangsorolni a mondatokat, és nekünk csak azt kell meghatározni, hogy hány darab mondatot szeretnénk viszontlátni a kivonatban. Így az ilyen típusú fejlesztések lényege tulajdonképpen az, hogy megtaláljuk azt a nem-felügyelt tanításon alapuló módszert, illetve azokat a megfelelő beállításokat és paramétereket, amelyekkel az adott dokumentumtípusra, jelen esetben a bírósági határozatokra nézve a legpontosabb kivonatokat kapjuk.
Általánosságban négy olyan tényező van, amivel az elkészült kivonatok minőségét tudjuk befolyásolni. Először is a vektorizálási forma megválasztásával. A vektorizálás lényege, hogy ahhoz, hogy a számítógép feldolgozni és elemezni tudja a szöveges dokumentumokat, szükség van arra, hogy numerikus formára hozzuk a szövegeket, viszont a különböző vektorizálások különböző hatással járnak, így a megfelelő vektorreprezentációs forma megválasztása kulcsfontosságú minden gépi tanulási projekt esetében. Fontos tényező továbbá, hogy a nem-felügyelt tanításon alapuló megoldások közül a mondatokat automatikusan témakörök szerint csoportosító vagy a mondatokat fontossági sorrend szerint rangsoroló megoldást választunk. Ezek mellett fontos szempont a kivonatok minőségének szempontjából, hogy milyen hosszú (hány karakterből vagy hány mondatból) álló összefoglalót szeretnénk megjeleníteni az egyes dokumentumokhoz. Végül pedig, ha tudjuk, hogy a dokumentumoknak vannak olyan szövegegységei, amelyek mondatait biztos nem szeretnénk szerepeltetni az elkészült kivonatokban, akkor azokat a szövegegységeket érdemes kiszűrni már előre a lehetséges kivonat-mondatok közül, így csökkentve az elkészült összefoglalók zajosságát. Ezeknek a tényezőknek a részletes megoldásait, illetve a kivonat minőségére gyakorolt hatását a cikksorozat következő részeiben fogjuk bemutatni.
A további részekben bemutatjuk részletesen az extraktív kivonatok minőségét befolyásoló tényezőket, valamint az elkészült kivonatkészítő algoritmus eredményeit. Az algoritmus által készített összefoglalók már megtekinthetőek a Jogtár felületén is. Emellett értékelni is lehet a gép által készített kivonatokat, illetve szöveges visszajelzést is lehet küldeni, amiknek azért örülünk, mert további impulzusokat adhatnak a kivonatok minőségének, illetve ezáltal a felhasználói élmény javításához.
Felhasznált irodalom:
- Jain, Deepali, Malaya Dutta Borah, and Anupam Biswas. „Summarization of legal documents: Where are we now and the way forward.” Computer Science Review 40 (2021): 100388.
- Kanapala, Ambedkar, Sukomal Pal, and Rajendra Pamula. „Text summarization from legal documents: a survey.” Artificial Intelligence Review 51 (2019): 371-402.
- Kanapala, Ambedkar, Srikanth Jannu, and Rajendra Pamula. „Passage-based text summarization for legal information retrieval.” Arabian Journal for Science and Engineering 44 (2019): 9159-9169.
A cikk szerzői:
- Vági Renátó, jogász, az Eötvös Loránd Tudományegyetem Állam- és Jogtudományi Karának Jog- és Társadalomelméleti Tanszékének doktorandusz hallgatója, valamint a MONTANA Tudásmenedzsment Kft. jogi informatikai szakértője
- Csányi Gergely Márk PhD, NLP mérnök, a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karán doktorált, a MONTANA Tudásmenedzsment Kft. természetesnyelv-feldolgozási szakértője
- Üveges István, a Szegedi Tudományegyetem Nyelvtudományi Doktori Iskolájának doktorandusz hallgatója, valamint a MONTANA Tudásmenedzsment Kft. számítógépes nyelvészeti szakértője
- Megyeri Andrea, a Wolters Kluwer Hungary Kft. innovációs és tartalomfejlesztési igazgatója
- Fülöp Anna, a Wolters Kluwer Hungary Kft. szerkesztőségi főmunkatársa
- Nagy Dániel, a MONTANA Tudásmenedzsment Kft. szoftverfejlesztési üzletágának vezetője