Az mesterséges intelligencia előzetes etikai képzés nélkül teljesítette a jogi etikai vizsgát (MPRE)

Cégvilág

2024. január 24. Stephanie Wilkins

artificial intelligence, ChatGPT, etika, jogi szakvizsga, legaltech, LLM, mesterséges intelligencia, Nagy nyelvi modellek, OpenAI, zero-shot learning

Kapcsolódó termékek: Jogi kiadványok, Ügyvéd Jogtár demo

A mesterséges intelligencia szoftverek OpenAI (nyílt forráskódú mesterséges intelligencia – a ford.) GPT-4 és az Anthropic Claude 2 verziója sikeresen letette az etikai vizsgát. A LegalOn Technologies kutatói megjegyezték, hogy habár a technológia segítheti az ügyvédeket az etikus döntéshozatalban, de nem helyettesítheti őket ebben a szerepkörben.

A LegalOn Technologies (a mesterséges intelligencia általi szerződés-ellenőrzésekkel foglalkozó vállalat – a ford.) szerződés-felülvizsgáló és tervezeteket készítő startup kutatói bejelentették egy új tanulmány eredményeit, amelyben két népszerű generatív AI (artificial intelligence – mesterséges intelligencia – a ford.) nagy nyelvi modellje – az OpenAI GPT-4 és az Anthropic Claude 2 – sikeresen teljesítette a Multistate Professional Responsibility Exam (többlépcsős jogi szakvizsga – MPRE – a ford.) vizsgát. Az MPRE, amely a jogi etika alapelvei alapján teszteli a hallgatókat, az egyesült államokbeli ügyvédi kamarába való felvételhez szükséges – két joghatósági terület kivételével.

2023 márciusában a kutatók bejelentették, hogy az OpenAI GPT-4 modellje sikeresen letette az Uniform Bar Exam (egységes ügyvédi vizsga – UBE – a ford.) vizsgát, olyan pontszámokkal, amelyek a vizsgázók 90 %-át felülmúlta. “A LegalOn tanulmánya tovább tágítja ezt a felfedezést, és feltárta, hogy ezek a modellek a szakmai felelősség körüli összetett szabályokban és ténymintákban is eligazodhatnak” – áll a sajtóközleményben. Hozzátéve: „Ez a mérföldkő rámutat arra, hogy a mesterséges intelligencia segítheti az ügyvédeket a jogi munkában, és bemutatja a jogra alkalmazott nagy nyelvi modellek egyre fejlettebb képességeit.”

Daniel Lewis, a LegalOn vezérigazgatója a Legaltech News-nak adott interjújában elmondta, hogy a vállalatnak több oka is van arra, hogy tesztelje a mesterséges intelligencia modelleket az MPRE megoldásában. „Az egyik az, hogy miközben olyan technológiát építünk, amely az ügyvédek támogatását célozza, rendszeresen gondolkozunk azon, hogyan építsük fel ezt oly módon, hogy támogassa őket a hatékonyság és a minőség szempontjából, de egyúttal abból a szempontból is, hogy ügyvédi tevékenységet folytassanak szakmai kötelezettségeik betartásával.” Hozzátette: „Azt is kiemelten fontosnak tartjuk megfigyelni, hogy ezek a modellek, mint a GPT-4 és a Claude, hogyan változnak és fejlődnek. Úgy éreztük, hogy ez egy olyan kutatás, amely elősegíti a saját magunk és az általános közösség megértését egyaránt.”

Mely nagy nyelvi modellek tettek sikeres vizsgát?

A LegalOn tanulmány négy modell (LLM) teljesítményét értékelte az MPRE vizsgán. Ezek az OpenAI GPT-4 és GPT-3.5, az Anthropic Claude 2 és a Google PaLM 2 Bison voltak. A tanulmány szerint az egyes modellek eredményét összehasonlították az MPRE hozzávetőleges megfelelési küszöbével minden olyan államban, ahol erre szükség van – a becslések szerint a sikeres vizsgához szükséges eredmény a joghatóságtól függően 56-64% között mozog. Minden nagy nyelvi modellt ún. “zero-shot” megközelítéssel teszteltek, ami azt jelenti, hogy a vizsgálat előtt nem kapott külön tanítást a jogi etikáról.

A kiválasztott nagy nyelvi modellek összehasonlítása a jogi etikai vizsgán. (Forrás: LegalOn Technologies)

A GPT-4 érte el a legmagasabb pontszámot, a kérdések 74%-ára válaszolt helyesen, ami hat százalékponttal magasabb, mint a hallgatók átlagos pontszáma. A Claude 2 valamivel túllépte a hozzávetőleges megfelelési küszöböt, a kérdések 66,6%-ára válaszolt helyesen, de a tanulói átlag alatt maradt. Ezzel szemben a GPT-3.5 és a PaLM 2 Bison egyaránt a becsült teljesítési küszöb alatt teljesített, a kérdések 49,3%-ra, illetve 42,1%-ra adott helyes választ.

A kutatók megjegyezték, hogy egyes modellek bizonyos területeken jobban teljesítettek, mint mások. Például a GPT-4 különösen jó eredményeket ért el olyan területeken, mint az összeférhetetlenség és az ügyfélkapcsolatok, míg alacsonyabb pontszámot ért el a pénzeszközökkel kapcsolatban.

„Ezek a nagy nyelvi modellek valóban fel tudják dolgozni az eléjük tárt ismeretanyagot, ami más dimenzióba emelik a mesterséges intelligencia használatát” – jegyezte meg Gabor Melli, a LegalOn mesterséges intelligencia részlegének alelnöke a Legaltech Newsnak. Véleménye szerint ezek az eredmények „fejlesztési lehetőségeket emeltek ki” a nagy nyelvi modellek továbbképzéséhez – tette hozzá.

A nagy nyelvi modellekre és a jogi gyakorlatra vonatkozó következmények

Az egyértelműség kedvéért leszögezendő, hogy a LegalOn kutatócsoportja nem azt sugallja, hogy a generatív AI-t vagy a tesztelt nagy nyelvi modelleket a jogi szakemberek etikai megítélésének helyettesítőjeként kellene használni.

„Ez a kutatás elősegíti annak megértését, hogy az AI hogyan támogathatja az ügyvédeket, és segít felmérni jelenlegi erősségeit és korlátait” – mondta Lewis a közleményben. „Nem azt állítjuk, hogy a mesterséges intelligencia megkülönbözteti a jót a rossztól, vagy hogy viselkedését erkölcsi elvek vezérlik, de ezek az eredmények azt mutatják, hogy a mesterséges intelligencia képes támogatni az etikus döntéshozatalt.” A Legaltech Newsnak megjegyezte, hogy a modelleket nem arra képzik, hogy elkerüljék az etikátlan válaszokat. „Nincsenek olyan védőkorlátok, amelyek bármilyen értelemben etikus magatartást érvényesítenek, de segítséget tudnak nyújtani az etikus kérdések megválaszolásában” – mondta. „Látjuk a lehetőséget, hogy előretekintve jogilag specifikus mesterséges intelligencia építésére kerüljön sor, amely az etikai korlátok között működik, de ezen a szinten még nem áll a technológia.”

Corey Longhurst, a LegalOn innovációs részlegének vezetője szerint a tanulmány lehetőséget kínál arra, hogy a jövőben további, az etikával és a felelősségvállalással kapcsolatos terület-specifikus ismereteket a generatív mesterségesintelligencia-eszközökbe ágyazza be.

Tekintettel arra, hogy a tanulmány alapja a zero-shot learning, „sok mindent tehetünk még annak érdekében, hogy még okosabbá tegyük (az említett modelleket – a ford.)” – mondta Gabor Melli. „Fontosnak találom a folyamatot az alapvonalnál kezdeni. De akár az összes MPRE útmutató is beilleszthető a modellek adatbázisaiba, melyek így visszatekinthetnek a korábbi tesztekre. Így sokkal jobban tudnának teljesíteni.”

Lewis megerősítette ezt, rámutatva, hogy a tanulmány „határozottan a jelenlegi teljesítmény szintjét jelzi, nem az elérhető maximális értékeket”.

A tanulmány részletes ismertetése

Eredetileg az MPRE 60 feleletválasztós kérdésből áll, amelyek a jogi etikával és a szakmai felelősséggel kapcsolatos témák széles körét fedik le. Tanulmányához a LegalOn minden egyes nagy nyelvi modellt 100 szimulált vizsgával tesztelt, amelyek összesen 500 kérdés különböző kombinációiból álltak. Ezeket Dru Stevenson professzor, a South Texas Houston Jogi Főiskola oktatója készítette.

A 100 szimulált vizsgát mind a négy modellnek a “zero-shot” módszertanának megfelelően anélkül kellett teljesítenie, hogy speciális tanítást nyújtottak volna nekik. Az eredményeket ezután összehasonlították a LegalOn által kiszámított becsült eredményességi küszöbértékkel. Mivel az MPRE teljesítési pontszámait nem hozzák nyilvánosságra, a LegalOn a megfelelési tartomány becslése során a legfrissebb, az Ügyvédi Kamaravizsgáztatók Országos Konferenciája által rendelkezésre bocsátott eredményekre támaszkodott, magyarázta Longhurst a Legaltech Newsnak.

A megfelelési tartomány kiszámítása során a pontszámokat kellett lefordítani, hogy megfeleljenek az MPRE skálázott pontszámainak, magyarázta Lewis. Míg a vizsgán 60 kérdés van, a skálázott pontszámok 50-től 150-ig terjednek, ami azt jelenti, hogy a megfelelően megválaszolt kérdések százalékos aránya határozza meg, hogy a próbálkozás sikeres volt-e vagy sem.

Stevenson professzor, a tanulmányban használt MPRE-kérdések szerzője a közleményben megjegyezte, hogy az AI azon képessége, hogy megfeleljen az etikai tesztnek, „fordulópont” mind a joggyakorlat, mind a jogi technológia számára. „Az etikai döntésekért való felelősség mindig a jogi szakembereknél marad, de ez a tanulmány megmutatja, hogy a technológia képes segíteni a jogi közösséget a magas etikai normák következetes betartásában” – tette hozzá.

A LegalOn 2017-ben alakult Tokióban, és bejelentette, hogy 2022 decemberében Lewis felvételével az Egyesült Államokban kíván terjeszkedni. A cég hivatalos amerikai bevezetésére 2023 áprilisában került sor, a GPT-4 alapú szerződésszerkesztő eszköz AI megjelenésével együtt.

Fordította: Takács Fanni Bernadett

Eredeti cikk: Gen AI Passes the MPRE With No Prior Ethics Training

Kapcsolódó cikkek

2024. július 25.

GVH-elnök: Európa versenyképességét fenyegeti a bürokrácia

Európa versenyképességét komolyan fenyegeti a túlzott bürokrácia és a túlszabályozás, amelyek gátolják az innovációt és a fogyasztók jólétét – mondta a Gazdasági Versenyhivatal (GVH) elnöke az erdélyi Tusnádfürdőn a GVH tájékoztatása szerint.

2024. július 25.

MNB: lényegesen javult a bankrendszer digitális felkészültsége

Az utóbbi évek során lényegesen javult a magyar bankrendszer digitális felkészültsége, a következő időszakban a biztosítási és a tőkepiaci szektornak is föl kell zárkóznia – mondta a Magyar Nemzeti Bank (MNB) digitalizációért és fintech fejlesztésért felelős ügyvezető igazgatója a jegybank fintech és digitalizációs jelentésének bemutatóján.

2024. július 25.

Fenntarthatóság és fiskális politika – Az EPR kapcsolata a magyar adórendszerrel

A szerzők, Szívós Alexander[1] és Svecz Máté[2] bemutatják a klímavédelmet célzó úgynevezett EPR-rendelet részleteit, mely – igazodva az uniós jogszabályhoz – bevezette a kiterjesztett gyártói felelősségi rendszert, miközben adózási vonzata sem elhanyagolható.