HuSpaCy - ingyenes magyar nyelvi elemzőlánc

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely a mesterséges intelligencia és nyelvtechnológia legújabb kutatási eredményeit ötvözi egy magyar szövegeket elemezni képes könnyen használható eszközzé.

Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Ma már olyan – akár kisebb – cégek is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel.

A most elkészült magyar nyelvi elemzőrendszer már az iparban is használható erőforrásigénnyel és integrálhatósággal dolgozik, használatával egyszerűbbé válik a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A kifejezetten magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát akar megoldani, csupán nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken működő algoritmusok emberek által is értelmezhető nyelvtani szimbólumokra építenek, így a HuSpaCy megfelelő alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is”

– idézik a közleményben Farkas Richárdot, a Szegedi Tudományegyetem kutatóját.

Az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része így működik, azaz nem nyelvészek írnak szabályokat, hanem az úgynevezett tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására.

Az ilyen rendszerek problémája, hogy alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, tehát még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy nem is jól kontrollálhatók, ezért ipari alkalmazásokban sokszor csak korlátozottan használhatóak.

Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi tanulás alapú megoldásokat, hogy aztán ezek alapján az emberi szakértő által írt szabályok hozzák meg a végső döntést. Így egy-egy döntés átláthatóvá válik, és kérdéses esetben az emberi szakértő akár meg is tudja változtatni a rendszer viselkedését.

A magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a szükséges nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer ötvözi a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok teljes nyelvi elemzésére (szótő, szófajok, satöbbi) illetve névelemek (például személynevek, helységek) azonosítására is folyó szövegben.

A HuSpaCy napjaink MI-eszközeiből építkezik: tartalmaz neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind modern algoritmusokra épülnek – teszik hozzá.

A most létrehozott HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (például ügyfélszolgálatra beérkező panaszok automatikus leválogatására), információ kinyerésre és szövegek automatikus generálására is.

HuSpaCy – ingyenes magyar nyelvi elemzőlánc

Giorgia Meloni arcára hasonlít egy most restaurált angyal arca egy római bazilikában

Mundruczó Kornél új filmje a lelki teherbírás végső határáig megy

A hosszú élet titkát kutatva újabb faktorokat tártak fel

3 nő, 3 város 1 napon – Mambo Maternica

A Senki tanár úr Putyin ellen a közönség kedvence

Meryl Streep minden eddiginél letaglózóbb Az ördög Pradát visel 2 első előzetesében

53 év után most először küldenek embert a Hold közelébe

Új igazgató irányítja a Katona József Színház működését

Brian May: ma kockázatos turnézni az Egyesült Államokban – a Queen elkerüli Amerikát

Szenzációs felfedezés: Gutenberg 36 soros Bibliájának töredéke került elő

Egy éjszaka a mandalák kertjében – 1. rész – Előszó, Belépő

Megtalálták az Elveszett város maradványait az Atlanti-óceánban

Mit tehet a háborúellenes művészet háború idején? – Fegyveres pacifizmus?

Elment a magyar dzsessz nagy alakja, Kőszegi Imre

Rendkívüli intézkedések a velencei karnevál központjában

Titokzatos részletet fedeztek fel egy világhírű Raffaello-festményen

Váratlan hirtelenséggel hunyt el Fajgerné alkotótársa, Fajger János

Koncz Zsuzsa és az Illés tagjainak fotója került elő egy bolhapiacról

Kinevezték a Vígszínház igazgatóját a következő öt évre

Voith Ági hosszan tartó betegség után hunyt el

Kapcsolódó cikkek