Yandex naučil neurónové siete dešifrovať archívne záznamy so zložitým pravopisom
Rôzne / / April 03, 2023
Historické rukopisy, ktoré sa človeku ťažko analyzujú, umelá inteligencia takmer okamžite prevedie do tlačeného textu.
Yandex spustil novú službu s názvom Archive Search, ktorá využíva neurónové siete na dešifrovanie archívnych záznamov pomocou zložitého predrevolučného pravopisu.
Služba poskytuje prístup k viac ako 2,5 miliónom strán historických dokumentov s textovými prepismi. Jeho algoritmus, vybudovaný na báze optického systému rozpoznávania znakov, zohľadňuje zvláštnosti rukopisu, rozpoznáva písmená, ktoré stratili význam, a chápe špeciálnu štruktúru archívnych dokumentov.
Špecialisti spoločnosti trénovali neurónovú sieť na dátovom poli stoviek tisíc ručne písaných riadkov zo skutočných textov 18. – 19. storočia a desiatok miliónov generovaných príkladov.
Rukopisy, ktoré je pre nepripraveného človeka ťažké analyzovať, technológia Yandex takmer okamžite premení na tlačený text. Vďaka tomu v databáze služby rýchlo nájdete dokumenty s uvedením priezviska, lokality, prípadne iných slov.
„Pátranie v archívoch“ zvýši efektivitu práce historikov, sociológov, demografov, genealógov a pomôže tým, ktorí hľadajú informácie o svojej rodine.
Prvým fondom prezentovaným v službe bol hlavný archív Moskvy - na jeho materiáloch vývojári trénovali neurónovú sieť. Databáza obsahuje aj dokumenty z archívov regiónov Orenburg a Novgorod. Postupom času sa počet úložísk a dostupných naskenovaných súborov zvýši.
Môžete vyhľadávať materiály z 18. – začiatku 20. storočia, ktoré sú medzi používateľmi najobľúbenejšie. Ide o farské matriky, spovedné hárky a revízne rozprávky s výsledkami sčítania obyvateľstva. Dokumenty nájdete v katalógu alebo cez vyhľadávací panel. K dispozícii sú filtre podľa rokov, archívov, fondov a inventárov.
Vedľa skenovania každej stránky sa zobrazí riadok po riadku dekódovanie vytvorené neurónovými sieťami. Ak umiestnite kurzor myši na požadovaný fragment, okamžite sa zvýrazní na digitálnej kópii.