Jen přečíst, nebo i přeložit či vyhledat? Kroniky zájemcům pomáhá odtajnit AI
Boří jazykové bariéry i překážky nastavené odborností. Pracovníci Zemského archivu v Opavě do digitalizace kronik zapojili umělou inteligenci, a ještě víc tak rozšiřují možnosti zpřístupnění archiválií. Jejich obsah otvírají laikům i lidem jiných národností. AI už přepsala 1 300 kronik, další každý den přibývají. Archiv její pomoc využívá jako první v zemi.
„I přes digitalizaci archiválií byl jejich obsah pro běžné badatele tak trochu zastřený. Často je psaný kurentem nebo v němčině a laik potřeboval někoho, kdo text uměl přečíst nebo přeložit,“ popsal šéf IT oddělení Zemského archivu v Opavě Pavel Doležal nejčastější překážky, na které lidé při nahlížení do starých textů narážejí.
Lidé, kteří například nevládnou němčinou, neměli šanci. Teď najednou jako by dostali brýle a čtou.
Pavel DoležalIT pracovník
„A zrovna u kronik jsou badateli často běžní lidé, které zajímá historie jejich obce,“ dodal Doležal. Právě u kronik archiváři začali využívat pomoc umělé inteligence. Rozhodující byl mimo jiné skutečnost, že jsou psané jako prostý, nestrukturovaný text, s jehož čtením AI nemá potíže.
Princip takzvaného OCR přepisu rukopisných archiválií spočívá v tom, že AI z naskenovaných stránek kroniku přepíše do strojově čitelného textu, s nímž lze s využitím dalších „chytrých“ nástrojů dál pracovat.
„Můžete v textu vyhledávat. Udělat si strojový překlad textu. Můžete přepis kroniky nechat zpracovat dalšími nástroji umělé inteligence a ptát se: Jsou tam záznamy o povodních? Kdy? Vypiš mi je. Ukaž mi příběhy odsunů, vytvoř seznam odsunutých a podobně,“ naznačil další možnosti Doležal.
Zemský archiv v Opavě
|
Detaily je lepší si zpětně ověřit, například překlady mohou obsahovat drobné odlišnosti nebo nepřesnosti. „Ale je to ohromná pomůcka a pomoc, mnohem rychleji se k té informaci dostanete. Umí zvládnout kurent, padá jazyková bariéra. Lidé, kteří například nevládnou němčinou, neměli šanci. Teď najednou jako by dostali brýle a čtou,“ popsal IT odborník.
AI s texty kronik nepracuje sama, jde o asistovaný přepis, vždy pod kontrolou archiváře. Systém se tím zpětně dál učí a zdokonaluje. „Největší posun udělal v chybovosti. Když jsme systém v polovině roku 2024 zaváděli, byl to skvělý středoškolák ve druhém, třetím ročníku. Učením se z něj stal prémiový doktorand,“ zhodnotil Doležal.
V digitální badatelně archivu je již třináct set takto zpracovaných kronik. Každý den přibývají další. „Pracnost asistovaného přepisu se snižuje. Na začátku archivář na jedné kronice dělal týden, teď ji dokáže zpracovat i během hodiny. Chybovost je malá a systém mu napovídá, kde si není přepisem jistý,“ vysvětlil Doležal.
Archivářka a jeho kolegyně Irena Moravcová dodala, že má smysl přepisovat i české tištěné kroniky. „Můžete s nimi dál pracovat, vyhledávat v nich. Navíc čeština je obrovskou jazykovou bariérou pro lidi ze zahraničí. Archiválie hodně zajímají třeba rodiny vysídlenců ze Sudet, máme i poměrně velkou fanouškovskou základnu v Austrálii.“
Šifry mistrů policistů. Opavští archiváři luští telegramy z dob Rakouska-Uherska![]() |
Prozradila také, že ač je OCR přepis určený primárně pro badatele zvenčí, občas jej využijí i samotní archiváři. „Když něco nemůžu přečíst, protože je písmo drobné nebo vybledlé, tak to AI nabídnu. I když to nemusí přepsat přesně, aspoň mě navede.“
Zemský archiv v Opavě a jeho pobočky AI takto využívají jako první v republice. Badatelé OCR přepis najdou v digitální badatelně Zemského archivu v Opavě jako součást zveřejněných archiválií pod ikonkou OCR.
Do budoucna by archiváři chtěli naučit AI zpracovávat i strukturovaný text, tedy třeba třídní výkazy, sčítací operáty, matriky či různé kartotéky. „Tam už nehraje roli jen prostý text, ale i jeho struktura - co je jméno, příjmení, rok narození a podobně. Ta je pro umělou inteligenci zatím náročná,“ uzavřel Doležal.
Další zprávy
Roste počet dětských skupin, náhrady jeslí. I na ně však dopadá nízká porodnost
Třicet umělců se zamýšlí nad fenoménem půdy. Výstava zaplnila galerii Plato




