Od momentu, kdy se z nástrojů umělé inteligence stal masivní trend, obchází řadu profesních oborů strašák našeho nahrazení stroji. Ukazuje se ale, že okamžité nahrazování lidí z masa a kostí nulami a jedničkami stále není na pořadu dne. O to více se mluví o potenciálu AI ve světě, který je veřejnosti asi nejviditelnější – v médiích.
Nejde jen o rychlý rozvoj jazykových modelů a generativních textových nástrojů. Do popředí se dere nadstavba ve formě generování videa a řeči. Stačí napsat text a řada nástrojů dnes vygeneruje velmi realistický hlasový projev ale i kompletní video. Jakýmkoliv hlasem, s jakoukoliv tváří… Nehrozí tak „automatizace“ spíše než redaktorům profesi televizích a rozhlasových hlasatelů a moderátorů?
Faktem je, že virtuální spíkři nejsou vyloženě sci-fi. V audiovizuálních médiích se ji už několik měsíců objevují. Digitálního kolegu ve studiu představily televize od Jižní Koreje přes Kuvajt až po Řecko. Pozadu nezůstávají ani česká média, i když jejich AI moderátoři stále působí více jako způsob PR aktivace. Ať jde o A 11, nedávno celkem hlasitě řešenou TV Brno 1 nebo digitální dvojče moderátorky Báry Hacsi z rádia Expres FM.
Praxe ukazuje úskalí současného využití AI nástrojů u hlasatelství naproti obyčejným textům. Kde je čtení v zásadě jednovrstevné, u poslechu textu a sledování mluvící hlavy už divák vnímá sdělení v mnohem více dimenzích. Text od Chatu GPT dokáže dnes působit velmi uvěřitelně (faktickou správnost nechme úplně stranou). Imitovat autentickou intonaci a komunikovat i výrazy v obličeji? To už je jiná pohádka.
Ve vytvářeném textu je tak modelům stále potřeba jasně naznačovat, kde mají zvýšit hlas, kde udělat dramatickou pauzu a kde zvýraznit klíčovou informaci. To jsou věci, které (zatím) modely úplně nechápou, i když s rychlým vývojem je to pravděpodobně jen otázkou ne moc dlouhého času. Dnes je ale stále potřeba do textů technicky více zasahovat, pokud má výsledek působit co nejvíce lidsky. Tato potřeba tak narušuje klíčovou motivaci optimalizovat práci.
Zatím navíc mluvíme jen o skutečně rutinních rolích hlasatelů, tedy čtení zpráv nebo komentování písniček. V případě publicistického obsahu pak narážíme i na limity generativních modelů a jejich technického fungování. A tady zatím technologie lidskou práci nikdy ve větší míře neumí nahradit bez toho, aby silně neutrpěla kvalita obsahu.
Existují ale i netechnické bariéry AI hlasatelů v audiovizuálních médiích. Představu večerních zpráv odříkaných digitálními tvářemi nabourává střet s realitou. Televizní relace se již řadu let často nahrávají dopředu. Eliminují se problémy se spojením, přeřeky, hluchým místem nebo zpožděné střihy. Klasické zprávy ale i v roce 2024 audiovizuální média odbavují živě. A má to své praktické důvody.
Představu večerních zpráv odříkaných digitálními tvářemi nabourává střet s realitou.
„Živé zprávy“ dávají možnost obsah do posledních chvíle upravovat a reagovat na aktuální dění. Proto fungují tolik oblíbené živé vstupy z terénu. Funguje to ale i čistě lidsky. Živá bytost před kamerou působí na diváky intimněji, civilněji a dodává celému pořadu větší dojem aktuálnosti. A o tu jde stejně v zpravodajství odjakživa nejvíce.
Generativní AI nástroje tak velmi pravděpodobně v nejbližších letech nevytlačí klasickou autorskou práci nebo publicistiku. To ale neznamená, že na nás v blízké budoucnosti z rádií a televizí robotické hlasy mluvit nebudou (i když už třeba ani nepoznáme). Stanou se ale dobrým nástrojem pro optimalizaci a zjednodušení rutinních procesů. Z hlediska čtenáře povedou především k tomu, že se nabídka obsahů ohromným způsobem rozšíří. Skepticky řečeno zaplevelí více či méně generickým obsahem bez přidané hodnoty. Optimisticky řečeno i čtenáři okrajových témat dostanou mnohem více čtení, videí či podcastů z oblasti jejich zájmu.
Jsem skeptik? Možná ano. K AI je ale, a to pro tento buzzword platí prakticky ve všech ohledech, potřeba přistupovat co nejvěcněji.
Autor textu: Tadeáš Pepř, FleishmannHillard