Mastodon
3 min read

Jak pomocí AI zdarma přepsat zvukový záznam

Jak pomocí AI zdarma přepsat zvukový záznam

Tento návod pro práci s AI vyšel v newsletteru Mimo agendu. Nejaktuálnější příspěvky + další témata v něm vychází každé pondělí v 7:00.

Tento článek vznikl díky podpoře komunity. Pokud oceňujete mou práci a chcete přispět k růstu projektu, můžete se stát placeným členem a získat tak přístup k exkluzivnímu obsahu. Vaše podpora je klíčová. Děkuji a doufám, že se vám článek líbí.

Éra AI je jako závody ve zbrojení. Pokud to myslíte se svou profesí vážně, už teď musíte hledat cestu, jak nové nástroje využít ve svých pracovních procesech. U novinařiny a práce s textem je tahle revoluce už teď na spadnutí. Překlady jsou preciznější. AI dokáže udělat jednoduché rešerše. První věc, kterou jsem tak nějak zahrnul do své práce, je Whisper od OpenAI (autoři ChatGPT4). Whisper je open source AI pro přepis zvukového záznamu do textu. A zvládá to už teď skvěle.

Whisper testuje například Český rozhlas pro přepis nahrávek a výsledky jsou podle datového novináře Jana Cibulky velmi nadějné. Jako novinář z komerčních médií nemohu zůstat pozadu. Sepsal jsem návod, jak můžete Whisper zdarma začít používat i vy.

Tady je malá ukázka.

Zvukový záznam nahraný mikrofonem v Macbooku:

audio-thumbnail
Test AI pro newsletter
0:00
/0:31

Přepsaný text bez úpravy:

Jako novinář často přepisuju nějaké zvukové záznamy,
WISPR mě v tom dost pomůže.
Až na drobné výjimky,
třeba když použiju anglické slovo,
je schopný přepsat vše téměř přesně
a úpravy v textu jsou minimální.
Pokud přepisuju velký rozhovor,
který má třeba 15 minut,
může to trvat i jednu hodinu,
pokud jsem pečlivý.
Tady mi to přepíše během několika málo minut.

Jak je v nahrávce slyšet, ráčkuji a obecně si dost šlapu na jazyk. Přesto si s tím umělá inteligence dovede poradit. Zvládá i záznamy z diktafonu v ne úplně odhlučněném prostředí, což je pro novinařinu ideální. Navíc jsme úplně na začátku a Whisper se bude zlepšovat. Už teď došlo k několika drobným aktualizacím a výsledky jsou o ždibíček lepší než při uvolnění první verze.

Jak na to, abyste nezaplatili ani korunu a nemuseli vlastnit nadupaný počítač?

Google má službu jménem Colaboratory. Jejím prostřednictvím vám tenhle technologický gigant poskytne zdarma výpočetní výkon a vy můžete experimentovat se scripty v Pythonu.

Vznikly tedy předpřipravené dokumenty, kde stačí kliknout na pár tlačítek a můžete bez problémů Whisper použít ve svém prohlížeči (stejně, jako byste používali Google Docs).

Otevřete si tedy tento dokument Whisper na Colabu od Googlu.

Než začnete, klikněte na záložku Soubor a na Uložit na disk. Colab se vám uloží na vlastní Google Drive.

Pak pokračujte po jednotlivých krocích. Když na script najedete, objeví se tlačítko „play“. Prostě ho zmáčkněte. Počkejte, až script doběhne.

Pokračujte ke kroku 2 a tam udělejte to samé. Až doběhne, doporučuji Whisper aktualizovat na nejnovější verzi.

Nahraďte tedy: !sudo apt update && sudo apt install ffmpeg

tímto: !pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git A zmáčkněte zase tlačítko play.

U bodu 3 klikněte na ikonku složky. Tam přetáhněte MP3 soubor. V mém případě šlo o soubor jménem Test AI pro newsletter.mp3.

Původní script:

!whisper "Oh Captain My Captain by Walt Whitman.mp3" --model medium

Přepište na jméno vašeho souboru. V tomto případě to bylo takhle. Věnujte prosím pozornost i té druhé části, kterou jsem vyznačil!

!whisper "Test AI pro newsletter.mp3" --model large-v2 --language Czech

Důležitá poznámka. Všimli jste si, že jsem ještě na konec scriptu přidal kód --model large-v2 --language Czech.Je to z toho důvodu, že menší model než LARGE nezvládá přepisovat češtinu tak přesně. Dalo by se říct, že jakýkoliv jiný model než LARGE je doslova nepoužitelný. To -V2 na konci je novější verze a –language Czech označuje jazyk, který bude AI přepisovat.

Poznámka na okraj: Model Large je strašně náročný na výpočetní výkon. Můj Macbook M1 to nedával. Google naštěstí poskytuje dost výpočetního výkonu, abyste měli za pár minut přepsanou půlhodinovou nahrávku.

Textové výstupy se vám pak zobrazí v bočním panelu v záložce Soubory. Prostě stáhněte výsledný textový soubor a můžete upravovat.


Děkuji za přečtení. Nejnovější tipy a návody naleznete v newsletteru Mimo agendu.