What's nAIxt?: juni 2024

donderdag 27 juni 2024

Van audio naar tekst (met labels per spreker)

Je kent OpenAI van ChatGPT en DALL-E. Maar wist je dat ze ook een speciaal model hebben voor het omzetten van audio naar tekst? Dat model heet Whisper. Het is een goed verstopt pareltje dat door de inzet van AI een hoge mate van nauwkeurigheid weet te bereiken. Ik schat zelf dat het voor tenminste 95% audio naar tekst op juiste wijze weet om te zetten.

Bij Contenture werken we op het snijvlak van data en content. We werken dus ook regelmatig een interview voor een klant uit. Om dat werk makkelijker te maken, hebben we met behulp van Zapier, Google Drive en de API van OpenAI een tool gebouwd die een audiobestand van een interview omzet in een uitgewerkte tekst met een aanduiding van de verschillende sprekers bij het interview.

Bekijk de afbeelding om de routing te zien in Zapier. Dit zijn de stappen: