What's nAIxt?: Van audio naar tekst (met labels per spreker)

Je kent OpenAI van ChatGPT en DALL-E. Maar wist je dat ze ook een speciaal model hebben voor het omzetten van audio naar tekst? Dat model heet Whisper. Het is een goed verstopt pareltje dat door de inzet van AI een hoge mate van nauwkeurigheid weet te bereiken. Ik schat zelf dat het voor tenminste 95% audio naar tekst op juiste wijze weet om te zetten.

Bij Contenture werken we op het snijvlak van data en content. We werken dus ook regelmatig een interview voor een klant uit. Om dat werk makkelijker te maken, hebben we met behulp van Zapier, Google Drive en de API van OpenAI een tool gebouwd die een audiobestand van een interview omzet in een uitgewerkte tekst met een aanduiding van de verschillende sprekers bij het interview.

Bekijk de afbeelding om de routing te zien in Zapier. Dit zijn de stappen:

Upload het audiobestand naar een specifieke map op Google Drive.
Zapier houdt deze map in de gaten en stuurt het bestand direct door naar Whisper.
Whisper maakt een transcriptie van het audiobestand.
De transcriptie gaat naar ChatGPT met het verzoek een inschatting te maken welke tekst door verschillende sprekers is uitgesproken.
De resultaten worden teruggeschreven naar Google Docs en die worden in dezelfde map op Google Drive geplaatst.

ChatGPT vergist zich nog wel eens in het ontrafelen van de tekst. Dan wordt een zin toch nog aan de verkeerde spreker toebedeeld. Maar grosso modo levert het een goed beeld op van wie wat heeft gezegd tijdens het interview. Mocht iemand echter nog een slimme manier weten om stap 4 te verbeteren, laat het dan hieronder weten.

What's nAIxt?

donderdag 27 juni 2024

Van audio naar tekst (met labels per spreker)

Zoeken in deze blog