Microsoft udostępnia trzy multimodalne modele AI: transkrypcję, głos i obraz/wideo

Zdjęcie: © Steve Johnson / Unsplash
Źródło: unsplash.com/photos/wj_LPlw2Rns
Kluczowe informacje
- Trzy modele: transkrypcja, synteza głosu i generowanie obrazów/wideo
- MAI-Transcribe-1 obsługuje 25 języków i ma wydajność 2,5× szybszą niż Azure Fast
- MAI-Voice-1 generuje 60 s audio w 1 s i pozwala tworzyć niestandardowe głosy
- Modele są dostępne w Microsoft Foundry; Microsoft akcentuje niższe ceny niż konkurencja



