Indice dei contenuti
Sintesi:
Il team Qwen di Alibaba ha appena rilasciato Qwen2.5-VL, una nuova famiglia di modelli AI visione-linguaggio in grado di interagire con computer e smartphone, oltre a nuove funzionalità avanzate per l’analisi di documenti e video.
Dettagli:
- Il modello di punta 72B ha superato GPT-4o e Claude 3.5 Sonnet nei benchmark chiave per l’analisi di documenti e video.
- Può analizzare un video di un’ora ed estrarre momenti specifici, oltre a elaborare documenti complessi come fatture e moduli.
- Una nuova funzione offre controllo di agenti su app per smartphone e computer, con demo che includono prenotazioni di voli, editing di immagini e installazione di software.
- Le versioni più piccole da 3B e 7B sono disponibili gratuitamente, mentre il modello da 72B richiede autorizzazione per usi commerciali su larga scala.
Perché è importante:
Un nuovo “operatore” entra in scena, con il modello AI di Qwen che arriva appena una settimana dopo il tanto atteso rilascio di OpenAI. Con gli ultimi lanci di Qwen e DeepSeek, la distanza tra modelli open-source e closed-source e quella tra la Cina e gli Stati Uniti, sembra ridursi sempre di più