ChatGPT wird Sprach- und Bildaufforderungen erkennen können

OpenAI bringt frischen Wind in die AI-Welt und führt für ChatGPT innovative Funktionen ein, die es ermöglichen, nicht nur über Text, sondern auch über Bilder und Stimme zu interagieren. Diesen Montag verkündete das AI-Schwergewicht, dass diese neuen Funktionen in den nächsten zwei Wochen für ChatGPT Plus- und Enterprise-Nutzer verfügbar sein werden.

Die Sprachfunktion, die optional ist, ist auf iOS und Android verfügbar und ermöglicht es den Nutzern, akustische Gespräche mit ChatGPT zu führen. Es ist, als würde man mit Alexa oder Google Assistant plaudern. Man drückt einen Knopf, stellt seine Frage und schon antwortet ChatGPT nicht in Textform, sondern mit gesprochener Sprache. Dies könnte die Welt der virtuellen Assistenten revolutionieren.

Um Sprach- und Audiokommunikation mit ChatGPT zu ermöglichen, verwendet OpenAI ein neues Text-zu-Sprache-Modell, das in der Lage ist, „menschlich klingende Audioausgaben aus Text und ein paar Sekunden Sprachprobe“ zu erzeugen. Zudem kann sein Whisper-Modell „gesprochene Wörter in Text umwandeln“. OpenAI ist sich jedoch der möglichen Probleme bewusst, die durch diese Funktion entstehen könnten, wie die Imitation öffentlicher Personen oder Betrug, und plant, ihre Verwendung auf spezifische Fälle und Partnerschaften zu beschränken.

Aber das ist noch nicht alles! ChatGPT ermöglicht es nun auch, Bilder zusammen mit Fragen oder Aufforderungen einzugeben. Dies ist in etwa vergleichbar mit Microsofts neuer Copilot-Funktion in Windows, die auf OpenAIs Modell basiert. Man kann sogar das Zeichenwerkzeug in der App verwenden, um seine Antworten zu klären und solange mit dem Chatbot hin und her zu kommunizieren, bis das Problem gelöst ist.

OpenAI ist jedoch vorsichtig, insbesondere aufgrund der anhaltenden Halluzinationsprobleme von ChatGPT. In Verbindung mit der Bildfunktion hat OpenAI beschlossen, bestimmte Funktionen einzuschränken, wie die Fähigkeit des Chatbots, „Analysen durchzuführen und direkte Aussagen über Personen zu treffen“.

ChatGPT hat seit seiner Einführung als Text-zu-Sprache-Tool im letzten Jahr einen langen Weg zurückgelegt. Es wurde von GPT-3 auf GPT-3.5 und nun auf GPT-4 aktualisiert, welches diese neuen Funktionen erhält. OpenAI hat mit verschiedenen Unternehmen wie Duolingo zusammengearbeitet, um die Genauigkeit der Hör- und Sprachlektionen in der Sprachlern-App zu verbessern, und mit Spotify, um Podcasts in andere Sprachen zu übersetzen, während die Stimme des Podcasters erhalten bleibt.

Diese Entwicklung ist ein großer Sprung für OpenAI und erweitert die Grenzen dessen, was AI erreichen kann. Es wirft Fragen auf über die Zukunft der Mensch-AI-Interaktion und die ethischen Implikationen solch fortschrittlicher Funktionen. Wird diese Innovation eine neue Ära der virtuellen Assistenten einleiten und sie stärker in unseren Alltag integrieren? Wie wird OpenAI den verantwortungsbewussten Einsatz dieser Funktionen sicherstellen, um Missbrauch zu verhindern und die Privatsphäre der Nutzer zu schützen? Und welche anderen sinnlichen Interaktionen können wir in der Zukunft von AI erwarten? Nur die Zeit wird es zeigen, aber die Möglichkeiten scheinen unbegrenzt zu sein.

Alle Kommentare

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Mehr