Компания OpenAI анонсировала выход новой версии своего известного генеративного искусственного интеллекта ChatGPT, который будет базироваться на GPT-4o.
Обозначение "О" указывает на фразу "omni" (всесторонний). Передовой интеллект ChatGPT на данный момент может обрабатывать аудио, изображения и текст. Как сообщается разработчиками, данный чат-бот реагирует на голосовые команды в среднем за 320 миллисекунд, что сравнимо с временем реакции в ходе обычного разговора. Новая версия GPT-4o демонстрирует высокую производительность, превосходящую модель GPT-4 Turbo, и эффективно обрабатывает изображения и аудио в сравнении с предыдущими моделями, подчеркивает команда OpenAI.
Ранее, чтобы общаться с ChatGPT в режиме голосового ввода, пользователи должны были ждать средней задержки в 2,8 секунды (для GPT-3.5) или 5,4 секунды (для GPT-4). В этих версиях голосовой режим работал на основе трех различных моделей: первая модель преобразовывала аудио в текст, затем GPT-3.5 или GPT-4 обрабатывали текст, а третья модель возвращала текст обратно в аудиоформат", - объяснили представители компании.
Однако при таком подходе GPT-4 терял множество информации и не мог передавать смех, пение или эмоции. "В случае с GPT-4o мы обучили новую модель, которая проводит анализ текста, изображений и аудио в едином пространстве; это означает, что все данные обрабатываются одной и той же нейронной сетью", - рассказали разработчики. Данная модель доступна для использования на более чем 50 языках, включая русский.
Пользователи могут пользоваться GPT-4o с 13 мая. Однако доступ к функциям голосового ввода будет предоставлен только ограниченной группе партнеров в ближайшие недели, а в июне он станет доступен платным подписчикам.
Другие возможности GPT-4o
Нейросеть умеет создавать изображения, запоминая заданных персонажей, что будет полезно, например, при создании комиксов. GPT-4o можно использовать для подготовки к собеседованию для устройства на работу, для помощи по школьным предметам – решения примеров, написания сочинений, для изучения иностранных языков, перевода в реальном времени.
Теоретически, нейросеть может рассказать слепому человеку о происходящем вокруг и предупредить об опасностях.
Два устройства с GPT-4o могут общаться друг с другом и даже петь, попадая в ноту в полифонических мелодиях.