OpenAI представила выпуск GPT-4, последнее достижение в их стремлении продвигать глубокое обучение. GPT-4 — это мощная мультимодальная модель (обработка входных изображений и текста при генерации текстовых выходных данных), которая, несмотря на то, что она менее опытна, чем люди, во многих реальных ситуациях, демонстрирует производительность на уровне человека в различных профессиональных и академических тестах.
GPT-4, как обширная мультимодальная модель, принимает как изображения, так и текстовые входные данные и генерирует текстовые выходные данные. Несмотря на то, что во многих реальных случаях он менее искусный, чем люди, он демонстрирует уровень человеческого уровня в ряде профессиональных и академических показателей.
Например, GPT-4 набирает 10% лучших баллов на смоделированном экзамене на адвоката, а балл GPT-3.5 попадает в нижние 10%. Инженеры OpenAI потратили 6 месяцев на постепенное усовершенствование GPT-4, используя информацию из своей программы состязательного тестирования и ChatGPT, добившись лучших на сегодняшний день результатов с точки зрения фактичности, управляемости и соблюдения ограничений, хотя и не безупречных.
OpenAI запускает возможности ввода текста GPT-4 через ChatGPT и API (со списком ожидания ). Чтобы сделать функцию ввода изображения более доступной, они начали тесное сотрудничество с Be My Eyes . Кроме того, OpenAI открывает исходный код своей платформы для автоматической оценки производительности модели ИИ, OpenAI Evals , что позволяет любому сообщать о слабых сторонах модели, чтобы помочь в будущих улучшениях.
Возможности
В обычных разговорах разница между GPT-3.5 и GPT-4 может быть едва заметной. Разница становится очевидной, когда сложность задачи превышает определенный порог — GPT-4 оказывается более надежным, изобретательным и способным обрабатывать сложные инструкции по сравнению с GPT-3.5.
Чтобы понять разницу между двумя моделями, инженеры провели тесты на различных тестах, в том числе изначально предназначенных для исследования человеком. Инженеры использовали самые последние общедоступные тесты (олимпиады и бесплатные вопросы AP) или закупили практические экзамены 2022–2023 годов. Специальной подготовки к этим экзаменам не проводилось. Хотя модель столкнулась с небольшим процентом проблем с экзаменами во время обучения, результаты были сочтены репрезентативными — дополнительную информацию см. в техническом отчете OpenAI.
OpenAI оценил GPT-4 на традиционных тестах, созданных для моделей машинного обучения. GPT-4 значительно превосходит существующие большие языковые модели и большинство современных моделей (SOTA), которые могут включать в себя настройку конкретных тестов или дополнительные методы обучения.
Визуальные входы
GPT-4 может обрабатывать комбинацию текста и изображений в качестве входных данных, позволяя пользователям указывать любое видение или языковую задачу, аналогичную текстовому контексту. В частности, GPT-4 генерирует текстовые выходные данные (естественный язык, код и т. д.) на основе входных данных, содержащих смешанный текст и изображения.
GPT-4 отображает сопоставимые возможности в различных областях, включая документы с текстом и фотографиями, диаграммы или снимки экрана, как и при вводе только текста. Кроме того, он может извлечь выгоду из методов времени тестирования, разработанных для текстовых языковых моделей, таких как подсказки с несколькими выстрелами и цепочкой мыслей .
Входные изображения остаются предварительным исследованием и еще не являются общедоступными. Но вы можете увидеть пример ответа модели ниже:

OpenAI предлагает взглянуть на производительность GPT-4, оценив ее на ограниченном наборе стандартных тестов академического зрения. Тем не менее, эти цифры не полностью отражают его возможности, поскольку инженеры продолжают открывать для себя новые и захватывающие задачи, которые может решить модель. OpenAI намеревается опубликовать дальнейший анализ, показатели оценки и всестороннее исследование влияния методов тестирования в ближайшем будущем.
Заключение
В заключение, выпуск GPT-4 знаменует собой значительный шаг вперед в разработке крупномасштабных мультимодальных моделей ИИ, демонстрируя впечатляющие возможности в задачах обработки как текста, так и изображений.
Поскольку мы представляем себе возможности будущей модели GPT-5 , вполне разумно ожидать еще большего прогресса в ее способности справляться со все более сложными задачами, превосходя производительность GPT-4 в различных областях.
Мы ожидаем, что ChatGPT-5 будет отличаться более сложным пониманием контекста, расширенным творческим потенциалом и еще более плавной интеграцией визуального и текстового ввода. Это обеспечит преобразующий опыт взаимодействия человека и ИИ и откроет новые границы в приложениях искусственного интеллекта.