Детальний огляд Chat GPT-4o та порівняння з Claude
В понеділок 13.05.2024 OpenAI випустила нову модель Chat GPT-4 omni – нейронку, яка вміє працювати з текстом, звуком і графікою одночасно. Результати мого тестування та порівняння з Claude 3 Opus виявилися цікавими.
Окремо для вас записав відео версію нижче, а після неї буде текстова.
Тож вмощуйтесь зручніше, готуйте свої нейрони, а ми починаємо!
Ключові характеристики моделі
Копнімо глибше і подивимося офіційну інформацію по загальним характеристикам Chat GPT від самої Open AI
Ось перший рейтинг по потужності моделей. Нова версія, як бачимо перевершує всіх на голову,
А ось другий рейтинг по можливостях моделі в різних напрямках використання. Тут вона теж найкраща. Правда дивно, що Open AI так занижують оцінку Claude. Він точно не гірший за GPT Turbo! Але не хай.
Тепер про ключові переваги.
Перше, на що варто звернути увагу – це швидкість роботи GPT-4o.
Ця модель реагує на звук всього за 232 мілісекунди – швидкість реакції людини. А загальна швидкість у 2 рази вища, ніж у GPT Turbo.
Швидкість просто блискавична! Ось один із тестів
Друге – ціна.
Найтоповіша версія GPT 4o повністю безкоштовна! Всі GPTʼs так само безкоштовні.
Звісно буде і платна версія. Але вона така сама по функціоналу, просто заточена під професійну робот. Платним користувачам завжди доступні останні оновлення і сама версія матиме значно вищі ліміти ніж безкоштовна. Для порівняння безкоштовна версія опрацьовує +- 10 запитів кожні 3 години.
Але і це ще не все. Найбільша цінність криється в ціні токену. Вартість стала в 2 рази дешевше, ніж в GPT Turbo. Це важливо, якщо ви створюєте ботів та платите GPT за користування аудиторії ними.
В результаті, ми маємо найдешевшу нейронку сьогодні. Фактично це гейм-чейнджер, особливо для кодерів. Різні маленькі стартапи і конкуренти можуть сплакнули.
Третій плюс – інтеграція в десктопну екосистему.
Найближчим часом з'явиться додаток для Mac OS, який дозволить завантажувати скріншоти прямо з ПК і отримувати по ним аналітику та рекомендації. Плюс можливість спілкуватися голосом. І це лише початок! Сем Альтман обіцяє, що GPT 4o буде все глибше інтегруватися в екосистему ПК, і скоро ми зможемо навіть квитки замовляти один клік.
Цікаво те, що Open AI, в яку найбільше інвестує Microsoft, зробили додаток саме для Mac, а не для Windows. Пишіть в коментарях, чи замінить GPT стареньку Siri!
Четверта і найреволюційніша перевага - GPT 4o має прототипи людських можливостей.
Нова модель розуміє емоції і може їх відтворювати. Ось приклад:
Також gpt-4o має комп'ютерний зір і миттєво аналізує, що відбувається навколо через камеру. Просто подивіться, як розробник грається з собачкою!
Але найкрутіше - це можливості голосового асистента та переклад в реальному часі.
Англійську тепер можна не вчити, мабуть, так подумали інвестори з усього світу і обвалили акції Duolingo.
Інші схожі патерни використання ви зможете подивитись на сайті або на офіційному ютюбі, що вам дуже рекомендуємо.
UPD 5.
Сьогодні в ночі, Open AI викотили, ще одне величезне оновлення – можливість повної заміни Excel. Тепер в чат GPT можна буде працювати з таблицями і графіками, та редагувтаи їх.
Щодо мінусів, відзначимо три:
- Контекстне вікно все ще 128 тис. токенів. Хоч це і багато (десь 300 сторінок книги), але в конкурентів більше: Goggle Gemini обіцяє в 16 разів більше, а Claude 3 Opus має 200 тис. токенів.
Другий мінус – база даних оновлена лише на 13 жовтня 2023 року. Це не критично, але хотілось би новіше.
І третя – на поточний момент доступні не всі оновлення. Ми потестували, все що є на сайті. Певні зміни відчуваються, але більшість виглядає так, що наче ще не працюють. Open AI - обіцяє, що нові можливості по роботі з фото та зі звуком зʼявляться протягом декількох тижнів. Так само як і безкоштовна версія. Ми обовʼязково зробимо аналіз всіх графічних та звукових можливостей.
Порівняння з Claude 3 Opus
Можна багато говорити про можливості нової моделі, але краще за все подивитись на неї в бою і на практиці.
Я вже робив порівняння Claude та GPT-4o 7 березня. Тоді переміг Claude. Що ж, давайте тепер подивимось, чи змінилась ситуація?
Тест 1: пошук інформації
Тут перевіряємо, як нейронки знаходять, аналізують та компілюють інформацію. Для цього поставимо 3 питання по порядку.
В першому питанні, хай нам розкажуть, щось про канал Штучка Інтелект.
Claude нічого сформувати не змін, а GPT завершив роботу швидше, знайшов інформацію і навіть посилання надав. Хоча не всі з них актуальні. +1
В другому завдання хай розкажуть нам хто такий Годжо Сатору.
GPT завершив першим і систематизував інформацію по блоках правильно, чого не можна сказати про Claude, який трохи заплутався в магічних техніках.
Останнє третє питання - хай розкажуть нам, хто така Саманта з фільму "Вона".
І тут в Claude повний провал. Не знати хто така Саманта - це сором (Саманта – головна героїня фільму і штучний інтелект в рамках всесвіту). Щобільше, Claude навіть переконує нас що в фільму "Вона" такої героїні не існує.
Chat GPT 1. Claude 0.
Тест 2: аналіз файлів
Тепер перевіряємо, наскільки чітко нейронки вміють сканувати документи та видавати саммері по ним.
Спочатку протестуємо аналіз зображень.
GPT-4o опрацьовує задачу швидше. Він чітко описав, хто зображений на картинці Claude же вказав декілька поліційних машин, але тут вона одна. Номер та погоду всі вказали правильно - це аварійна ситуація від 20 жовтня 2020 року. Країну і місто вгадав лише GPT-4o. Claude напис Київ не помітив. Вулиці не назва ніхто, хоча GPT-4o вказав, що це якась центральна вулиця. Поки що виграє GPT-4o.
Тепер попросимо нейронки проаналізувати архівні або табличні документи.
І тут одразу мінус Claude - він цього просто не вміє. А от GPT-4o може. Ба більше, під час тесту він видає таку кількість аналізу і інформації, що голова обертом. У підсумку, відмітимо, що він написав правильні висновки, а от графіки якісь специфічні. Тобто тут є куди рости. Але все одне різниця між нейронками величезна.
Третє це аналіз PDF документів. Попросимо нейронки проаналізувати звичайний типовий договір агенції.
Тут одразу перейдемо до висновків - обидві нейронки впорались так собі. Вони просто прописали основні пункти договору і ніякого саммері. Claude правда визначив хто саме надає послуги.
Аналіз звуку або відео поки-що не доступні в GPT-4o. А Claude це не вміє. Але за рахунок вміння аналізувати архіви та документи бал віддаємо бал GPT-4o
Chat GPT 2. Claude 0.
Тест 3: логіка та мислення
Подивімось хто в нас Chat GPT-4o - гуманітарій чи технарь, а може два в одному?
Для початку оцінюємо логічне мислення. Хай обидві нейронки видадуть результати по звичайній логічній задачці:
"Швачка має кусок сукна 18 м і щодня відрізає по 3 м. На який день вона відріже останній раз?
Правильна відповідь 5 днів, бо на 5й день відрізається 5-й шматок, а 6 відпадає автоматично.
Обидві нейронки не впорались. Тож поки можемо не хвилюватись за людство =). Логікою ми кращі.
Далі хай вирішать математичне квадратне рівняння. Правильні відповіді 1 та 12.
GPT опрацьовує задачу швидше і відповіді надає вірні. Да і формат зручніший для списування). Claude повільніший, проте і відповідь теж вірна.
Ну і в кінці, хай кожна з них пожартує. Пишіть в коментарях чий жарт виявився смішнішим.
Нам сподобався від GPT-4o бо він хоча б схожий на жарт, а не на якусь історію біля вогнища. Хотіли б стендап від чат GPT-4o? Ми так, тому за підсумком всіх трьох задач бал отримує чат він.
Chat GPT 3. Claude 0.
Тест 4: робота з кодом
Для перевірки нейронок я попросив створити код простої гри арканойд і задав декілька умов по кольорам. Ну і найголовніша умова, щоб після програшу, гра не зупинялась і перезапускалась.
Роботу гри ви можете передивитись у відео на 10:40 хвилині.
Якщо ж зробити підсумки, то GPT-4o впорався дуже швидко, врахував всі деталі, але після програшу гра одразу перезапускалась, а не починалась з початку. Claude же знадобилось майже в 3 рази більше часу, умови по кольорам всі врахував, але гра після програшу одразу закривалась.
Суто за швидкість дамо 0,5 балу GPT-4o
Chat GPT 3,5. Claude 0.
Тест 5: креативність
В першу чергу - подивимось як чати вміють створювати пісні. До речі промпти можете використовувати і для себе.
GPT-4o впорався швидше, але жодний рядок не римується. Умова не виконана. А от Claude створив і риму і цікаві веселі тексти. Прикольно). Можна кидати в Suno Ai і робити пісню.
Далі побачимо ідеї відео роликів для рекламної кампанії, інсайту, а також слоган. Хай це буде бренд чаїв, під веселою провокаційною назвою. Трохи потролимо аудиторію теоретичних споживачів.
Обидві нейронки зробили досить середні ідеї, а GPT-4o ще й ніякий слоган. Проте опис креативу зробили досить гарний, ідеально підійде під презентації.
Тепер напишімо пост в соцмережі.
Claude одразу видає гарний креатив, навіть трохи занадто і при цьому порушив умову в 300 символів. Він зорієнтувався на 300 слів. З невеликою підказкою, він переписав креатив. Трохи втратив в цікавості, але все одно для основи людського поста підійде. А от GPT-4o написав взагалі якусь нісенітницю.
Залишається лише розробити клікбейтний заголовок для YouTube ролика. Цікаво хто впорається краще.
На нашу думку, і тут Claude переміг. GPT-4o швидший, але креативності йому забракло, не так цікаво і трохи нудно. Бал віддаємо Клоду.
Chat GPT-4o = 3,5.
Claude 3 Opus = 1.
Підсумки
З одного боку ми очікували, на щось зовсім нове, анонс Sora чи якийсь революційний крок в розвитку штучного інтелекту. З іншого отримали величезну кількість не надто фундаментальних, але вагомих мікро доопрацювань.
Ба більше, ми переконались, що Chat GPT дійсно прокачався. Раніше він майже в усьому програв Claude, а зараз відстає тільки в креативі.
Не можна не відмітити і те, що тепер у всіх є безкоштовний доступ до найтоповішої мультимодальної нейронки у світі. Це дуже конкурентне стратегічне рішення.
Ну і окремо варто відмітити що Історія з фільму "Вона" - вже реальність. Тільки от це не зациклено на коханні. Це більше про можливості та свободу.
Сподіваюсь вам сподобалось. Не забудьте підписатися на YouTube канал Штучка Інтелект, поставити вподобайки, поділитися контентом та залишити коментарі.
А якщо хочете бути в курсі всіх новинок зі світу нейромереж, то заходьте на телеграм канал Нейродива - там завжди найсвіжіші новини та найцікавіші обговорення!
Давайте разом розвивати AI в Україні!
До нових зустрічей!