Чому Claude 3 краще за Chat GPT 4 для креативників та в чому саме?

4 березня компанія Anthropic представила нову версію своєї нейронки Claude 3 (укр Клод). Випустили три моделі: Haiku, Sonnet, Opus. Нам цікавий виключно Opus, бо по всім бенчмаркам він значно ліпший своїх конкурентів, включно з Chat GPT 4. 

Ми звісно бенчмаркам не повірили. Тим паче тут не має порівняння з GPT 4 Turbo та Gemini 1.5. Тому цю новину сприйняли, як звичайну рекламу – попередня версія теж так само гучно себе рекламувала, а на справді виявилась продуктом середньої якості. 

Але всього лише за три дні з моменту релізу Claude 3 зміг просто підірвати X (Twitter). Просто кожний AI artist чи промт-інженер поділились своїми порівняннями і відзначили, що Claude 3 дійсно найкраще рішення по роботі з текстовою інформацією на сьогодні. Інфо шум настільки сильний, що і ми вирішили перевірити як же ж воно насправді? Чи дійсно Chat GPT втратив місце короля?

Щоб розібратись, ми протестували модель Opus на 100+ різних тестів. Для вас поділимось найцікавішими та найпоказовішими результатами. Буде 15 прикладів, а також порівняння зручності використання. 

Тести:

1. Простий пошук інформації про людину. 

Тут перевіряли, як нейронки знаходять, аналізують та компілюють інформацію. В якості піддослідного кролика взяв себе. Очікування були дуже високі, бо в усьому світі по цьому тесту Claude сильно перевершує GPT. Але по Українському простору результат поганий. Claude просто вигадав інфо, а GPT знайшов правильні посилання, але не вірно їх змішав. Провал і там і там (автор не працював дизайнером та не був креативним директором). 

2. Пошук актуальної інформації.

Ми знали, що Claude не має доступу до інтернету, а отже можуть бути проблеми з пошуком актуальної інформації. Вирішили це перевірити.

Claude надав 1 справжню новину і дві зміксовані зі справжніх, але перемішаних і за минулі роки. GPT надав справжні новини, але застарілі. Актуальних новин за цей тиждень не має. Тобто справжність новин краще в GPT. 

3. Розуміння контексту. 

Ми запитали, як правильно приймати миш’як та ціанід. Обидві речовини є отрутою, хоча миш’як буває складовою деяких лікарських засобів. Тому нейромережі мали здогадатись, що відповідь – ніяк, це небезпечно. Claude чітко дав зрозуміти, що його не обхитрувати і навіть подумав, що людина яка пише подібні запити, може потребувати психічної допомоги і навіть надав певні рекомендації. GPT критично визначив це лише для ціаніду, а для миш’яку, на його думку, є певні можливості вживання. Мабуть, надалі я буду радитись із Claude стосовно вживання ліків. 

4. Систематизація інформації. 

Ми попросили нейронки створити графіки харчування на тиждень для однієї людини та оформити це в таблиці. Claude розрахував все дуже швидко. Його приклади сподобались. Калорії врахував і на прийом їжі і за день. Все чітко без зайвої інформації. GPT виконував задачу в тричі повільніше, робив якісь не потрібні розрахунки і за підсумком навіть не створив загальну таблицю. Claude явно перемагає в систематизації. 

5. Аналіз зображення. 

Ми завантажили картинки авто, в різних ситуаціях на Хрещатику і задали 5-ь питань нейронкам. Claude видав інформацію в 3 рази швидше, але постійно помилявся в розпізнавання номерів, не розумів, що номера Київські, додумував погоду (на першій картинці знайшов сніг, на другій калюжі) і загалом багато вигадував. На західних тестах Claude справлявся краще, але по Україні GPT аналізує краще.  

6. Аналіз документів

В нейронки завантажили креденшиалз нашої агенції і попросили видати самері. GPT дав дуже поверхневу відповідь, а Claude розподілив все по пунктах та краще проаналізував документ. В кінці видав саммері по саммері. Молодець). Тож документи краще опрацьовує Claude. 

7. Розв’язання рівнянь.

Claude не просто швидше вирішив рівняння, він ще й одразу описав хід своїх дій, що може бути дуже корисним для навчання, або списування). GPT просто видав результат. Після прохання розписати хід дій – зробив все правильно. Але плюсик отримує Claude

8. Логічність висновків. 

Тут ми попросили нейромережі проаналізувати байку відомого українського автора Олександра Лукʼяненко. Байка про млин і те, що потрібно цінувати те, що маємо. Обидві нейромережі впорались з підсумком моралі гарно. 

9. Жарти.

Переходимо до складнішого. До креативного. В цьому пункті тестуємо вміння нейромереж розуміти, що таке жарти. Ось вам два приклади. 

Claude на нашу думку тотально провалився. Історії він розповів чудові, навіть цікаво було їх почитати. Але вони схожі на "бредогенератор", а від жартів там нічого не має. Натомість GPT намагався жартувати і як мінімум був дотепним.  

10. Літературні можливості. 

Тут ми попросили нейронки написати поему. Щоб ускладнити задачу, то тематика не тривіальна – поема про кота і колбасу + суміжна рима. Claude майже впорався – його робота схожа на поему, не погано читається, складнощі лише в декількох рядках. При цьому він навіть зробив її жартівливою, врахувавши інсайти того як котики люблять ковбасу). GPT задачу провалив. Отже Claude явно має більш креативний потенціал до розповідей та віршування. 

11. Меми

Ми попросили згенерувати нейронки мем про робота та закон про обмеження дій ШІ. На нашу думку, GPT впорався краще, не кажучи вже про можливість згенерувати картинку. 

12. Пост в соцмережах.

Чи краще Iphone знімають відео ніж Samsung? Давайте подивимось як нейромережі написали про це пост для соцмереж. GPT видав стабільний результат, з яким можна працювати, лише потрібно трохи доробити пост. Проте Claude і додав СТА в кінці поста: і намагався передати тон-оф-войс Apple, і текст читається краще. Явно на голову вище. 

13. Сценарій до відео ролика

Даємо нашим нейронкам мінімум інформації і нехай вони напишуть покадровий сценарій відео ролика. На нашу думку, обидві впорались гарно.  

15. Інсайт

До моменту тестування жодна нейромережа не була здатна видати інсайт, з яким би і далі можна було піти працювати. Максимум – якась банальність. Це ми і побачили на перших спробах в обох нейромереж. Але після повторного запиту дати більш глибинний інсайт Claude зміг нас зацікавити. Ідея ролика де люди наче лисиці бігають за копченими сосисками, щоб порадувати себе здалась нам цікавою). Тож Claude перемагає. 

Окремо про зручність використання. 

1. Корпоративний доступ. 

В GPT є можливість логіну через пошту та пароль, в той час, як в Claude лише через пошту та обов’язкову верифікацію кодом, якщо це новий ПК. Через такий підхід передавати доступ співробітникам своєї кампанії не зручно і це сповільнює роботу. 

2. Збереження та архівація чатів. 

Різні чати є в обох, але в Claude створення нового чату реалізоване складніше і не так зручно. Додавати потрібно через плюсик вгорі, і потім шукати на головній сторонці в полотні всіх чатів. В GPT, це знаходиться з боку, швидко скролиться, а також є можливість швидко сховати всі чати і не витрачати час на їх видалення. Взагалі дизайн інтерфейсу Claude це просто кров з очей. 

Підсумок:

Claude нас здивував, як в плюс, так і в мінус. Місцями ми очікували кращого результату. Але, вже точно можна говорити, що 

Claude кращій ніж GPT 4 в:

  • Креативних генераціях: написати пост, сценарій, знайти інсайт, придумати слоган, створити вірш або поему.
  • Систематизації інформації та роботі з таблицями
  • Аналізі документів і саммері.
  • Розуміння контексту
  • Швидкості. В деяких моментах працює в 3 рази швидше.

Проте GPT 4 кращий у:

  • Зручності використання
  • Не забуваємо про GPT’s які можуть трохи пришвидшувати та покращувати якість генерацій.
  • Наданні актуальної інформації
  • Жартах
  • Створення картинок (у Claude її не має, а гроші ті самі).

Claude відчувається ніби співрозмовник, трохи серйозний, трохи ліричний. Він оповідач гарних історій, який полюбляє іноді пофантазувати. В той час Chat GPT відчувається, як бездушна технічна машина, але надійний партнер. Claude ідеально підійде для креативних агенцій і це буде кращим рішенням. Chat GPT підійде для більш технічних задач. 

П.с. Цікавий рендомний факт. Чому такі назви в моделей? Хайку - це зразок японської поезії з 17 складів, сонет складається з 14 рядків, а під "opus" в англійській мові зазвичай розуміють літературний твір грандіозного масштабу.

П.С.2 Ми створили телеграм канал по нейромережах https://t.me/neyrodiva, тож підписуйтесь. Тут багато чого цікавого по новинах, туторіалам, порівнянням та іншому в цій темі  

1038