70% українців обирають рідну мову онлайн, – дослідження newage.
Після 24 лютого 2022 року, ми стали свідками масового переходу на українську мову в соцмережах, на YouTube, у повсякденному спілкуванні. Це не просто зміна мовних звичок — це частина трансформації суспільства. Але поряд із цим виникло й інше відчуття — а чи не відбувається зараз “відкат”? Чи ми справді продовжуємо рух у бік українізації, чи лише перебуваємо в інформаційній бульбашці?
У newage. ми постійно працюємо з даними, створюємо кампанії, що базуються на аналітиці, і приймаємо рішення, спираючись на цифри.
Тож коли для мене особисто постало питання про те, як змінюється мовна ситуація в країні, ми вирішили підійти до нього по-своєму: не на рівні суб’єктивних відчуттів, а за допомогою open data та інструментів машинного навчання.
Ми поставили собі просте, але важливе питання: “А де ми?”
Де ми зараз у мовному сенсі як суспільство? Якою мовою українці коментують, спілкуються, публікують контент онлайн? І чи можемо ми виміряти це не за відчуттями, а за реальними цифрами?
Проблема традиційних підходів до вимірювання мовної ситуації
Питання мовної ситуації в Україні вже давно є предметом соціологічних досліджень, медіа-обговорень і політичних дискусій. Однак, попри активний інтерес, досі бракує об’єктивної, масштабної та регулярно оновлюваної статистики про мовні зміни в країні. Соціологічні опитування залишаються основним інструментом вивчення настроїв, але вони мають обмеження: невеликі вибірки, вплив формулювань запитань і політична заангажованість можуть спотворювати результати та їхню інтерпретацію.
В останні роки поширився аналіз пошукових запитів як індикатора суспільних змін, що вже є кроком до більш точного, data-driven підходу. Проте такі дослідження не дають розуміння мотивації користувачів і потребують серйозної інфраструктури для систематизації. Тому, щоб отримати більш комплексну картину, доцільно звернутися до аналізу поведінки користувачів у відкритому цифровому просторі, (хоча навіть дані з пошуковиків уже можуть служити корисним маркером).
Методологія дослідження
Замість покладатися лише на традиційні методи, ми вирішили застосувати те, в чому команда newage. має сильну експертизу — роботу з даними. В епоху open data мовне середовище можна вимірювати точніше, частіше й масштабніше. Головне — знати, що саме аналізувати і як із цим працювати. Тож ми обрали власний підхід, у якому поєднали відкриті джерела інформації з можливостями машинного навчання.
В основі дослідження — проста, але дієва ідея: використати ті дані, які вже є у відкритому доступі, і пропустити їх через сучасні machine-learning інструменти аналізу. Мовне середовище — це не лише розмови на кухні, а й коментарі в YouTube, обговорення в Telegram, оголошення на сайтах.
Те, як ми спілкуємось онлайн, — це своєрідне дзеркало суспільства.
Важливий дисклеймер: публічний простір (навіть якщо це коментарі під відео в YouTube чи під постом в Telegram) хоч і не завжди на 100% відображає приватне життя, але саме з нього починаються зрушення. Тож наше завдання — фіксувати, аналізувати й робити ці зрушення видимими.
Джерела даних, які ми аналізували
Для аналізу ми обрали кілька платформ, які найкраще відображають мовне середовище в публічній площині:
- Коментарі YouTube — один з найпотужніших каналів інформації. Коментарі під відео дають уявлення про реакцію аудиторії та переважаючу мову спілкування.
- Коментарі Telegram — надзвичайно популярна платформа, особливо в новинному та політичному сегменті. Ми аналізували як коментарі під постами, так і публічні обговорення.
- Один із найбільших e-commerce майданчиків — приклад платформи з максимально побутовим контекстом від користувачів. Мова оголошень тут часто свідчить про звички мовлення в реальному житті.
Як працює система
Щоб обробити такі обсяги даних, ми створили автоматизовану систему з кількох частин:
- Скрипти, парсинг, агрегація — система складається з трьох основних скриптів. Один оркеструє процес, інші відповідають за збір і обробку даних із конкретних платформ.
- Мовна ідентифікація через LangDetect — отримані тексти проходять через модель машинного навчання LangDetect, яка визначає мову кожного коментаря. Ми позначаємо їх як ua, ru або other (наприклад, англійська або емодзі). Модель не завжди може коректно визначити мову коротких фраз або символів — але це враховується в аналізі.
- Візуалізація через Google Sheets — зручний інтерфейс дозволяє обирати платформу, канал, часовий діапазон і миттєво отримувати результати: кількість коментарів, мовний розподіл у відсотках, а також динаміку.

Цей підхід дозволив нам створити гнучкий інструмент, який можна масштабувати, оновлювати та адаптувати під нові джерела даних.
Що ми побачили в даних
Після обробки понад 300 тисяч коментарів та повідомлень на різних платформах, ми змогли побачити чітку картину мовної ситуації в онлайн-просторі. Ці дані не лише підтвердили інтуїтивні відчуття, а й дозволили подивитися на тенденції у динаміці. Виявилося, що цифрове середовище здатне дуже точно фіксувати зміни в мовній поведінці суспільства.
Відсотки та динаміка по платформах
Українська мова впевнено посідає провідне місце в онлайн-комунікації.
У більшості великих платформ вона стала основною мовою взаємодії.
YouTube
Серед найпопулярніших каналів — «Леви на джипі»: 81% коментарів українською. У Fedoriv Vlog — 89%, у Підпільного стендапу — 87%. На каналах із переважаючою російськомовною аудиторією, як-от «95 квартал», українська мова поки не домінує — лише близько 49% коментарів. Це сигнал про те, що в деяких сегментах ще потрібно посилювати україномовну присутність і підтримку.

Ці канали — це тільки приклади, загалом було проаналізовано 200+ каналів.
Telegram
У Telegram ситуація не менш показова. Канал Стерненка має 83% україномовних коментарів, DeepState — 73% (менша кількість через наплив ботів з рф), Forbes Ukraine — 83%, AIN.UA — рекордні 92%. Навіть у каналах із активною різномовною аудиторією, українська мова впевнено тримає позиції.

Платформа з оголошеннями у сфері e-commerce
Побутова мова — ще один індикатор змін. У категоріях «робота», «транспорт», «дитячі товари» українська стабільно переважає (80–81%). В «електроніці», «оренді» та «послугах» — трохи менше (60–70%), але тенденція зростає. Навіть у «віддам даром» і «обмін» — понад половина оголошень українською.

Такі результати — це свідчення не лише мовних змін, а й вибору мільйонів українців — бути почутими своєю мовою.
Українська мова в регіонах: на шляху до єдності
Дані з Telegram-каналів по різних містах України яскраво показують: українізація відбувається не лише в центрі чи на заході, а охоплює всю країну — хоч і з різною інтенсивністю.
У містах західної України ситуація очікувано потужна:
- Львів — 93% коментарів українською,
- Івано-Франківськ — 92%,
- Тернопіль — 82%,
- Рівне, Житомир, Вінниця — 87–88%.

Центральні регіони також демонструють високі показники:
- Київ — 86%,
- Біла Церква — 81%,
- Полтава — 78%,
- Хмельницький — 77%.

А схід і південь також не відстають по відсотках:
- Харків — 53%,
- Миколаїв — 65%,
- Дніпро — 61–62%,
- Одеса — 54%,
- У окупованих областях — переважно 5–10% україномовних коментарів.

Важливо! У багатьох випадках ці цифри вже зросли в 2–3 рази з початку повномасштабного вторгнення. Це не найоптимістичніша картина, але вона покращується з кожним днем.
Чи є мовний відкат?
Це запитання ми чули часто. У соцмережах періодично виникають обговорення, що “українізація сповільнилась” або “є зворотній рух”. І справді, після хвилі українізації 2022 року хтось міг відчути, що темп знизився. Ми вирішили не спиратись на припущення — а звернутись до даних. І вони дали чітку відповідь.
Відкату немає – це підтверджують цифри
Наш аналіз охопив десятки каналів на різних платформах — від Telegram до YouTube та великих e-commerce майданчиків. На більшості з них українська мова утримує провідні позиції, а в багатьох — продовжує зростати. І хоч темпи можуть відрізнятися залежно від платформи, тематики чи регіону — тренд один: українська продовжує набирати силу.
Навіть на платформах, де можливий вплив бот-активності чи іноземної аудиторії (наприклад, Telegram), українська зберігає перевагу. У сегментах із меншою уразливістю — таких як YouTube чи платформи з побутовими оголошеннями — україномовність уже стала нормою.

Ще одна важлива ознака — регіональні зміни. У містах, де традиційно переважала російська мова, ми зафіксували значне зростання україномовного контенту. Наприклад, в одеських Telegram-каналах показники коливаються від 2–11% до 50%, у Харкові — понад 45%, у Дніпрі — стабільно понад 60%.
Це не просто тимчасова хвиля. Це — стійкий тренд. Так, перехід триває нерівномірно, але він триває.
Ключові інсайти дослідження
Після обробки даних з різних платформ і каналів ми виокремили кілька важливих спостережень, які допомагають краще зрозуміти реальний стан української мови в цифровому просторі.
Українська — це вже нова норма
На більшості проаналізованих платформ частка україномовних коментарів коливається в межах 65–85%. Повномасштабне вторгнення стало точкою зламу — мільйони українців свідомо перейшли на українську як у публічному, так і в особистому спілкуванні.
Бульбашки формують мовне середовище
Україномовні блогери, медіа та контент-творці створюють навколо себе активні спільноти, де українська — мова за замовчуванням. Це підсилює ефект “у нас всі говорять українською”. Хоч це й не завжди відповідає загальній картині, воно має величезне значення для нормалізації української в цифровому просторі.
Контент, який ми споживаємо щодня, впливає на мовні звички. Саме україномовні автори задають тон онлайн-середовищу — і тому варто підтримувати їхню видимість і розвиток.
Політичні канали — під прицілом ботів
На новинних та суспільно важливих каналах ми зафіксували хвилі бот-активності — переважно російськомовної. Такі атаки можуть спотворювати мовну статистику, але водночас стають індикатором уразливості інформаційного простору. Цифрова гігієна в цьому напрямку — критично важлива.
Регіональні зміни — глибші, ніж здається
Не лише Київ чи Львів демонструють позитивну динаміку. Наприклад, згідно з дослідженням “Детектора медіа”, в Одеській області частка людей, які розмовляють українською вдома, зросла з 26% у 2021 до 42% у 2023 році. Схожі зрушення відбуваються і в Харкові, Дніпрі, Кривому Розі. Так, шлях до рівномірної українізації ще триває, але його вже не спинити.
Ці інсайти — не просто підсумки дослідження. Вони — маркери майбутнього. Українська мова живе, розвивається і зміцнюється. І це не абстрактна ідея, а вимірюваний факт.
Що далі? Наші наступні кроки
Це дослідження — лише початок. Воно дало не тільки відповіді, а й нові запитання. І головне — підтвердило, що українська мова має силу, а ми маємо інструменти, щоб цю силу вимірювати, підсилювати й захищати.
Ми продовжуємо працювати над розвитком цього підходу: удосконалюємо технології, розширюємо обсяг аналізу та шукаємо партнерів, яким не байдуже мовне майбутнє України.
Розширення дослідження
Найперше — ми плануємо додати більше каналів для аналізу, охопивши ширше коло тем, форматів і аудиторій. Це дасть змогу краще відслідковувати мовну ситуацію в різних онлайн-спільнотах.
Також хочемо впровадити аналіз за додатковими змінними: вікова категорія, регіон проживання, рівень доходу тощо. Це допоможе зрозуміти, які саме групи населення найактивніше переходять на українську, а де, навпаки, потрібна додаткова підтримка.
Адаптація ML для пошуку ботів
Бот-атаки — одна з найбільших загроз для інформаційного простору. Ми працюємо над тим, щоб навчити нашу модель не лише розпізнавати мову, а й фіксувати аномальну активність: однакові фрази, маніпулятивні повідомлення, хвилі коментарів.
Наступний етап — можливість автоматичного сповіщення адміністраторів каналів або відповідних структур про скоординовані втручання.
Мова. Дані. Ідентичність.
Це дослідження — більше, ніж просто аналіз даних. Це приклад того, як технології можуть служити не лише бізнесу, а й суспільству. Коли аналітика базується на цінностях, вона стає інструментом змін.
Мовна ситуація в цифрах сьогодні відображає глибокі суспільні зміни: якщо до 2022 року україномовні коментарі були меншістю, то тепер спостерігається помітний рух у бік української. Дані показують, що мова змінюється не за наказом, а завдяки щоденним виборам людей, і цей поступ — хоч і нерівномірний — стабільно веде до утвердження української як нової норми, навіть на масових платформах на кшталт Telegram.
Це не просто про комунікацію — це про вибір, відповідальність і національну ідентичність. Тепер ми можемо впевнено сказати: ми говоримо, пишемо й думаємо українською, і за цими словами стоять не лише переконання, а й конкретні цифри, які підтверджують цей зсув.