Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ
GEC-корпус — це колекція текстів, що написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти містять граматичні, стилістичні та орфографічні помилки. Лінгвісти Grammarly перевіряють їх, позначають помилки і вказують відповідні виправлення (анотують). Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.
Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що написали майже 500 волонтерів з усієї України і з-за кордону. У січні Grammarly зробили корпус загальнодоступним. Його можна завантажити, досліджувати і розвивати. Ці дані будуть корисні тим, хто цікавиться лінгвістикою.
Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп’ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити комп’ютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!
Корпус також може мати позитивний вплив на створення нових онлайн-систем виправлення граматики в українськомовних текстах.
Окрім доповнення самого корпусу текстами, наша команда активно удосконалюватиме його технічну цінність. Ми підготуємо додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю.
Отримайте доступ до всіх онлайн-курсів від Креативної Практики про дизайн, розробку та креативне підприємництво.
Отримати безкоштовно