Grammarly створила перший анотований GEC-корпус української мови і виклала його у відкритий доступ

22 січня 2021 р. •

1135

251 читач

GEC-корпус — це колекція текстів, що написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти містять граматичні, стилістичні та орфографічні помилки. Лінгвісти Grammarly перевіряють їх, позначають помилки і вказують відповідні виправлення (анотують). Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що написали майже 500 волонтерів з усієї України і з-за кордону. У січні Grammarly зробили корпус загальнодоступним. Його можна завантажити, досліджувати і розвивати. Ці дані будуть корисні тим, хто цікавиться лінгвістикою.

Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп’ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії. Якщо підсумувати простими словами значення цієї ініціативи, то це один із маленьких кроків, які наближають нас до чудової мети — навчити комп’ютер ще краще розуміти українську мову. Саме це надихає всю нашу команду!
Настасія Осідач, менеджерка команди комп’ютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу

Корпус також може мати позитивний вплив на створення нових онлайн-систем виправлення граматики в українськомовних текстах.

Окрім доповнення самого корпусу текстами, наша команда активно удосконалюватиме його технічну цінність. Ми підготуємо додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю.
Команда Grammarly

Джерело: ITC, UA-GEC