Grammarly створює перший анотований GEC-корпус української мови
Grammarly збирає GEC-корпус (GEC — grammatical error correction, виправлення граматичних помилок) для української мови і, згодом, бажає викласти їх у відкритий доступ для загального користування. За словами команди, цей крок прискорить розвиток українського NLP (опрацювання природної мови).
Перший анотований GEC-корпус української мови — це колекція текстів, які написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Лінгвісти Grammarly перевірять ці тексти і виправлять (проанотують) помилки. Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.
Що це дасть українській мові?
- Нові онлайн-системи виправлення граматики в українськомовних текстах.
- Прискорення розвитку українських комунікаційних асистентів.
- Сприяння використанню якісної української мови в онлайні.
Що це дасть NLP-спільноті?
Це прискорить розвиток місцевої NLP-спільноти, а саме — надасть більше інструментів для досліджень.
Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.
Збір текстів триватиме до 13 вересня. Долучитися до проєкту можливо на сторінці Grammarly.
Джерело: Grammarly
Отримайте доступ до всіх онлайн-курсів від Креативної Практики про дизайн, розробку та креативне підприємництво.
Отримати безкоштовно