Grammarly збирає GEC-корпус (GEC — grammatical error correction, виправлення граматичних помилок) для української мови і, згодом, бажає викласти їх у відкритий доступ для загального користування. За словами команди, цей крок прискорить розвиток українського NLP (опрацювання природної мови).

Перший анотований GEC-корпус української мови — це колекція текстів, які написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Лінгвісти Grammarly перевірять ці тексти і виправлять (проанотують) помилки. Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дасть українській мові?

  • Нові онлайн-системи виправлення граматики в українськомовних текстах.
  • Прискорення розвитку українських комунікаційних асистентів.
  • Сприяння використанню якісної української мови в онлайні.

Що це дасть NLP-спільноті?

Це прискорить розвиток місцевої NLP-спільноти, а саме — надасть більше інструментів для досліджень.

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Grammarly

Збір текстів триватиме до 13 вересня. Долучитися до проєкту можливо на сторінці Grammarly.

Джерело: Grammarly