Grammarly створює перший анотований GEC-корпус української мови

Grammarly збирає GEC-корпус (GEC — grammatical error correction, виправлення граматичних помилок) для української мови і, згодом, бажає викласти їх у відкритий доступ для загального користування. За словами команди, цей крок прискорить розвиток українського NLP (опрацювання природної мови).

Перший анотований GEC-корпус української мови — це колекція текстів, які написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Лінгвісти Grammarly перевірять ці тексти і виправлять (проанотують) помилки. Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дасть українській мові?

  • Нові онлайн-системи виправлення граматики в українськомовних текстах.
  • Прискорення розвитку українських комунікаційних асистентів.
  • Сприяння використанню якісної української мови в онлайні.

Що це дасть NLP-спільноті?

Це прискорить розвиток місцевої NLP-спільноти, а саме — надасть більше інструментів для досліджень.

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Grammarly

Збір текстів триватиме до 13 вересня. Долучитися до проєкту можливо на сторінці Grammarly.

Джерело: Grammarly

·
486
CASES
Ukraine
Читачів
99
  • Сергій Аністратенко
  • Bogdan Bilich
  • Владислав Горбунов
  • Aleksandra Galian
  • Алексей Чернов
  • Timur Kukharets
  • +93
Подкаст
Історії того, як представники нашої галузі протистоять російській агресії та підтримують Україну та один одного.
Слухайте, де вам зручніше:
Головна