Grammarly створила перший анотований GEC-корпус української мови і зробила його open-source
21.01.21
Сервис Grammarly анонсував створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови.
Grammatical Error Correction — виправлення граматичних помилок, мовний корпус — сукупність текстів, авторами яких є звичайні люди. Призначення корпусу — наукове та практичне вивчення мови. Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.
Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону.
Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску Grammarly у розвиток українського NLP (natural language processing — опрацювання природної мови).
Команда Grammarly продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.
Розробники вважають, що корпус може мати позитивний вплив на:
- Створення нових онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів.
- Сприяння використанню якісної української мови в онлайні. Цей корпус буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн.
Дізнатися більше про розробку і підтримати проект можна за посиланням: ua-gec-dataset.grammarly.com.
вологість:
тиск:
вітер:
Обзор смартфона Tecno Spark 20 Pro+: рестомод
Обновлённая серия смартфонов Tecno Spark 20 Pro+ состоит из трех моделей. Сегодня расскажем про топовою, которая к тому же, отличается по стилю от младших
BMW Vision Neue Klasse X — концепт футуристичного внедорожника
BMW автомобиль концептХотя выпуск BMW Neue Klasse X на рынок запланирован на следующий год, компания уже представляет прототип, который открывает новые перспективы в области автомобильных технологий.
Dell уволила 13 000 работников в 2023 году
Dell бизнесЭти сокращения штата компании Dell являются частью усилий технологического гиганта по сокращению расходов и улучшению эффективности производства.