Google улучшила качество распознавания рукописного ввода в виртуальной клавиатуре Gboard
12.03.19
Google улучшила работу алгоритмов искусственного интеллекта для более коректного распознавания рукописного текста в своей виртуальной клавиатуре для мобильных устройств. К моменту запуска в 2015 году функция работала с 82 языками, а за прошлый год их количество превысило сотню.
В первоначальном подходе Google строка разбивалась на отдельные письменные символы, каждый из которых ассоциировался с несколькими вариантами подходящих букв, а затем подбирались наиболее вероятные слова. Теперь же происходит анализ последовательности ключевых точек с учётом временных меток и штрихов между ними, которая затем нормализируется и преобразуется в кубические кривые Безье. Этот процесс декодирования символов предоставляет вводные данные для многослойной рекуррентной нейронной сети (RNN). Экспериментируя с различными типами RNN, разработчики Google остановились на квазирекуррентных нейронных сетях (QRNN). Они обеспечивают лучшие результаты прогнозирования, что становится возможным благодаря чередованию свёрточных и рекуррентных слоёв.
Рекуррентная нейронная сеть создает матрицу, в которой каждый столбец соответствует одной входной кривой, а каждая строка соответствует букве в алфавите. Столбец для конкретной кривой можно рассматривать как распределение вероятностей по всем буквам алфавита (яркость ячейки соответствует степени вероятности). Однако каждая буква может состоять из нескольких кривых. Например, g и o на приведённом изображении состоят из четырёх и трёх кривых соответственно. Распознаватель на основе QRNN преобразует последовательность кривых в последовательность вероятностей символов. В матрице декодера встречаются в основном пробелы и яркие точки для символов «g» и «o», в результате чего выводится текст «go».
Новый подход позволил существенно, на 20–40 %, уменьшить количество ошибок при распознавании рукописного текста. Но для обеспечения удобного пользовательского окружения недостаточно добиться точной работы, её нужно сделать ещё и быстрой. Поэтому разработчики сконвертировали обученные в TensorFlow модели в модели TensorFlow Lite, вчетверо сократив нагрузку, и достигли минимальных задержек в клавиатуре Gboard при исполнении всех задач на самом мобильном устройстве.
вологість:
тиск:
вітер:
Наушники Sony WH-1000XM5: звук вне времени
Полноразмерные наушники Sony WH-1000XM5 уже достаточно долго присутствуют на рынке, но шума, простите, наделали не так много. Разберемся почему, ведь еще несколько лет назад серия Sony WH-1000XM была одной из самых популярных.
Тайвань снова трясет. TSMC вновь приостанавливала производство
процессор события в миреНовые толчки слабее и не принесли ощутимых разрушений. Однако есть информация, что некоторые нарушения в рабочем режиме заводов TSMC имели место
Gartner: инвестиции в ИТ в 2024 году увеличатся на 8%
статистика телекомСогласно свежим исследованиям Gartner, инвестиции в ИТ в 2024 году увеличатся на 8% по сравнению с 2023 годом и составят $5,06 трлн.