2017 год запомнится как год, когда стал массово использоваться нейронный машинный перевод (НМП). Тем не менее, это не значит, что «вопрос» решен. Разумеется, любой человек, в совершенстве владеющий двумя языками, скажет, что это вовсе не так, даже, если будет пользоваться самыми продвинутыми сайтами, осуществляющими машинный перевод.
Тем не менее, сотни, если не тысячи исследователей пытаются решить эту проблему. К середине 2018 года количество исследований НМП выросло на 115%, по сравнению с показателями за предыдущий год. В период с января по июнь 2017 года компания «Slator», с помощью портала Arxiv.org, автоматической библиотечной онлайн-системы Корнеллского университета, нашла 91 исследование, посвященное НМП (где ключевое словосочетание «нейронный машинный перевод» встречалось либо в названии, либо в аннотации). В тот же период в этом году, число исследований возросло до 196.
Как мы предупреждали ранее, встречается ложноположительный результат и случаи, когда НМП упоминается как область текущих исследований или используется для проведения эксперимента, чтобы проверить гипотезу, относящуюся к более широкой сфере, например, к обработке текстов естественного языка или даже к машинному обучению и глубокому обучению вообще.
Также важно упомянуть переизданные публикации, когда первая версия исследования дополняется новой информацией или в нее вносятся изменения. Пусть их нельзя считать уникальными, они все равно причисляются к активности исследования данной области.
Небольшой спад
После всплеска весной 2018 года, когда некоторые крупнейшие технические компании мира опубликовали десятки исследований, в июле 2018 года их число снизилось, по сравнению с предыдущими месяцами.
В июле было опубликовано всего 26 исследований, только 9 из которых были напрямую связаны в НПМ и не являлись обновленным варивнтом ранее существовавшей работы.
Все в большем количестве исследований НМП упоминается как образец для ультрасовременной технологии нейронных сетей.
Для исследователей НМП это — хороший знак, но это также означает, что возрастает число ложноположительных результатов при использовании базы данных «Arxiv». К тому же, по мере того, как исследователи дополняют свои работы, число переизданных, обновленных публикаций также растет.
Изменяющиеся направления исследования
Так как НМП вошло в массовое пользование, со временем изменились общие темы исследования. В период с 1 ноября 2017 по 14 февраля 2018 года в исследованиях, опубликованных на портале «Arxiv», внимание было сосредоточено всего на нескольких основных темах, а именно на улучшении качества перевода и решении проблемы с нехваткой данных (например, с языками, для которых не хватает параллельных текстов).
Глядя на то, какие компании принимали участие в каком исследовании в период с 15 февраля по конец апреля 2018 года, получается, что крупные игроки выбрали совершенно разные направления исследования и разрабатывали собственные темы.
Например, команда по исследованию искусственного интеллекта социальной сети «Facebook» пыталась найти решения проблемы с недостатком параллельных текстов, что является практической проблемой для «Facebook», в 2017 году достигшей двух миллиардов пользователей, и требующей4,5 миллиарда переводов в день.
Тем временем интернет-магазин «Amazon» стремился к более высокой производительности, что резонно, так как их коммерческие предложения нацелены на корпоративных клиентов, использующих их облачный сервис, а также на поставщиков лингвистических услуг, которым бы принесли пользу улучшенная скорость и работа НМП.
Одно из исследований «Amazon» было посвящено «ограниченному декодированию», методу, который позволяет НМП стабильно переводить специфические слова и терминологию. Проблема заключается в том, что каждое слово, которое система НМП должна запомнить, чтобы правильно перевести, немного замедляет весь процесс.
Компания «Google», в свою очередь, сосредоточилась на улучшении качества перевода с использованием НМП, хотя гигантская поисковая система, как обычно, хочет усидеть на всех стульях. Есть несколько совместных публикаций команды «Google Brain» и «Microsoft» на тему языков с недостатком параллельных текстов, машинного чтения и ответа на вопросы, а также самостоятельного обучения.
«Google» даже представил улучшенные модели, которые, по сути, были гибридами существующих систем НМП. Согласно отчету «Google», производительность гибридных систем выше, чем у ультрасовременных НМП, в том числе, они превзошли встроенный переводчик «Google Translate».
Еще развивается, но уже влияет на индустрию перевода
НМП еще находится на стадии образования и исследования, которое началось в ученых кругах, получило поддержку от корпораций и продвигается в хорошем темпе. Первая половина 2018 года действительно продемонстрировала, насколько активны исследователи; май 2018 года превзошел апрель, и стал месяцем с наибольшим количеством публикаций, посвященных НМП.
Борьба за НМП становится общедоступной. На конференции SlatorCon London 2018 международный технический директор компании «Systran» Жан Сенелларт отметил: «в течение последних двух лет каждый месяц появляются примерно по два новых проекта для НМП с открытым исходным кодом».
Это, в какой-то мере, определенно, «эффект снежного кома», ведь эта технология предлагает такую ширину и глубину возможностей, что иногда даже компании-конкуренты работают над совместными исследованиями. «Ни одна компания в мире не может провести 250 исследований, чтобы проверить, правы они или нет», говорит Сенелларт. «Это одна из причин, по которым сегодня необходим открытый доступ».
Все больше и больше знакомых имен
В мае, июне и июле 2018 года все больше названий известных компаний начали фигурировать в исследованиях на портале «Arxiv». Конечно там были такие вечные игроки как «Google», «Microsoft» и «Amazon», а также представители сферы языка — «Systran», «Ubiqus» и «SDL».
Китай был хорошо представлен публикациями от гиганта онлайн-торговли «Alibaba» и интернет-компании «Tencent», даже поисковая система «Sogou» опубликовала исследование, пусть оно и не было непосредственно о НМП.
Не так давно, в июле 2018 года «Tencent» преступили прямиком к использованию системы с экспериментальным подходом, который позволял обнаружить проблемы с переводом, выполненным посредством НМП, не ориентируясь на эталонный перевод. Эталонный перевод похожим образом используется как критерий в системе «BLEU» (bilingual evaluation understudy) для оценки машинного перевода, но в последнее время это метод критикуется и считается неподходящим для НМП.
В аннотации к исследованию «Tencent» говорится: «по результатам экспериментов, наш новый подход может быть очень эффективен при работе с реальными базами данных. Наш успешный опыт использования данных алгоритмов, как в условиях разработки, так и использования в «WeChat», программе мгновенного обмена сообщениями, которая насчитывает более миллиарда активных пользователей в месяц, позволяет исключить множество недостатков нашей модели НМП, наблюдать за ее эффективностью при выполнении реальных переводческих задач и собирать собственные тестовые случаи, которые оказывают большое влияние на индустрию.»
Борьба за более высокое качество перевода системой НМП также ужесточилась. Проводятся исследования на тему повышения точности и адекватности перевода, улучшения оперативности работы системы и понимания контекста документа. Для многих исследователей проблема языков с недостаточным количеством материала также в приоритете, а исследовательские команды Японии (особенно «NICT» и «NAIST»), также как и Китай набирают темп.
В мире бизнеса влияние более высокого качества машинного перевода быстро начинает ощущаться производственно-сыбтовой цепочке и уже влияет на ценовые ожидания за единицу товара. Если вы хотите ознакомиться с экспертным анализом и результатами исследований на тему ультрасовременного нейронного машинного перевода, вы можете приобрести Отчет о нейронном машинном переводе от компании «Slator».