You are here
Home > Наука и точка > Система машинного перевода от Google

Система машинного перевода от Google

Работники Google представили новое изобретение: система машинного перевода, основанная на принципах глубинного обучения. Данная система, как гласят оценки добровольцев, обладает более высокой точностью, нежели ранее существовавшие аналоги. Описание проекта находится в базе arXive.org

Над созданием подобной системы, которая могла бы осуществить точный перевод с одного языка на другой, трудятся различные специалисты уже много лет. Но представленные системы едва ли могут соперничать с живыми переводчиками, впрочем, только пока. За последние десятилетия точность машинного перевода очень увеличилась благодаря новым методам машинного обучения, развития параллельного вычисления и распространению баз данных, наполненных текстами на разных языках.

Все системы машинного перевода делятся условно на традиционные (переводят отдельные фразы) и новые (разработаны на основе нейронных сетей, которые берут во внимание не только само значение высказывания, но и контекст). Нейронные сети, о которых идет речь, в большинстве случаев являются рекуррентными, и главным их признаком считается то, что ответ сетей предопределен не только данными, но и предыдущим состоянием сети. Иными словами, система держит в памяти то, что происходило в ней ранее, и учитывает это в дальнейшей работе. Например, при вводе фразы «тугой лук» система не будет переводить второе слово как onion, так как первое слово сообщает системе о том, что речь идёт об ином объекте. Программисты, однако, не должны при создании системы указывать сочетаемость слов, сеть способна воссоздать эти правила самостоятельно на основе баз текстов.

Если взглянуть на систему GMNT (Google’s Neural Machine Translation), то её можно описать довольно таким образом: две нейросети из восьми слоев, одна является анализирующей, другая синтезирующей. Первая читает предложение, передает данные второй сети, а вторая, в свою очередь, составляет фразу на другом языке. Нейросети связаны модулем внимания, который корректирует работу, чтоб система не упускала важные и редкие слова.

Также важно то, что единицами в системе являются не слова, а фрагменты слов, и всего их в работе задействовано 32 тысячи. Подобная структура позволяет достигнуть компромисса между точностью и скоростью работы системы. Рекуррентные нейросети могут функционировать не только на уровне слов, но и на уровне букв. И что касается перевода, благодаря этому можно добиться перевода тех слов, которые не представлены в обычных словарях, то есть создавать кальку перевода. Такая схема сложнее из-за длительного обучения, но работа на уровне слов создает большое количество проблем с морфемами слов, т.е. суффиксами, окончаниями и т.д.

Языковые пары, на которых работает система, пока немногочисленны: английский и китайский, английский и испанский, английский и французский. Лучший результат достигнут в паре английского с испанским, в этом случае качество перевода выросло на 60-87 процентов. В процессе тестирования использовались тексты из Википедии и новостные статьи.

Другие пары также показали успешные результаты, но человеческие переводы в этих парах пока идут впереди по качеству и точности. Создатели проекта, стоит сказать, не пытались достигнуть максимальной точности, а скорее пытались воссоздать некий баланс между точностью и сложностью вычислений, в процессе чего использовали множество эвристик, которые облегчают перевод, но ведут к ошибкам. Этот недостаток может быть исправлен увеличением времени обучения.

Нейросети использовались в системе Гугл Переводчика и ранее, но тогда роль их при машинном переводе была сведена лишь к распознаванию текста на изображениях. Сам перевод осуществлялся традиционным путем. Над этим направлением в переводе уже трудятся несколько компаний, и некоторые системы даже способны работать без подключения к интернету.new-and-old-google-logos

comments powered by HyperComments