Як мобільні додатки для перекладу усувають ганебні ляпи

Емма Вулкотт Кореспондент ВВС з питань бізнесу

Image caption Якість машинних перекладів постійно поліпшується, але помилки все ще трапляються

Додатки для перекладу стають все краще, але до ідеалу ще далеко. Особливо це стосується рідкісних мов. Чи можуть штучний інтелект і нейромережі виправити ситуацію?

Цього літа під час чемпіонату світу з футболу в Росії був зафіксований різкий ріст звернень до сервісу Google Translate, показують дані компанії. Вболівальники намагалися встановити контакт з місцевими жителями і з фанатами з інших країн.

Особливо часто вони шукали переклад слів "стадіон" і "пиво".

Традиційні розмовники вже відходять у минуле. Недавнє дослідження Британської ради показало, що у віковій категорії "16-34" дві третини респондентів, перебуваючи в чужій мовному середовищі, користуються мобільними додатками для перекладу.

Хоча такі додатки безсумнівно стають досконалішими, цілком покладатися на них поки не можна. Кожен п'ятий з опитаних розповів, що стикався з труднощами через некоректне автоматичного перекладу.

Особливо це актуально для носіїв локальних мов. Наприклад, валлійці звертали увагу на те, що "вибухові роботи" додаток переводить як "gweithwyr yn ffrwydro" або "робочі вибухають".

У цьому році один з користувачів Google Translate виявив, що якщо ввести в поле для перекладу слово "dog" 18 разів і попросити перевести його з мови маорі, то сервіс видає наступний текст: "На годиннику Судного дня без трьох хвилин дванадцять. Знаки і трагічні події, за часів яких ми живемо, вказують, що ми наближаємося до кінця світу і другого пришестя Ісуса ".

Чому ж безглузді помилки в перекладах досі зустрічаються, хоча на дворі епоха суперкомп'ютерів і машинного навчання?

Головна проблема полягає в тому, що у слова часто буває кілька значень. Омографи - слова, які збігаються в написанні, але різняться в вимові - ставлять в незручне становище не тільки відпочиваючих на курортах, а й уряду.

Так, британський кабінет міністрів в минулому липні підготував "білу книгу" по "брексіту" на німецькій мові, в якій "відправлення демократичних процедур" переклали як "demokratische Übung". Дослівно це можна перевести як "демократичну гімнастику".

Дослівно це можна перевести як демократичну гімнастику

Ваш пристрій не підтримує відтворення

Let it snow по-російськи: який онлайн-перекладач працює краще?

Щоб виключити такі помилки, алгоритми машинного навчання в додатках для перекладу доопрацьовуються. Вони звіряються з попередніми запитами, беруть до уваги контекст, в якому те чи інше слово раніше використовувалося, і підбирають найбільш доречне його значення.

В цьому році компанія Microsoft оголосила, що створила штучний інтелект, який здатний перекладати не гірше людини. Робот перевів серію публікацій з китайської преси на англійську, і група незалежних експертів прийшла до висновку, що якість перекладу можна було порівняти з перекладом тих же текстів, виконаним двома професійними перекладачами.

У компанії говорили, що домогтися цього вдалося за рахунок глибоких нейронних мереж і статистичного машинного навчання.

Спочатку відбувається грубий переклад, який потім шліфується шляхом повторення різних варіантів, їх порівняння і, в кінцевому підсумку, навчання. Схожим чином перекладу навчаються і люди.

Розроблений компанією інструмент для перекладу має чітке уявлення про граматичній структурі речення в кожній мові, яке склалося з масиву виконаних раніше перекладів.

Машинний переклад, якість якого можна порівняти з якістю перекладу, виконаним людиною, здається досить вражаючим досягненням. Але навіть в Microsoft визнають, що переклад новинних статей - не те ж саме, що переклад живої розмови, якому властиві ідіоми, акценти і діалектичні особливості.

У минулому році Google випустила навушники-вкладиші Pixel Buds, які вміють в режимі реального часу переводити 40 мов. Якість їх перекладів при цьому викликає питання. Схожий продукт - Pilot Translating Earpiece - з підтримкою 15 мов розробляє нью-йоркський стартап Waverly Labs.

Image caption Пристрій для перекладу Pilot Translating Earpiece

Але коли доводиться здійснювати переклад між двома мовами, у яких немає великої бази взаємних перекладів, до якої можна було б звертатися (наприклад, з сингальского на пушту), завдання стає особливо складною.

Можна спочатку перевести з сингальского на англійську, а отриманий результат - на пушту, але очевидно, що при такому підході будуть з'являтися помилки і неточності.

Описаний вище випадок з мовою маорі і апокаліптичними прогнозами пояснюється в тому числі надмірної залежністю машинних перекладів від текстів, які існують на обох цікавлять користувача мовах. У випадку з англійським і маорі це була Біблія.

"Якщо ви закладаєте в модель для перекладу пропозиції з давнього манускрипту і намагаєтеся перевести розмову двох сучасних людей, модель зіткнеться з труднощами, тому що і зміст, і стилістика сучасної розмовної мови дуже сильно відрізняється від того, що можна знайти в древніх манускриптах", - пояснює розробник штучного інтелекту з Facebook Гійом Лампл.

Проект, над яким Лампл зараз працює разом з командою дослідників з Facebook і Сорбонни, може запропонувати вирішення цієї проблеми.

Він використовує в якості текстової бази по кілька сотень тисяч пропозицій на кожній мові, але не використовує пропозиції, перекладені безпосередньо.

Ця система бере до уваги те, як одні слова поєднуються з іншими. Наприклад, в англійському слова "кіт" і "пухнастий" використовуються разом так само, як в іспанському. Система навчається подібним підстановки слів, і це дозволяє їй робити більш точні переклади. Потім використовуються ті ж техніки, що і у випадку з перекладачем Microsoft.

Потім використовуються ті ж техніки, що і у випадку з перекладачем Microsoft

Ваш пристрій не підтримує відтворення

Хто переводить краще - "Яндекс" або Google?

За словами Лампла, за допомогою такої методики можна не тільки переводити живі мови, а й розшифровувати мертві і втрачені.

"Але є серйозна проблема - брак пропозицій, складених на цих мовах. Наприклад, Манускрипт Войнича (документ XV століття, написаний невідомим алфавітом на невідомій мові. - Ред.) Складається всього лише з декількох сотень сторінок. Цього дуже мало для нашої моделі", - каже він.

При наявності достатнього обсягу тексту система повинна впоратися з розшифровкою мертвого мови, вважає Лампл.

Ця перспектива відкриває і багато інших дивовижні можливості. "Ми можемо навчитися спілкуватися з інопланетянами, - міркує Лампл. - Але для початку їм доведеться багато говорити, причому на теми, схожі з тими, на які зазвичай говоримо ми".

Слідкуйте за нашими новинами в Twitter і Telegram

Чи можуть штучний інтелект і нейромережі виправити ситуацію?
Чому ж безглузді помилки в перекладах досі зустрічаються, хоча на дворі епоха суперкомп'ютерів і машинного навчання?

Дополнительная информация

rss
Карта