|
|
|
Однажды я переводил для одного научно-популярного журнала восторженную статью о машинном переводе. Вице-президент исследовательского подразделения крупной международной корпорации произносит речь на английском языке перед китайской аудиторией, а переводит ее машинный переводчик. Аудитория бурно аплодировала после каждой переведенной фразы. А фразы были такие: "Есть надежда, что через несколько лет мы устраним языковые барьеры между людьми. Я верю, что при этом наш мир станет лучше", и т.п. Профессионалы поймут, что подобные фразы очень просты для перевода. Что характерно: перевод простой фразы всё равно понятен, даже если в нем несколько ошибок. Язык - сильно избыточный код. Ну и что? Со временем, машина научится переводить все более и более сложные. А вот нет! Эта, алгоритм которой основан на анализе большого массива ранее переведенных текстов билингва - точно нет. Непрофессионалу не понять, что трудность перевода простых и сложных текстов различается не в разы, а на порядки. Как сложность полета на Луну и полета в иные галактики. Сравните:
И вот такой перевод:
Для недоверчивых, далёкий контекст: ...linguistic differences emerge to help us define our cultural identity, so that we can tell our in-group from out-groups. ...различия в говорах возникают, чтобы мы могли определить свою культурную идентичность, отличать «своих» от «чужих». Байка в тему: Кашпировский успешно провел лечебный сеанс в морге. Сначала у трупов зарубцевались швы от вскрытия, затем - образовавшиеся коллоидные рубцы рассосались... И всё! Так же и машина будет все успешнее переводить тексты, специально сочиненные так, чтобы их могла переводить машина. По сути, это тексты на бейсик-инглише, бейсик-рашэне. "Бейсик" - не в смысле лексики, она-то как раз может быть очень даже сложной. Бейсик должен быть синтаксис. Только в этом случае машина проявит свои способности во всей их красе. Реальный текст автор сочиняет вообще не думая, что, возможно, кому-то когда-то придется его переводить. Он обращается к профессионалам своего круга: инженерам, врачам, музыкантам. Причем, говорящим на одном с ним языке. Обладающим некими общими экстралингвистическими знаниями, которые для всех членов данного сообщества разумеются сами собой. А иначе и невозможно, должна быть "целевая аудитория": текст, написанный понятно для профана, неинтересен специалисту. И наоборот.
Permit risk - я работал в девелоперской фирме, знаю о чем речь, хотя из текста это неясно. Это пример экстралингвистических, метатекстовых знаний, сведений. Авторы зачастую косноязычны: не писатели ведь! Сами того не замечая, пишут двусмысленно, "туманно", с ошибками: не все нейтивы достаточно владеют литературной формой своего родного языка. А уж не-нейтивы-то! Корея:
Не шучу! На моем блоге см. сканы (не все), все предоставлю интересующимся + весь (мой!) перевод. С переводом такого текста и человек-то не каждый сладит, куда уж машине. Сложные синтаксические конструкции появились не ради эстетики и не для бахвальства: "Вот как я могу, что я умею!". Сложные мысли не выразить простыми синтаксическими средствами. Один редактор, получив очередной мой перевод, пишет: В тексте про пыль я долго пытался разобраться во вступительном фрагменте, в итоге написал отсебятину, а потом, кажется, понял, что с ним было. Там в исходнике слово veils которое, по-моему, означает «скрывает», т.е. в переводе вроде как должно было быть «не видны».
а) человек пытался понять б) не понял с) в итоге - неправильно перевел, "написал отсебятину" А по мнению уважаемого Игоря Ашманова, машине не обязательно "понимать" текст, чтобы сделать "ответственный" перевод: "Есть представление, что настоящий машинный переводчик требует создания сильного искусственного интеллекта, обладающего "пониманием"... Это представление... неверно в двух смыслах: а) для качественного перевода достаточно программирования и работы с данными, а не "самосознания машины"; б) никто не знает, что вообще такое понимание (сознание)". http://www.kommersant.ru/doc-rss/1816815 Мой ответ Чемберлену: б) Существуют абсолютно реальные, но невербализуемые вещи. Что такое талант? А что такое интуиция? Понимание? (Ричард Фейнман: "Я понимаю ту или иную формулу" означает, что я могу приблизительно прикинуть результат, не производя, собственно, вычислений".) "Ответственный перевод": Эпикриз кардиологического больного, с русского на итальянский. Среди двух десятков аббревиатур - ЛКС. Поиск на "ЛКС, пациент", "ЛКС, диагноз" и т.п. Гугль на нескольких страницах выдачи дает "Лазерно-корреляционная спектроскопия". Я не врач, но "нутром чую" - не то. И только на энной странице выдачи - "левая коронарная створка". А машина? Ведь "спектроскопия" в медицинском контексте встречается в десятки раз чаще "створки"! "Ответственный перевод-2": "дополнительная проверка человеком во многих случаях обязательна". Инструкция к компрессору для нефтеперерабатывающего завода. По-английски там написано, что через 20 часов после первого запуска нового, "с иголочки", компрессора нужно слить из него всё отработанное [смазочное] масло (oil) (там его литров 300! - мое прим.) и заменить на новое, чистое. Русский машинный перевод: что-то о том, что "отработанные нефтепродукты (oil) нужно сливать [в канализацию?], но нужно сначала очистить [фильтр?]". (Не могу, к сожалению, процитировать точнее, я просто держал там несколько минут в руках оба эти текста, английский и русский). Мой вывод: в тех "многих случаях", когда "дополнительная проверка человеком обязательна", она как раз-таки и невозможна! Как русский специалист, не знающий английского, читая этот перевод, может не то чтобы догадаться, а лишь заподозрить, что речь ВООБЩЕ о другом? Он просто исправит лексические и синтаксические погрешности русской фразы! А дорогущий импортный новенький компрессор невосстановимо выйдет из строя, проработав всего часов 200. Беда в том, что люди со школы приучены, что перевод - это замена слов одного языка, словами другого: "переведи слово "стол"", "переведи слово "река". Школьные учительницы английского и сами (а вслед за ними и дети) не подозревают, что переводить нужно не слова, а месседжи:
В интервью Игорь Ашманов утверждает:
По радио детская передача, читают детскую переводную книжку: "Пока Нейл ждал, глаза его быстро осматривали помещение..." Не знаю, как назвать... "Пипец!" подойдет? "Хороший"? - извольте! Нужно перевести с немецкого судебное решение по делу об усыновлении. Там есть такая фраза:
Именно так, безо всяких местоимений: Повторений чего? Выраженная кем? Молчит оригинал, не дает ответа... То есть, без контекста смысл этой фразы непонятен ни по-немецки, ни по-русски. Непосредственно перед ней стоит другая:
Непосредственно перед ней стоит другая: То есть, без контекста смысл этой фразы непонятен ни по-немецки, ни по-русски.Именно так, безо всяких местоимений: Повторений чего? Выраженная кем? Молчит оригинал, не дает ответа...
Давайте теперь посмотрим, стала ли приведенная выше фраза понятнее в таком минимальном контексте:
По-немецки смысл проясняется, но остается еще весьма неопределенным: Понятно лишь, что названные учреждения ранее либо письменно, либо устно где-то подтверждали, что они не возражают против усыновления, и суд посчитал, что этого достаточно. Итак, давайте хоть "ими" вставим, хотя в оригинале его и нет. И все равно, по-русски смысл фразы так и остается непонятным, и если оставить ее в таком виде, у русского читателя нет никаких ключей к ее разгадке. Возьмем более широкий контекст. Вот что говорится за два абзаца до этого:
То есть, судьи хотят нам сказать: Ребята! Мы не просто разложили на столе три бумажки, и на их основании приняли решение, а лично выслушали усыновителя и мать усыновляемого, по совместительству супругу усыновителя, и убедились, что они действительно - "за". С учетом этого, теперь можно дать точный и понятный перевод той первоначальной фразы:
Поскольку из оригинала неясно, как эта позиция была выражена, устно или письменно (представители этих учреждений присутствовали на предыдущем заседании суда (если оно было), представили документ не в суд, а в какое-то иное учреждение и т.д.), необходимо сохранить эту неопределенность и в переводе. Машина нервно курит в сторонке... Еще в тему:
Многие синтаксические конструкции изначально двусмысленны, И никакие магические пассы над глоссариями и тематиками не помогут! Например: Пара статей из англо-русского словаря: decline [ существительное ] = депрессия decline [ существительное ] = закат decline [ существительное ] = конец decline [ существительное ] = оскудение decline [ существительное ] = падение decline [ существительное ] = понижение decline [ существительное ] = скат decline [ существительное ] = склон decline [ существительное ] = снижение decline [ существительное ] = спад decline [ существительное ] = уклон decline [ существительное ] = упадок decline [ существительное ] = ухудшение а ведь есть еще и глаголы: decline [ глагол ] = вечереть decline [ глагол ] = клониться decline [ глагол ] = отвергать decline [ глагол ] = отказать decline [ глагол ] = отказаться decline [ глагол ] = отказывать decline [ глагол ] = отказываться decline [ глагол ] = отклонить decline [ глагол ] = отклонять decline [ глагол ] = отнекиваться decline [ глагол ] = пасть decline [ глагол ] = понижаться decline [ глагол ] = просклонять decline [ глагол ] = склонять Ну и как программы машинного перевода догадаются "вечереть" или "пасть", "отклонять" или "склонять", или "понижаться"? Этот словарный файл просто в более наглядной, чем обычные словари, форме демонстрирует все риски, связанные с машинным переводом. Возьмите любой русский текст и ПРОСТО замените в нем "вечереть" на "понижаться", или на "просклонять", "отвергать" на "понижаться", "независимый" на "неприкрепленный" и т.д. Допустим, даже она, эта программа, умеет отличать (а всегда ли?) существительное от глагола, глагол от прилагательного: free [ глагол ] = вызволить free [ глагол ] = вызволять free [ глагол ] = высвободить free [ глагол ] = высвобождать free [ глагол ] = освободить free [ глагол ] = освобождать free [ глагол ] = уволить free [ глагол ] = увольнять free [ прилагательное ] = безвозмездный free [ прилагательное ] = бесплатный free [ прилагательное ] = вольготный free [ прилагательное ] = вольный free [ прилагательное ] = даровой free [ прилагательное ] = невозбранный free [ прилагательное ] = независимый free [ прилагательное ] = незакрепленный free [ прилагательное ] = незанятый free [ прилагательное ] = неприкрепленный free [ прилагательное ] = раздольный free [ прилагательное ] = свободный free [ наречие ] = безвозмездно free [ наречие ] = бесплатно Ну и как она отличит, своими компьютерными мозгами "вызволить" от "уволить"? А "независимый" от "бесплатного"? И так с каждым, буквально (!!!), словом, простите за громкий крик... Вот и получается, что перевести фразу: "Где здесь туалет?", "Как доехать до вокзала?" - уже с незапамятных времен может любой компьютерный переводчик. То есть, он функционально эквивалентен бумажному разговорнику, только большего объема и большей подстановочной вариативности. Вдруг кто не знает, вот, к примеру, отрывок из бумажного разговорника с возможностью подстановок: Мне нужен на прокат... - Сакам да изнајмам … велосипед - точак автомобиль - кола мотоцикл - моторцикл [просто подставить нужное слово] с … - со … шофёром - возач кондиционером - клима уред антифризом - антифриз цепями на шинах - синџири за снег Сколько стоит …прокат? - Колку чини …? в час - на час в день - дневно в неделю - неделно накачать колесо - воздух масло - масло бензин - бензин шина - гуми и т.п. Многие вполне информативные тексты на русском, английском и других языках просто изобилуют ошибками грамматики, синтаксиса, словоупотребления, орфографии, которые затрудняют их понимание так же, как сильные радиопомехи снижают разборчивость транслируемой устной речи. Конечно, язык, как письменный, так и устный, это сверхизбыточный код, но вот один из наших тележурналистов во время бомбардировок Белграда зачитывал звуковую дорожку своих репортажей из пустого общественного туалета (он объяснял, почему звук такой гулкий), иначе посторонние шумы вообще заглушали его голос. Ошибки, эти сбои в речевом коде, не менее разрушительны для письменного обмена информацией, чем бомбы для архитектуры. А разработчики систем машинного перевода как-то это учитывают? Кто-то разрабатывает способы количественной оценки уровня безграмотности тех или иных текстов? Есть статистика доли текстов того или иного уровня безграмотности в сети? Например, абсолютно грамотные тексты составляют 5% всего их корпуса, безграмотные настолько, что их вообще невозможно понять - 5%, и т.д. А родился ли уже тот Линдсей, который предложит систему классификации текстов по видам безграмотности? По-моему, практически важно, а особенно для систем машинного перевода, различать, как минимум: а) Безграмотность нейтива: Надо контролировать, кому давать, а кому не давать. Почему мы вдруг решили, что каждый может иметь? (ЧВС) Нашедшего диплом об окончании Фрунзенского медицинского училища на имя Айдербековой С.У. считать недействительным. (объявление в газете) Было два случая, когда водители находились в нетрезвом состоянии, один по причине превышения скорости, другой - из-за технической неисправности автомобиля. (из газеты) б) Безграмотность иностранца: Вечером я мою мое хозяйство и ложаюсь. Может быть, в одном глазе он успешный мужчина, а в другом — не успешный. Раньше она жила с покойным образом. Когда я не знаю, какую ошибку сделать, я всегда обращаюсь к маме на совет. Мой отец часто проводил процедуру телесное наказание на мне. (иностранные студенты, особенно - китайские, но не только) Глубоко ошибается тот, кто думает, что эти студенты перестают писать такие сочинения, как только получают диплом. См. приведенные в начале статьи примеры из корейской инструкции по эксплуатации оборудования. с) Буквалистический перевод (язык оригинала еще научиться бы определять!): К 2004 г. в Москве будет сконструирован дворец "Италия", подобного которому еще не существует. (построен) Знак DOP присваивается тем продуктам, весь цикл переработки которых, начиная от производства первичных материй и заканчивая конечным продуктом... (materie prime = сырье) При этом нельзя забывать и о тревожных сигналах, посылаемых нам сегодняшней молодежью, которая не любит читать... Вице-министр внешнеэкономических связей и торговли (Заместитель министра) (Это из сетевого периодического издания с русскими переводами статей из итальянской прессы, 2003 г.) д) Ошибки редактирования: Соединенные Штаты должны иметь общий для всей страны языком. [Переводчица сначала написала "обладать общим языком", потом недоисправила на "иметь общий язык".] ...где бы ни находилась международная организация, ее главным рабочий язык - английский. [сначала хотела "ее главным рабочим языком является английский", потом недоисправила на "ее главный рабочий язык - английский"] е) Недосказанность: Врач, вызванный на дом к больному ребенку, написал большими буквами в листе назначений: "Физраствор в нос. Часто. Не жалеть". Пока беседовал с мамой, ребенок - мальчик 7 лет - изучал назначения. Изучил. Подошел к столу и спрашивает: - Дядя врач, а кого "не жалеть" - меня или физраствор? По моим ощущениям, безграмотных текстов много и с каждым днем - все больше. Как можно разрабатывать системы машинного перевода и надеяться на успех, не оценив масштабы и перспективы этого явления? "Дорожная карта" нужна же какая-то: одно дело, если сейчас опасно безграмотных тестов 20%, а через 10 лет их будет 30%, и другое (и другая стратегия!) если уже сейчас их 50%, а через 10 лет будет 75% (что гораздо более вероятно, по-моему). Вот несколько примеров из статьи одного канадца. Судя по английскому звучанию имени и фамилии - вроде нейтивспикер, но по моим ощущениям - не очень хорошо владеет литературным вариантом своего родного языка:
Ну и как машина переведет фразу "Find someone (ideally plural) from within your target market and demographic"? Вот и получается, что машина сможет переводить только тексты, специально написанные так, чтобы их могла перевести машина.
Анекдот про "Бритиш Петролеум": "Американские ученые разработали двигатель внутреннего сгорания, работающий на воде. Правда, опытный образец пока работает только на воде из Мексиканского залива"... __________________________ © Ярославцев Сергей Викторович |
|