Компьютерная лингвистика. Заключительный этап или поиски смысла.

Несмотря на все концептуальные преграды, конкретные, практические задачи всегда толкали машинный перевод вперёд. Американским учёным необходимо было переводить тонны советских документов – лингвисты получали финансирование; не знающим языка бизнесменам в эпоху перестройки захотелось вести дела с иностранцами – дискеты с системой «Промт» раскупались за бешеные деньги; миллионы пользователей интернета не владеют мировым языком – и он-лайн переводчики становятся популярными. Google стал первым поисковиком, предложившим опцию перевода. Высоким качеством такие переводы конечно не отличаются, однако суть улавливается. Проблема в том, что наукой в таком переводе и не пахнет: это перевод другого класса, статистический. Возьмём, скажем, 2 хорошо развитых языка, английский и русский. Для этой языковой пары существует огромное множество параллельных переводов – романов, документации и т.д. Далее из всего этого многообразия выбирается текст, который статистически ближе переводимому фрагменту. Если в переводе есть какие-то неточности, разработчики или даже пользователи могут предложить лучший вариант перевода. Поэтому создаётся впечатление, что система умнеет с каждым днём, кажется, что проблема вот-вот будет решена..однако всё это вообще не имеет никакого отношения к переводу. Тот же самый Google например уверенно переводил название «ул. Владимирская» как «sent NASDAQ».
Главная проблема машинного перевода в том, что машину необходимо научить понимать вводимую информацию. Необходимо отталкиваться от того, что такое язык. Все попытки рассматривать его как код провалились. Но если это не код – тогда что? В нашей голове рождается мысль, мы и щем ей адекватное языковое выражение, в то время как наш собеседник действует в обратном направлении: обращает языковую форму в смысл. Таким образом, язык выступает посредником во взаимном понимании. Модель языка должна работать по принципу: на входе – смысл, на выходе – текст, или наоборот. Вся трудность в том, что смысл ненаблюдаем, между текстами на русском и английском должно стоять нечто промежуточное, своеобразный язык без языка. Такой посредник получил среди учёных название семантического представления или метаязыка, заключающего в себе только чистый смысл. Состоять метаязык должен не из слов, а из семантических первоэлементов, неделимых единиц смысла – их было решено называть семантическими кварками.
Однако что ни говори, мы всё ещё находимся на поверхностном уровне синтаксического анализа текста в процессе машинного перевода – Shallow, как его называют профессионалы. За ним-то и должен последовать Deep – глубинный уровень, выводящий на понимание смысла. Должен ,но пока всё не следует… Реально работающего, всеобъемлющего семантического представления до сих пор нет. Существуют только уровни анализа, приближающие нас к этому представлению Первое поколение программ-переводчиков – это перевод на уровне морфологических структур. Второе – это синтаксические структуры. Третье как раз должно считывать чистый смысл текста, что сделает возможным любой перевод. Однако это мечта. Лучшие из сегодняшних программ можно условно отнести ко второму с половиной уровню. На нём находится и «Промт», самая коммерчески успешная из всех систем машинного перевода, созданных в России. Успех «Промт» объясняется отказом от тотальности перевода. Разработчики программы основываются на том, что любой перевод любого предложения невозможен в принципе. Ради дееспособности системы необходимо отказаться от понятия «любой», обучать программу тому, что она всегда будет находиться в состоянии неполного знания.
Неполное знание – это многозначность текста, когда простейшее слово может выражать чуть-чуть иной смысл, нежели закреплённый в словарях. Тут ни одна программа пока справится не может.
В данный момент проблема машинного перевода предстаёт частью более широкой проблемы: искусственного интеллекта. Чтобы конкурировать с человеческим, ему тоже необходимо научиться распознавать смыслы. Пока что чтобы переводить точно, машине недостаёт знания контекста. Но представьте, что машинный перевод побратался с другими системами искусственного интеллекта: базами фактических знаний, системами распознавания образов, анализаторами голоса…соединив всё это воедино мы, вполне вероятно, получим машинный переводчик, сопоставимый с человеком. И что же из этого получится, спросите вы.
На сайте «Промт» есть шуточный прогноз развития систем машинного перевода, вот последний его пункт, от 2264 года: «Человек глуп, как мешок опилок, – заявило Устройство 296. – Только абсолютно наивным учёным могло прийти в голову разработать технологию для понимания того, что произносят эти неопрятные куски протоплазмы».
источник