REFERATUA.ORG.UA — База українських рефератів



Головна Інформатика, комп'ютери, програмування → Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми

представляє собою граф залежностей особливого роду, який поєднує в собі властивості поверхнево-синтаксичної і глибинно-синтаксичної структур моделі "СмислТекст". В вершинах цього графу стоять повні глибинно-морфологічні предствалення (ГМП) словоформ та знаків пунктуації даного речення з інформацією про їх лінійне розташування в тексті відносно один одного у вигляді порядкових позначень. Ребрами графу є стрілки, що символізують синтаксичні та анафорічні зв'язки між словоформами (або знаками пунктуації), при чому відносно стрілок першого типу (синтаксичних) КСС речення виступає деревом. Ті одиниці або сполучення одиниць, які семантично не значимі і при перекладі не повинні отримувати самостійних еквівалентів, заключаються в КСС в кутові дужки.

Множина вершин КСС повинна бути ізоморфна множині словоформ та знаків пунктуації, що є в реченні. Винятки допускаються лише в двох випадках: 1) якщо в даному реченні є фразеологічні обороти, кожному з них ставиться у відповідність одна вершина, незалежно від того, скільки словоформ входить до складу даного обороту; співставлений цій вершині порядковий номер являє собою перелік номерів всіх вхідних словоформ; 2) якщо речення містить еліптичні конструкції, що порушують вимоги зв'язності синтаксичного дерева, вони в процесі побудови КСС перетворюються в повні структури, і в КСС можуть з'являтися ГМП деяких додаткових словоформ, що відсутні у вхідному тексті; вершини, що містять такі ГМП, маркуються порядковими номерами особливого виду ("фіктивними").

Синтаксичні зв'язки, які встановлюються в КСС між ГМП словоформ та знаків пунктуації, являють собою глибинно-синтаксичні відношення. Вони можуть бути трьох основних видів:

  • зв'язки сильного керування (актантні);

  • зв'язки слабого керування (означальні);

  • координативні або сурядні зв'язки.

Зв'язки сильного керування – це зв'язки між предикатами та їх актантами. Вони позначаються стрілками, що йдуть від предиката до актанта і несуть цифрові індекси. Індекс являє собою номер, під яким актантна валентність предикату, що реалізується даним зв'язком, записана в моделі керування, вказаної для цього предикату в словнику або в граматиці.

Зв'язки слабого керування – це зв'язки, означальні в самому широкому смислі. Вони відображаються стрілками з індексом m (modifying), і йдуть від значуваного слова до означення. На відміну від зв'язків сильного керування вони реалізують валентності не керуючого, а керованого слова.

КСинтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
оординативні зв'язки являють собою зв'язки між яким небудь словом та сурядним сполучником або знаком пунктуації, що має смисл сурядного сполучника. Вони реалізують валентність цього сполучника або знака пунктуації і відображаються стрілками з індексом c (co-ordinate), що напрвлений до сурядного сполучника. Зв'язок між цим сполучником та другим членом сурядної групи вважається зв'язком сильного керування, що реалізує другу валентність даного сполучника. Приклад:

АСинтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
нафорічні зв'язки – це зв'язки, що встановлюються між словами з співпадаємими денотатами. На анафорічні зв'язки не поширюються ті обмеження, які прийняті у відношенні структури власне синтаксичних зв'язків. Вони відображаються пунктирними лініями, направленими від слова до його тецедента. Приклад:

Врахування в КСС поверхових властивостей тексту забезпечується тим, що в ній, згідно з її визначенням, зберігаються, за винятком складових компонентів фразем (які при необхідності легко відновити по словниковим статтям самих цих фразем), всі одиниці і характеристики ГМП тексту (навіть до відомостей про порядок слів) – тобто, всі елементи тексту з точністю до явищ додаткової дистрибуції і вільного варьювання на морфологічному рівні. В КСС речення не опускаються прийменники, сполучники, частки, морфологічні характеристики, знаки пунктуації та інші одиниці, навіть якщо їх роль в даному реченні зводиться в основному до того, щоб слугувати показниками тих чи інших синтаксичних зв'язків. На відміну і від поверхових, і від глибинних синтаксичних структур моделі "СмислТекст", в КСС такі одиниці не заміняються символами відповідних синтаксичних відносин, а лише доповнюються ними.

Що стосується "семантичності" КСС, то ця її властивість проявляється вже в тому, що семантично однозначному реченню співставляється в загальному випадку рівно одна КСС.

Послідовне включення в КСС всієї можливої поверхової інформації також сприяє її "семантичності", відповідаючи вимозі максимально повного і дифіренційованого відображення в КСС значущих елементів тексту. Це пов'язано в першу чергу з тим, що мовні феномени, як правило, поліфункціональні і заздалегідь важко передбачити, яка з їх функцій буде головною в тому чи іншому тексті. Збереження відомостей про поверхневі вирази одиниць, що відносяться до смислової структури тексту, є надійною гарантією проти непередбачених втрат інформації у випадках, коли знайдені при аналізі поверхневі явища не тільки служать засобом оформлення виявлених глибинних одиниць, але й мають якийсь свій додатковий зміст.

Важливе значення в процесі власне перекладу має і можливість безпосереднього врахування порядку слів. В системі АРАП діє таке правило: при відсутності в КСС вхідного англійського речення додаткових показників комунікативної організації (наприклад, артиклі) для всіх словоформ, місце яких в лінійному представленні речення не визначається однозначно їх місцем в його синтаксичній структурі, порядкові номера цих словоформ, що вказані в співставлених їх вузлам синтаксичного дерева, в процесі заміни англійських одиниць їх перекладними еквівалентами зберігаються тими ж; при наявності в вхідній КСС артиклів та інших одиниць, в ролі перекладних еквівалентів яких виступають при перекладі на російську мову правила змін порядку слів, порядкові номера словоформ змінюються за відповідними правилами.

Проте найбільше узгодженість КСС з смисловою структурою тексту виявляється у характері використовуємих в ній синтаксичних зв'язків. Такі зв'язки являють собою глибинно-синтаксичні зв'язки. Сутність застосування саме глибинно-синтаксичних відношень, а не поверхневих полягає в тому, що ці зв'язки розглядаються як значимі елементи тексту, які задають смислові відношення між словоформами та іншими сегментними одиницями тексту. Основний принцип, якому повинна задовільняти КСС речення: всі синтаксичні зв'язки між словоформами, що відображаються в КСС повинні бути семантично обгрунтованими.

В рамках системи АРАП принцип семантичної обгрунтованості синтаксичних зв'язків конкретизується у вигляді такої вимоги: всі синтаксичні зв'язки, що


 
Загрузка...