REFERATUA.ORG.UA — База українських рефератів



Головна Інформатика, комп'ютери, програмування → Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми

встановлюються в КСС довільної реальної фрази, повинні реалізувати які-небудь семантико-синтаксичні валентності наявних у фразі лексичних або морфологічних одиниць. Самі ж ці валентності, в свою чергу повинні безпосередньо співвідноситися з тлумаченнями відповідних одиниць, і при їх виявленні повинна залучатися семантична інформація.

В системі АРАП залучається два важливих типа семантичної інформації: 1) семантичні описи, або тлумачення, значимих лексичних, морфологічинх і пунктуаційних одиниць; 2) відомості про семантичне сполучення цих одиниць одна з одною.

Тлумачення використовуються двух типів: словникові і контекстні. Словникове тлумачення може бути приписано будь-якій одиниці, що включена в словник, і задає ту частину її смислу, яка повністю або частково зберігається в різних випадках реалізації цієї одиниці в тексті. Контекстуальне тлумачення характеризує словоформу і являє собою той фрагмент семантичного запису тексту, який відповідає данній словоформі в даному конкретному її використання, визначаючи можливості здійснення з нею тих чи інших семантичних операцій. Контекстуальні тлумачення будуються з словникових одиниць, що утворюють ГМП цих словоформ, з урахуванням наявного лексико-синтаксичного контексту та можливих в цьому контексті семантичних явищ.

Відомості про сполучення в системі АРАП носять характер семантичних вимог. З їх допомогою можна досить повно охарактеризувати всі найбільш суттєві аспекти смислової структури тексту і задати всі основні семантичні операції над цим текстом, які можуть знадобитися в процесі перекладу.

Для формального запису використовуємих при цьому семантичних відомостей розроблена спеціальна символічна мова, яку можна реалізувати на ЕОМ. Вона заснована на використанні біля 100 "семантичних елементів" – символів, що позначають одиниці смислу. Семантичні елементи можуть з'єднуватися за певними правилами, утворюючи семантичні формули - семантичні дерева залежностей, які завдяки використанню формальних записів, зокрема, дужкового запису, можуть записуватися лінійно. На множині семантичних формул визначений ряд бінарних відношень, що моделюють смислові парадигматичні відношення в лексиці. В результаті в цих термінах можна записувати як словникові та контекстуальні тлумачення будь-яких одиниць, так і родо-видові лексико-семантичні класи, в які ці одиниці входять, а також семантичні інтерпретації їх синтаксичних валентностей і утворювані валентностні лексико-семантичні класи.

Ще однією важливою властивістю даного апарату є можливість спростити співвідношення між синтаксичним і семантичним представленням тексту у порівнянні з тим, як трактується це співвідношення в більшості розробок за моделлю "СмислТекст". В зв'язку з тим, що структура семантичних формул зберігає основні властивості дерева залежностей, перехід від КСС тексту до його семантичного запису зводиться до простої заміни всіх слів і значимих морфологічних і пунктуаційних одиниць, наявних в КСС, їх контекстуальними тлумаченнями.

Прийнятий в системі АРАП підхід до опису синтаксису і семантики в їх взаємодії відповідає тим принципам, які закладені у формальну модель процесу перекладу, що є теоретичною базою цієї системи.

Алгоритм синтаксичного аналізу мовних текстів

Алгоритм, що буде тут розглядатися, являє собою частину більш складної системи, яка призначена для автоматичного синтаксичного аналізу текста. Під синтаксичним аналізом розуміється визначення смислових зв'язків між об'єктами тексту, тобто між словами в межах простих речень і між простими реченнями в складі складних.

Вся система в цілому складається, окрім алгоритму синтаксичного аналізу і деяких допоміжних алгоритмів (зокрема технічного характеру), з алгоритму морфологічного аналізу. Морфологічним аналізом називається обробка окремих словоформ, в результаті якої кожній словоформі ставиться у відповідність її інформація – характеристика, що відображає ті властивості словоформи, які необхідні для наступного синтаксичного аналізу. До початку синтаксичного аналізу увесь текст представляється у вигляді послідовності інформацій до словоформ, так що алгоритм синтаксичного аналізу має справу не з словоформами, а лише з відповідними інформаціями.

ДСинтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
ля представлення результатів синтаксичного аналізу, тобто для відображення зв'язків між словами і між реченнями, використовується 31 відношення безпосередньої домінації (ВБД). Ці відношення бінарні; вони антирефлексивні, антисиметричні і антитранзитивні. Один з членів відношення БД вважається головним (господарем), інший – залежним (слугою). В простому реченні всі слова повинні бути залежними, крім присудка (який розглядається як "вершина" речення); в складному реченні повинні бути залежними всі речення, крім головного. Кожне слово повинно мати лише одного "господаря", але може мати скільки завгодно "слуг"; кожне речення може мати двух "господарів" (обов'язково різного рівня: одного "господаря" – речення, а іншого "господаря" – слово в цьому реченні), а також скільки завгодно "слуг". ВБД відображаються нумерованими стрілками, що направлені від "господаря" до "слуги". Наприклад:

Можна сказати, що синтаксичний аналіз полягає в тому, щоб певним чином розставити в тексті нумеровані стрілки.

Смисл зв'язкам можна дати такий:

  • Предикативне (происходит совмещение, процесс окончен, естественно предположить, требовалось выяснить).

  • 1-е об'єктивне (решать задачу, хранение информации, принадлежащий к множеству, избегает ошибок).

  • 2-е об'єктивне (приписать букве индекс, сведение вычислений к сложениям).

  • 3-е об'єктивне (перевод текста с английского на русский язык, сравнить самолет с ракетой по скорости).

  • Означальне (обычная запись, вычислительный процесс, действовать машинально, чисто автоматически).

  • Вказівне (этот человек, тех решений).

  • Присвійне (орудие вычислителя, их комната).

  • Кванторне (все данные, любая буква, некоторые процессы).

  • Загальнокваліфікаторне (такие таблицы, такой подход).

  • Порядкове (первое слово, шестая строка, ХХ век, 1953 год).

  • Кількісне (пять страниц, трем отделам, из ста восьми шагов, много способов, сколько текстов).

  • Агентивне (решено машиной, исполнение романса певицей, вычисляется алгоритмом, наше отставание, его полет).

  • Субстантивно-атрибутивне (отверствие диаметром 6мм, столб высотой 2 м, такого рода утверждение).

  • Партитивне (блок устройства, елемент множества).

  • Загальногенетивне (лист бумаги, пример алгоритма, понятие алгебры, преимущество метода).

  • Обставинне (находиться позади барьера,


  •  
    Загрузка...