REFERATUA.ORG.UA — База українських рефератів



Головна Інформатика, комп'ютери, програмування → Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми

квадрат слева, цифра записана на ленте, подается для реализации, однако выяснилось).

  • Суб'єктно-копредикативне (он вернулся усталым, умер стариком).

  • Об'єктно-копредикативне (нашли его усталым).

  • Аппозитивне (угол ABC, часть Г).

  • Порівняльне (сильнее первого мотора, более низкий, чем стержень С2).

  • Елективне (каждый из разрядов, две из колонок, многие из иероглифов).

  • 1-е призв'язочне (будет полным, этот четырехугольник есть квадрат, являющиеся достаточными).

  • 2-е призв'язочне (бывают трех типов, могут быть следующего рода).

  • 1-е допоміжне, або службове (более четкий, самые полные, не получил, видели бы).

  • 2-е допоміжне (сорок три, сремиться к нулю, физика и математика).

  • 3-е допоміжне, або відприйменникове (без двигателя, несмотря на отказ).

  • Обмежувальне (хотя бы один, только числа, лишь законченные работы).

  • Однорідне (операции и константы, целые или не целые числа, нумеруются, но не сдвигаются).

  • Квазіоднорідне (общая функциональная схема, обычного графического изображения).

  • Відсполучникове (как выход, как для решения).

  • Зіставлюване (чем дальше продвигаемся, тем яснее видим).

    В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв'язки (в даній роботі це вказівки про постановку нумерованих стрілок).

    В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об'єкти перетворюються на кінцеві, або приведені: приведена словоформа, приведений сегмент, приведена фраза. Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв'язки. Приклад:

    .(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.

    Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).

    Необхідні відомості про текстові об'єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.

    Більшість ознак, що утворюють інформацію, є синтаксичними розрізнюваними ознаками словоформ та сегментів.

    Увесь процес аналізу зводиться послідовно на декількох рівнях. Спочатку з окремо взятих гіпотетичних словоформ, точніше з інформацій до морф, на які ці словоформи розбиваються, виводиться інформація до словоформ, потім з інформацій до словоформ виводиться інформація до гіпотетичних сегментів; і нарешті, з інформацій до гіпотетичних сегментів виводиться синтаксична структура фрази. Одночасно гіпотетичні об'єкти перероблюються на приведені.

    Відповідно, аналіз підрозділяється на формологічний (розбір окремих словоформ і отримання інформацій до них) та синтаксичний (все інше). Синтаксичний аналіз, в свою чергу, поділяється на внутрішньосегментний (розбір окремих гіпотетичних сегментів і отримання інформацій до них) та міжсегментний (розбір всієї фрази в цілому).

    В межах гіпотетичних сегментів багато зв'язків між словоформами не можуть бути встановлені зовсім або встановлюються неправильно, тому в інформації до сегменту застосовуються  - ознаки (вказівки про невстановлені, але передбачувані зв'язки) та  - ознаки (вказівки про можливі помилки у встановлених зв'язках). Ці ознаки використовуються при міжсегментному аналізі.

    Особливо треба відзначити  - ознаки, які виробляються на всіх етапах аналізу і спочатку входять в інформації до сегментів, а звідти – в інформації до фраз.  - ознаки – це вказівки про синтаксичні неоднозначності, які не можуть бути розв'язані навіть в межах фрази, без залучення загального смислу тексту.

    Для пошуку одиниць синтаксичного аналізу – змістовних сполучень – всі вони оформлюються у вигляді шаблонних пошукових правил – конфігурацій. Конфігурації складаються з 5 частин: 1) містить порядковий номер конфігурації, в 2) записано перший і другий члени конфігурації, що задають члени змістовного сполучення, 3) відведена для допоміжної інформації, в 4) знаходиться основна інформація (назва стандартної операції, що виконує переробку інформацій та її параметри), 5) відведена для "переадресації", тут записуються номери конфігурацій, до яких треба переходити у певних випадках.

    Конфігурації зібрані в таблицю, в своєрідний "синтаксичний словник". Окремо від таблиці існує "власне алгоритм" – інструкція по використанню словника. Власне алгоритм синтаксичного аналізу записується у вигляді набору стандартних алгоритмічних операторів.

    Синтаксичний аналіз організований циклічно. При внутрішньосегментному аналізі кожний гіпотетичний сегмент оброблюється 5 раз. Для міжсегментного аналізу також пропонується 5 циклів.

    "Власне алгоритм" та будова таблиці конфігурацій не залежать від конкретної мови.


  •  
    Загрузка...