REFERATUA.ORG.UA — База українських рефератів



Головна Інформатика, комп'ютери, програмування → Загальна форма морфологічного аналізу текстів

правильний розбір таких випадків співпадання, які принципово (людиною) можуть бути проаналізовані під час розгляду ізольованих словоформ, без звертання до контексту. Повинно правильно розкладатися співпадання окремих морфем за умови, що не співпадають цілі словоформи. Не можуть і не повинні однозначного розкладатися випадки, коли має місце повне співпадання словоформ. Вважається за достатнє, коли всі такі випадки буде якимось чином виділено для подальшого розкладу.

Основні моменти морфологічного аналізу, що наведені вище, мають такий загальний характер, що самі по собі вони є тривіальними. Однак вони дозволяють мислити весь процес морфологічного аналізу чітко та компактно, хоча й у загальному вигляді. Для практичної розробки морфологічного аналізу ці основні моменти необхідно конкретизувати, точно описавши окремі алгоритми, за допомогою яких вони будуть здійснюватися і які всі разом складуть алгоритм морфологічного аналізу. Необхідно побудувати якийсь загальний алгоритм морфологічного аналізу, або розробити таку загальну форму для алгоритмів морфологічного аналізу, яка виявиться достатньою (хоча деколи й надто розширеною) для багатьох мов, що вже існують, а також теоретично можуть існувати.

Нижче описано один із можливих варіантів такого загального алгоритму морфологічного аналізу.

Однак слід мати на увазі, що загальну схему морфологічного аналізу викладено тут не повністю. Річ у тім, що, хоча пошук словоформ у словнику основ принципово не відрізняється від пошуку залишків у таблиці суфіксів, пошук у словнику основ являє собою певною мірою самостійну задачу. Це пов`язано з численністю основ. Великий обсяг словника основ (порівняно до таблиць суфіксів) зумовлює специфічні умови пошуку в ньому, вилучення інформації тощо. Тому вважається за доцільне умовно поділити морфологічний аналіз на два алгоритми: "Пошук у словнику основ" та "Власне морфологічний аналіз". Тут взагалі не розглядається перший алгоритм. Не розглядається також відтинання префіксів, оскільки воно тісно пов`язане з пошуком у словнику основ і є

розділом цієї частини аналізу. Мова йде про морфологічний аналіз з того моменту, коли від словоформи вже відділені префікси та одна основа. Маємо на увазі морфологічний аналіз відповідного залишку і вважаємо, що ми маємо словарну інформацію про основу, що відітнули (а також про префікси, якщо вони були).

Загальний вигляд алгоритму морфологічного аналізу

В загальному вигляді алгоритм морфологічного аналізу (без пошуку в словнику основ) складається з п`яти частин.

  • Частина А – "Загальні правила" – є основною частиною алгоритму (власне алгоритмом) і являє собою набір правил, що визначають послідовність операцій та взаємодію решти частин.

  • Частина Б – "Список суфіксів" – містить перелік суфіксів даної мови разом із деякими вказівками, що необхідні для їх правильної обробки ("допоміжними інформаціями").

  • Частина В – "Список інформацій до суфіксів" (інакше – "Стандартний запис"), містить перелік "основних інформацій" до тих суфіксів, що містяться у частині Б (під "основною інформацію до суфіксу" мається на увазі та інформація, що її має бути перенесено до інформації до словоформи).

  • Частина Г – "Нестандартний запис" – є набором вказівок про індивідуальні особливості суфіксів співвідносно до особливостей основ а також про те, як ці особливості мають бути враховані.

  • Частина Д – це таблиця, де перераховано випадки, коли повністю співпадають деякі форми від різних основ (при тому, що інші форми від цих слів – різні).

    П`яти частин, що наведені вище, достатньо для представлення алгоритму морфологічного аналізу цілої низки мов. Частини А, Б, та В необхідні; частини Г та Д можуть бути відсутні.

    Частини алгоритму можуть поділятися на розділи.

    Перейдемо до опису внутрішньої будови частин алгоритму.

    Внутрішня будова алгоритму

    Частина А – "Загальні правила"

    Частина А являє собою певну послідовність правил, що викладені в термінах так званих алгоритмічних операторів. Оператор – це стандартна частина алгоритму, що повторюється, для якої можна створити стандартну програму реалізації.

    Частина А складається з десяти розділів; серед них розділи І. ІІІ, V та VI є обов`язковими для будь-якого алгоритму, а решта розділів може бути відсутня.

    Кожний розділ має виконувати певну змістовну задачу, і його робота завжди призводить до певного результату. Для всіх розділів визначено, які результати (умовно) вважати позитивними, а які – негативними. Для кожного розділу також вказується , куди слід переходити у випадку того чи іншого результату.

    Отже, частина А працює таким чином:

  • Під час морфологічного аналізу окремих словоформ відрізняють обробку "нормальних" випадків (розділи II-VI) та "особливих" випадків (розділи VII-X). "Нормальні" випадки – це словоформи, для яких було знайдено правильну основу та залишки яких (якщо залишки є) складаються лише із суфіксів, при цьому в цих суфіксах не мають місце графічні чергування. До "нормальних" випадків належать більшість словоформ тексту в таких мовах, як українська, російська, англійська, французька, угорська та ін. "Особливі" випадки – це або словоформи, для яких знайдено помилкову основу (внаслідок омонімії або спряженості основ), або словоформи із залишками, що містять, окрім суфіксів, ще й основу ("складні слова"), або словоформи, що мають графічні чергування в суфіксах. Словоформи, що відносяться до "особливих" випадків, зазвичай становлять меншість словоформ тексту.

  • Перед початком морфологічного аналізу будь-яка словоформа вважається "нормальною" і робиться спроба виконати "нормальну" обробку цієї словоформи. В більшості випадків це вдається зробити. Якщо ж під час "нормальної" обробки словоформа виявляється "ненормальною" (тобто один з розділів дає негативний результат), її передають на "особливу" обробку. Після "особливої" обробки (помилково знайдену словоформу замінюють іншою і т. д., див. нижче п. 5) словоформа повертається на "нормальну" обробку. Таким чином, "нормальна" обробка виконується над усіма словоформами, для яких потрібен морфологічний аналіз, а "особлива" – лише над деякими.

  • Обробка словоформ починається з вибору послідовності дій (розділ І): для деяких словоформ морфологічний аналіз взагалі не потрібен (так звані "незмінні слова"); для інших одразу з`ясовується необхідність "особливої" обробки, решта словоформ проходять "нормальну" обробку (при цьому під час аналізу вони можуть виявитися "особливими").

  • "Нормальна" обробка складається з таких п`яти етапів:

    а) вибір таблиці суфіксів, у якій буде вестися пошук залишку (розділ ІІ);

    б) пошук залишку в обраній таблиці (розділ ІІІ);

    в) вибір потрібного суфікса з декількох омонімічних або спряжених – звісно, якщо знайдений


  •  
    Загрузка...