REFERATUA.ORG.UA — База українських рефератів



Головна Інформатика, комп'ютери, програмування → Загальна форма морфологічного аналізу текстів

та "афікс" вживаються тут не в своєму традиційному значенні. Прийняте у лінгвістиці розрізняння коренів, основ, кореневих основ і т. ін. для наших цілей є несуттєвим, і все це позначається спільним терміном "основа". Визначення цього терміну ми не даємо; ми подаємо основи списком. Однак, можна вказати такі властивості основ:

  • Будь-яка словоформа містить принаймні одну основу (може бути й більше).

  • Основи складають переважну більшість морфем і є численними. У загальнолітературній мові кількість основ сягає сотень тисяч; у текстах із спеціальних галузей знання вона зменшується до кількох тисяч (або десятків тисяч).

  • Одна й та сама основа зустрічається в порівняно невеликій кількості різних словоформ – від однієї до кількох десятків.

  • Від основи до загальної інформації до словоформи надходять значення більшості ознак, що складають цю інформацію.

    Морфеми, що не є основами, називаються афіксами (тобто не проводиться традиційної різниці між афіксами та флексіями). Афікси, що зустрічаються перед основами, називаються префіксами; афікси, що зустрічаються позаду основ, називаються суфіксами. Таким чином, суфіксами вважаються не тільки морфеми словотворення, але також і так звані "тематичні голосні", "з`єднувальні звуки" (а точніше – "літери"), флексії і т.ін.

    Властивості афіксів певним чином протилежні властивостям основ:

  • Афікси зустрічаються не у всіх словоформах.

  • Афікси завжди складають меншість морфем, їх загальна кількість невелика: від кількох десятків до кількох сотень (залежно від мови).

  • Один і той самий афікс зазвичай зустрічається в порівняно великій кількості різних словоформ – від кількох десятків до кількох тисяч і навіть десятків тисяч, але ніколи не менше, ніж у двох словоформах (основа може зустрічатися і в одній словоформі, співпадаючи з нею).

  • Від афікса до загальної інформації до словоформи надходять значення меншості ознак, що складають цю інформацію.

    В даному описі афікси також подаються списком.

    В процесі розробки алгоритмів, а саме – під час складання словника, зручно задавати лише афікси (оскільки у мовах, які ми розглядаємо, їх кількість відносно невелика) та, виходячи з прийнятого списку афіксів, виділяти основи (з поданих у тексті словоформ) за допомогою певних правил.

    Частина словоформи, що залишається після відкидання будь-яких морфем від початку словоформи, називається залишком. Під час аналізу залишок весь час зменшується по мірі послідовного відтинання морфем – до повного зникнення, що означає кінець аналізу для даної словоформи. Наприклад, під час аналізу словоформи перекомпілювати після відтинання префікса пере- залишком буде –компілювати, після відтинання основи компіл- залишається –ювати, після відтинання суфікса –юва– залишок буде –ти, і зрештою, після відтинання суфікса –ти залишок зникає і аналіз закінчується.

    Дві морфеми, що містять різну інформацію, можуть графічно співпадати (повністю або частково) одна з одною. Ми ж роздивимося лише такі випадки співпадання, коли принаймні одна з морфем повністю входить до складу іншої. Решта випадків співпадання не впливають на правильність морфологічного аналізу й тому нас не цікавлять.

    Як приклад повної вкладеності одної морфеми в іншу можна навести суфікс –ами (ор. відм. мн.), що повністю вкладається в основу намист- слова намисто, що призводить до неправильного розкладу н-ами-ст-о

    Особливо важливі два приватних випадки співпадання морфем.

    а) Дві морфеми повністю співпадають. Такі морфеми називаються омонімічними.

    б) Одна з морфем входить до складу іншої, і при цьому існує деяка одиниця, що починається з меншої морфеми, але дозволяє вкладення і більшої (тої, що включає) морфеми. Тоді ми кажемо, що ці морфеми спряжені одна з одною.

    Вкладення одних морфем у інші, і, зокрема омонімія та спряженість морфем створюють певні труднощі морфологічного аналізу.

    Основні моменти

    У процесі морфологічного аналізу легко виділяються такі основні моменти, що є спільними для різних мов та алгоритмів:

  • Пошук словоформи (або залишку) в певних списках морфем (у таблицях). Під пошуком мається на увазі послідовне порівняння текстової одиниці (словоформи або залишку) з елементами списку (з основами, префіксами або суфіксами) доти, доки елемент списку політерно не "вкладеться" зліва направо до текстової одиниці, що обробляється.

  • Вибір потрібного елемента з кількох можливих. Тут мається на увазі випадок, коли до текстової одиниці одночасно можуть вкладатися різні морфеми (омонімічні або спряжені). Необхідний вибір робиться на основі спеціальних поміток, що приписані морфемам та відображають їхню сполучність. Так, за допомогою поміток при основі обирається правильний суфікс (із декількох, що вкладаються до цього закінчення); при розтинанні залишку на суфікси може бути виправлено помилку, що її припустилися раніше (під час відтинання основи) і т.д.

  • Вибір інформацій до окремих морфем та об`єднання цих інформацій у загальну інформацію до словоформи, що аналізується.

  • Виявлення індивідуальних особливостей морфем (якщо такі особливості є) та врахування впливу цих особливостей на загальну інформацію до словоформи.

  • Вибір подальших дій після того, як завершено обробку наступної морфеми. Послідовність дій зазвичай визначається властивостями щойно обробленої морфеми.

    Конкретний зміст цих п`яти основних моментів морфологічного аналізу змінюється в залежності від алгоритму, але самі ці моменти залишаються в принципі незмінними. Не обов`язково всі п`ять моментів мають місце: другий та четвертий можуть взагалі бути відсутні (наприклад, у мові, де немає морфем, що співпадають і де морфеми не мають індивідуальних особливостей). Важливо лише те, що для опису морфологічного аналізу вищенаведених моментів досить.

    Найбільш складним із вказаних моментів морфологічного аналізу є другий – обрання потрібної морфеми у випадку омонімії, повної вкладеності та спряженості морфем. Якби в мовах не було всіх цих "небезпечних " спів падань морфем, то морфологічний аналіз здійснювався б кількома стандартними, надзвичайно простими операціями. Взагалі, головна скланість автоматичного перекладу в цілому – це зовнішнє (в даному випадку, графічне) співпадання мовних елементів, що по-різному перекладаються й тому містять різну інформацію. Таке спів падання призводить до задачі розрізняння та вибору, без якої аналіз під час автоматичного перекладу зводився б до елементарних перетворень.

    Природно. що проблема омонімії (в найширшому розумінні терміна), тобто задача розрізняння та вибору, посідає важливе місце в морфологічному аналізі. Морфологічний аналіз має забезпечувати


  •  
    Загрузка...