Processament informàtic del llenguatge naturalun sistema d'anàlisi morfològica per ordinador

  1. Martí Antonín, María Antonia

Defentsa unibertsitatea: Universitat de Barcelona

Defentsa urtea: 1988

Epaimahaia:
  1. Sebastià Serrano Farrera Presidentea
  2. Núria Rafel Fontanals Idazkaria
  3. María Felisa Verdejo Maíllo Kidea
  4. Carlos Martín Vide Kidea
  5. Francisco Javier Garijo Mazario Kidea

Mota: Tesia

Teseo: 17710 DIALNET

Laburpena

L'objectiu d'aquesta tesi ha estat Ia construcció d'un analitzador morfològic automatitzat de la llengua catalana.L'interès de l'anàlisi morfològica computacional recolza en el fet que en qualsevol de les aplicacions de la lingüística computacional cal un tractament del text en aquest sentit que redueixi el volum del diccionari i les tasques de manteniment, especialment quan es tracta de Ilengües altament flexives.La finalitat de l'analitzador morfològic és la segmentación dels textos en unitats rellevants per al seu posterior tractament sintàctic o semàntic i l'associació d'informació a aquestes unitats.L'analitzador que ens ocupa té una arquitectura modular i està basat en un autòmat d'estats finits omplint amb condicions. La modularitat del sistema garanteix la independència de les dades entre elles i de les dades respecte del procés.La pertinència d'un autòmat per realitzar el procès d'anàlisi recolza en la seva adeqüació per al reconeixement dels mots en el sentit esquerra-dreta i en el fet que en els mots podem definir uns components, arrels, sufixos i elements flexius, que presenten un comportament distribucional i combinatori regular.El disseny de l'analitzador consisteix en la definició de l'estratègia de segmentació dels mots, en l'agrupament dels segments resultants en models segons les seves característiques morfològiques i en la definición de regles que determinen lo combinatòria correcta dels mòduls. Les condicions de les regles permeten controlar la capacitat d'anàlisi.Les arrels, els sufixos i els elements flexius es troben emmagatzemats en diccionaris específics. Cada un d'aquests elements duu associat un model i els atributs morfològics corresponents.Els models representen un nivell superior d'organització del material lingüístic que permet representar el comportament homogeni en la flexió i en la derivació: totes Ies arrels amb un mateix comportament flexiu estan agrupades en un únic model i els sufixos i els elements de flexió que combinen amb un mateix model d'arrels es troben igualment agrupats en un únic model. L'autòmat concatena models, de manera que les combinacions de les arrels amb els sufixos flexius i derivatius no s'han d'especificar individualment sinò al model al qual pertanyen.La informació morfològica es pot assignar als models i/o als elements dels diccionaris, segons es vulgui generalitzar o particularitzar.L'estructura de l'autòmat ha estat definida tenint en compte tant les característiques de la llengua com la funcionalitat del disseny. L'esquema de l'analitzador es fonamenta en la definició dels estats. Així, s'han definit tres estats reconeixedors d'arrels verbals, corresponents o la primera, segona i tercera conjugació, i un estat reconeixedor de les arrels nominals i adjectives. D'aquests estats surten els models corresponents a la flexió com els models de sufixos derivatius. De l'estat que reconeix els sufixos derivatius surten també els models de la flexió.Es tracta d'un disseny general, en el sentit que s'ha realitzat sense tenir en compte cap aplicació en concret. Aquest fet ha permès definir criteris metodològics de validesa general així com avaluar les diferents opcions en Ia segmentació de les formes, en la definició de models i en la construcción de l'autòmat. Com a resultat d'aquesta investigación actualment es disposa d'un analitzador de la llengua catalana que, per cada mot, dóna la seva categoria morfològica, les subcategories associades i l'arrel a partir de la qual s'ha analitzat.L'analitzador permet l'anàlisi de qualsevol forma de la llengua catalana sempre que correspongui a un dels models de flexió definits. L'anàlisi d'una nova forma només requereix donar d'alta Ia seva arrel aI diccionari i assignar-li el model de flexió que li correspon. Les formes derivades es resolen habitualment amb atributs a l'arrel, encara que alguns derivats, pel seu elevat rendiment, es validen aIs models i per tant es generalitzen per a totes les seves entrades.Les aportacions d'aquest analitzador respecte d'altres sistemes d'anàlisi morfològica automatitzada són: a) La possibilitat de resoldre tant les formes flexives com les derivades, fet que permet reduir en gran manera el volum de les dades enmagatzemades als diccionaris; b) La doble possibilitat d'anàlisi i generació. A més d'analitzar els textos, el sistema permet generar totes les formes flexives i derivades a partir d'una determinada arrel; c) La possibilitat de definir metaregles que permeten l'anàlisi de seqüències de sufixos o bé de grups de sufixos; d) La capacitat d'associar informació lèxica i morfològica a les unitats de l'anàlisi; i e) La simultaneïtat del procés d'anàlisi i de filtratge dels resultats.Resten obertes línies d'investigació que en el present estudi han quedat només esbossades. En primer lloc, seria interessant fer més exhaustiu l'ús de metarregles, fet que requereix un estudi acurat de les seqüències així com de Ia comparació de sufixos. Segonament, seria interessant definir amb detall quin tipus d' información lèxica es pot associar als mots, en general o per a una determinada aplicació. Finalment caldria tractar la resolució de les formes compostes dels verbs i del perfet perifràstic.L'analitzador està escrit en FORTRAN i està implementat en un VAX-750.