Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Revisión de procedimientos de recuperación existentes en corpus

El primer refinamiento que se puede lograr en el analisis de lo contenido en un corpus es, por supuesto, todo lo que deriva de la codificacion у anotacion. Como hemos visto en el capftulo 3, la codificacion debe reflejar los valores que cada texto tiene con respecto a los parametros que han intervenido en la confeccion del corpus. Por tanto, aquf entrara todo lo relacionado con el pafs, tipo de texto, area tematica, etc. De la existencia de anotacion proceden las mejoras que se pueden lograr en la organizacion de los datos recuperables.

El primer rasgo de interes es, sin duda, la atribucion de cada forma que aparece en el texto a un lema determinado. Los procedimientos que hemos visto en los capftulos 4 у 5 para manejar la diferencia entre forma (ortografica) у lema se reducen a la existencia de ventanas diferentes, сото sucede en el CORPES, ESLORA, CAES у otros о bien la adopcion de una forma especial de indicacion que, сото en el CdEhist о el CdEvveb, puede consistir en la utilizacion de letras mayusculas о bien la situacion de la secuencia correspondiente entre corchetes. En este sistema, pues, escribir cantar recupera solo las formas del infinitivo, mientras que escribir CANTAR о [ cantar ] devuelve todas las formas adscritas al paradigma de ese verbo. Por otro lado, la opcion de las formas ortograficas permite recuperar con una tinica expresion secuencias formadas por varias, сото de vez en cuando, a lo mejor о actitudes politicos.

La misma doble posibilidad en la forma de plantear la consulta permite recuperar adecua- damente la informacion en aquellos casos en los que se rompe la relacion directa entre las formas ortograficas у los elementos gramaticales que las integran. Es lo que sucede en las contracciones (al, del), las formas con enclfticos (decfrselo) por un lado у la expresiones multipalabra (sin embargo). Mediante diferentes estrategias de planteamiento de la consulta, corpus сото CdEvveb, CORPES, ESLORA у rnuchos otros permiten recuperar los casos de las formas llegare, que о al, el lema llegar, la expresion sin embargo, las primeras personas del presente de indicativo de cualquier verbo, cualquier sustantivo seguido de dos adjetivos, etc.

Buena parte de todo esto se hace posible gracias a la adicion de informacion morfosintactica. Como se ha visto en el apartado 3.5, lo que se hace habitualmente en el proceso de anotacion es sintetizar en una etiqueta la informacion correspondiente a cada elemento. Utilizando de nuevo el ejemplo empleado en el apartado 3.5, en el sistema de FreeLing encontramos lfneas сото, por ejemplo,5

Se saber VMIP1S

Esta claro que, en la etiqueta, cada posicion esta asociada a una de las subcategorfas apli- cables у las letras que figuran en ellas tienen un determinado significado. Por tanto, сото veremos en el apartado 7.4, podemos recuperar todos los casos de formas pertenecientes al presente de indicativo pidiendo la localizacion de todos aquellos casos que tengan V en primera posicion, I en la tercera у P en la cuarta, con independencia de lo que figure en las demas posiciones. Es evidente que la utilizacion de este procedimiento requiere poder manejar expresiones regulares y, por supuesto, conocer los detalles de сото se ha construido el etiquetario у su estructuracion.

La incomodidad de este sistema es la explicacion de que, en la mayor parte de los casos, las aplicaciones de consulta permitan que se llegue a la etiqueta mediante la indicacion directa de los rasgos gramaticales que interesan en cada caso. El CdEhist у el CdEweb, por ejemplo, presentan una ventana POS en la cual se puede seleccionar directamente las caracterfsticas gramaticales que interesan (todos los verbos, las formas del presente de indicativo, etc.)- Es un sistema comodo, pero forzosamente limitado, porque no tiene sentido construir una relacion que contenga todas las posibilidades existentes en el etiquetario empleado en el corpus (formas del presente de indicativo en primera de singular, segunda de singular, tercera de singular, etc.). Por esa razon es mas util que, сото se hace en el CORPES о en ESLORA, la aplicacion permita que quien hace la consulta vaya seleccionando rasgos y, en funcion de los ya elegidos, acceda a la posibilidad de dar mas indicaciones. Asf, una vez se ha dicho que se busca un verbo, la aplicacion puede pedir el modo; si se selecciona indicativo, permitira elegir entre presente, copreterito, preterito, etc. Asi sucesivamente hasta agotar las posibilidades existentes en ese camino. Las ventanas correspondientes de corpus сото ESLORA, CAES о COSER permiten ver, al final, la expresion de busqueda resultante, es decir, la forma de la etiqueta que corresponde a las opciones senaladas.

Con las diferencias esperables por la distinta naturaleza de los factores en juego, la seleccion de ejemplos en funcion de los rasgos que estructuran la composicion del corpus actua de un modo semejante. El sistema utilizado en el CORPES es, sin duda, el que mas posibilidades presenta a la hora de hacer la seleccion por zonas, pafses, ano, medio, tipo de texto, etc., de modo que es posible obtener los ejemplos de una determinada palabra en textos periodisticos (concretamente noticias) colombianos que traten de economia у publicados entre 2010 у 2013. En los rasgos que lo permiten, la seleccion se hace mediante el procedimiento jerar- quizado que hemos visto en la construccion de la etiqueta: en la seleccion geografica, por ejemplo, se comienza seleccionando en Origen entre las diferentes procedencias reconocidas (Espana, America, Filipinas, Guinea ecuatorial, sin identificar),6 de ahf se pasa a las zonas lingufsticas (andina, por ejemplo, si se ha seleccionado America) y, finalmente, el pais.

No es habitual en los corpus de referenda permitir que la recuperacion se haga mediante la seleccion de partes especificas de los textos. Como se indica en el apartado 7.1, resultaria muy costoso habilitar un sistema que permitiera hacer recuperacion selectiva tomando en cuenta, por ejemplo, los capitulos de una novela, las intervenciones de los personajes en una obra de teatro о algun otro factor de este tipo.7 En los corpus orales es importante diferenciar, en las entrevistas semidirigidas, entre las intervenciones de los informantes у las que corres- ponden a las personas que actiian сото entrevistadoras. Tanto ESLORA сото COSER tienen en cuenta esta diferencia fundamental у permiten organizar las busquedas utilizando estas caracterizaciones.

En otro orden de cosas, las aplicaciones de consulta suelen incorporar, en mayor о menor medida, procedimientos que pueden enriquecer о refinar las busquedas у que, en general, estan relacionados con las expresiones regulares que analizamos en el apartado 7.4. En rnuchos corpus es posible utilizar el metacaracter (“comodin”) ? que sirve para indicar la presencia de un caracter cualquiera en la posicion que ocupa ese signo. Asi, en CORPES, CdEweb, ESLORA, CAES, etc. la peticion de la expresion bombill.’ devolvera todos los casos de bombilla у bombillo; la peticion bombill.’s devolvera los casos de bombillos у bombillas.8

Tambien es de uso muy general el metacaracter * que sirve para aludir a cualquier secuencia de caracteres (incluido ninguno) que aparezca en la posicion ocupada por ese signo. Asf, la peticion rasa* devolvera los casos de rasa, rasas, rasar, rasante, rasado, rasantes, rasados, rasa- yana, etc. Es decir, cualquier forma cuyos cuatro primeros caracteres sean rasa.9 Por supuesto, no es necesario que este metacaracter este al final de la secuencia. Una peticion сото *mente devolvera todas las palabras terminadas en mente у algo сото al*mente devolvera todas las palabras que comiencen por al у terminen en mente (por tanto, altamente о alternativamente, pero tambien alimente).

Estos dos recursos, faciles de incorporar a cualquier aplicacion de consulta, agregan una potencia considerable a los sistemas de busqueda,10 puesto que permiten tambien enfrentarse con aquellos casos en los que la configuracion morfologica de las formas integradas en el paradigma de, por ejemplo, un verbo tienen una repercusion ortografica clara, сото sucede con la parte correspondiente a la rafz en los verbos regulares. Por supuesto, dado que estas busquedas no tienen mas criterio que la conformidad ortografica, los resultados pueden devolver casos que no interesan y, mucho peor, omitir resultados que si son pertinentes. Por ejemplo, una busqueda сото result* devolvera todas las formas del verbo resultar documen- tadas en el corpus, pero tambien otras сото resulton, resultante y, por supuesto, los casos de resultado que son sustantivos. En sentido contrario, la utilizacion del patron caz* para las formas del verbo cazar devolvera muchos casos que no pertenecen a ese verbo у omitira todos aquellos que, por convenciones ortograficas, comiencen por cac.11

De gran utilidad para las necesidades habituales en la investigacion linguistica es la posi- bilidad de utilizar los operadores booleanos. En terminos generates, permiten la formulacion de rasgos alternatives (elemento x OR elemento y), rasgos copresentes (elemento x AND elemento у) о la combinacion de una presencia con una ausencia (elemento x NOT ele- mento y). A ellos se puede unir tambien un operador de distancia (NEAR). El funciona- miento de todas estas posibilidades se logra, al final, mediante expresiones regulares, сото veremos en el apartado 7.4, pero las aplicaciones de consulta pueden presenter modos diver- sos de formularies.

El mas simple de formular у manejar es, sin duda, el operador OR, mediante el cual es posible obtener los casos de dos о mas elementos distintos en una consulta unica. Ya hemos utilizado este operador en algunos de los analisis realizados en el capitulo 4, de modo que podemos ahora proceder simplemente al estudio de las diferentes formas en que esta posibili- dad esta incorporada a diferentes aplicaciones de busqueda. En el CdEhist у el CdEvveb, la indicacion se hace mediante el signo utilizado habitualmente en el manejo de expresiones regulares: la barra vertical о pleca (|, normalmente, la tercera alternativa de la tecla del 1). Por tanto, la indicacion aldea | aldeas en la ventana de Busqueda devolvera el niimero de casos que corresponden a cada una de las alternativas senaladas y, en el paso siguiente, los ejemplos correspondientes a cada una de ellas. Naturalmente, es posible combinar mas de dos opciones: aldeano | aldeana | aldeanos | aldeanas devuelve los casos de esas cuatro palabras. Puede pensarse que en casos de este tipo resultaria mas economico utilizar la expresion de busqueda aldean*, pero es facil darse cuenta de que con esa formulacion apareceran tambien los ejemplos correspondientes a aldeanilla, aldeanuca, aldeanueva, etc. Por tanto, hay que valorar en cada caso cual es la opcion mas adecuada. En estos dos corpus, la indicacion de alternativas parece estar reducida a las formas у no opera con los lemas. Asi, la expresion ALDEANO devuelve los casos de aldeano, aldeana, aldeanos у aldeanas; VECINO, los de vecino, vecina, vecinos у vecinas, pero ALDEANO | VECINO da fallo у no devuelve nada. Tambien se emplea directamente el signo | en ESLORA у CAES, pero las diferentes posibilidades iniciales de busqueda en estos corpus (por formas ortograficas, elementos gramaticales о lemas) hace que la combinacion de diferentes parametros de resultados muy utiles. Por ejemplo, es posible obtener de una sola vez todos los casos de los lemas aldea у pueblo de modo muy sencillo. Se activa la busqueda por Elementos gramaticales у en la ventana correspondiente a Lema se escribe simplemente aldea | pueblo. Combinando esta posibilidad con los metacaracteres examinados anteriormente, podemos obtener, por ejemplo, todas las formas correspondientes a todos los lemas terminados en -cion о -zon. La forma es tambien muy sencilla: basta con escribir *cion | *zon en la ventana de Lema.

En el CORDE у el CREA no anotado, las alternativas se formulan tambien mediante la utilizacion de la traduccion espanola del operador, сото hemos visto ya en varios apartados del capftulo 4. Por tanto, las busquedas anteriores se convierten en expresiones del tipo aldeano о aldeana о aldeanos о aldeanas en la ventana de busqueda.12

Aparentemente mas complicado es el sistema utilizado en el CORPES (y la version anotada del CREA). Como hemos visto ya en los capitulos 4 у 5, la primera pantalla de busqueda tiene en la parte superior izquierda unos signos + у - que despliegan (o anulan) la posibilidad de incorporar otros elementos a las busquedas. Por tanto, la posibilidad de recti' perar los casos de las formas enseguida у en seguida consiste simplemente en escribir una de las dos variantes en la primera ventana de Forma, pulsar el signo +, comprobar que el conec- tor activado es О у escribir la segunda opcion en la nueva ventana de Forma. El procedi- miento es, sin duda, mas largo que lo que hemos visto en las formulaciones anteriores, pero tiene tambien algunas ventajas que justifican su uso. En primer lugar, el manejo de los opera- dores resulta mas sencillo para los consultantes, que no tienen que retener los signos habituates en el empleo de expresiones regulares у pueden emplear siempre el mismo sistema, simplemente haciendo la seleccion del operador deseado. Por otra parte, al tratarse de un factor que se introduce con caracter adicional, permite combinar opciones muy diferentes entre si: es posible pedir una forma о bien todas las formas de un lema (es decir, la forma aldeano о bien todas las formas del lema vecino) y, sobre todo, construir una busqueda usando subcorpus у combinarla con otra busqueda en otro subcorpus. Por ejemplo, casos del lema chaqueta en Espana о bien casos del lema saco en algunas zonas americanas. Evidentemente, esta lfnea da una potencia de busqueda que compensa sobradamente el esfuerzo adicional que hay que hacer para formular las peticiones mas sencillas.

El operador AND presenta unas caracterfsticas interesantes para su empleo en el analisis de corpus. Hay que reconocer que, de entrada, no resulta excesivamente util, puesto que su formulacion inicial consiste en localizar textos en los que se de el elemento x у tambien el elemento y. En efecto, si tenemos en cuenta que el concepto de texto que se maneja habitual- mente en los corpus es cambiante у se ajusta a su naturaleza (puede ser una novela, toda una entrevista radiofonica, una noticia de periodico, etc.) llegaremos probablemente a la conclusion de que no tiene demasiado interes buscar textos en los que aparezcan los lemas aldea у pueblo. Sin embargo, es una opcion del mayor interes cuando nuestro objetivo radica en la busqueda de textos en los que se presentan dos о mas alternativas de un cierto fenomeno о elemento. Por ejemplo, si se esta estudiando la forma en que se produce la reintroduccion del llamado superlativo sintetico en espanol (с/. Rojo 2019a, 2019b) resultara del mayor interes localizar los textos en los que se dan las dos opciones. Si se buscan en el CORDE los textos anteriores a 1400 en los que aparecen las formas altisimo у muy alto,13 la respuesta es que solo hay un texto en el que alternen, los Casftgos e documentos . . . ordenados por el rey Sancho IV. Dada la alternancia de las grafias isimo e issimo, puede ser conveniente combinar los dos operadores: (altisimo о altissimo) у muy alto.

Por los factores que acabo de senalar, la mayor utilidad del operador AND aparece cuando es posible acotar el ambito en el que se pide la aparicion de dos о mas formas, es decir, cuando se anade un operador de distancia. En el CORDE, esa indicacion se introduce directamente en la ventana de busqueda mediante la indicacion dist/cifra. Asf, para recuperar los datos de todos aquellos casos en los que la forma fazer es acompanada a una distancia no superior a tres palabras (a izquierda о derecha) por la forma an, hay que introducir en la ventana de Consulta la expresion fazer dist/3 an. Naturalmente, los casos devueltos correspon- den a diferentes estructuras (an de fazer, fazer an, fazer lo an, etc.).

En el CAES у en ESLORA estas posibilidades se formulan habilitando la opcion Elemen- tos gramaticales proximos о Palabras ortograficas proximas en la pantalla de Tipo de busqueda. Asi, para analizar el uso del subjuntivo en una clausula dependiente del verbo querer hay que escribir querer en la ventana del primer lerna, seleccionar luego por ejemplo la opcion ^4 (con lo que se establece una ventana de cuatro о menos palabras) у seleccionar ahi, en la ventana de Etiqueta, el modo subjuntivo. Como se puede ver en la ventana en la que se despliega la distancia, existe la opcion de marcar una distancia exacta о bien un inter- valo, que es lo que se ha elegido en este ejemplo. Es muy util disponer de las dos posibilidades para poder trabajar no solo con los elementos que estan en posiciones fijas, sino tambien con aquellos que pueden incluir elementos intermedios, сото es el caso que he utilizado сото ejemplo.

Algo semejante, tambien con la distincion entre distancia exacta e intervalo, aparece en el CORPES. En los capftulos 4 у 5 se da el detalle de varias busquedas que utilizan esta posibi- lidad, de modo que sera suficiente con indicar aquf que las opciones son las dos senaladas у que existe tambien la opcion de seleccionar la orientacion del segundo elemento con respecto al primero (derecha, izquierda о ambas). En el CORPES existe una posibilidad adicional, muy potente para la recuperacion de datos, que consiste en encadenar varios elementos a distancias establecidas. Es el sistema que se utiliza en el apartado 4.6 para recuperar los casos que pueden corresponder a la estructura fraseologica estar + hasta + artfculo + sustantivo: se introduce el lema estar сото primer elemento y, en ventanas sucesivas, se van introduciendo los demas, a las distancias correspondientes. Esto mismo se puede conseguir tanto en ESLORA сото en el CAES, pero en ese caso hay que seleccionar la opcion Elementos gramaticales en la ventana de Busqueda e ir introduciendo los valores adecuados en las ventanas corresponds entes a las cuatro posiciones implicadas en el orden correcto (el lema estar, luego el lema о la forma hasta, un artfculo determinado cualquiera, un sustantivo cualquiera).

El operador booleano NOT es de gran utilidad, por ejemplo, en aquellos casos en los que se quiere utilizar un patron, pero conviene excluir algunos de los elementos que responden a el. En el CORDE у el CREA no anotado se consigue escribiendo у no en la ventana de Busqueda. Con uno de los fenomenos que hemos analizado anteriormente, podemos estar interesados en localizar los casos del llamado superlativo sintetico en textos anteriores a 1400. La forma de hacerlo es, сото hemos visto ya, introducir la expresion *issimo en la ventana de Busqueda у 1400 en la ventana derecha de Cronologico. El resultado son 253 casos. Si al analizarlos decidimos que queremos excluir el peso de algunas de las formulas habituales en textos vinculados a las practicas religiosas, podemos escribir *issimo у no Altissimo, con lo que obtendremos 244 resultados.14

En el CORPES, el procedimiento consiste en activar el operador NOT en la ventana que surge al pulsar el signo + que esta debajo de la ventana de Lema. Asf, si se quiere estudiar la posible existencia en espanol de palabras derivadas del latfn expellere у excluir de los resul- tados los correspondientes al verbo expeler, debemos escribir expel* en la ventana de Lema, pulsar el signo +, seleccionar NO у escribir expeler en la ventana de Lema asociada a esa opcion. En febrero de 2020 (version 0.91) no aparecen mas que cinco casos de expelotero у otro de expelimentos (por experimentos en boca de un hablante de espanol de origen chino).

En los corpus ESLORA у CAES, la formulacion es identica a la que se emplea cuando se trabaja con expresiones regulares. Ya hernos visto que el operador OR se introduce con la barra vertical | (pleca). Por tanto, para recuperar todos los casos de lemas terminados en -cion

0 -zon hay que seleccionar Elementos gramaticales en la ventana de Tipo у escribir, en la ventana de Lema, *cion | *zon. El operador NOT se incluye, lo mismo que en las expre- siones regulares, mediante el signo de cierre de admiracion (!). Por tanto, si de la busqueda anterior interesa excluir algunos casos, podemos usar, en esta misma ventana, expresiones del tipo *cion | *zon ! accion ! actuacion.

En el apartado 4.6 trabajamos el modo de obtener en el CdEweb las variantes que pre- senta una expresion abstracta del tipo SER mas L1STO que ART SUST. La ventaja de que las aplicaciones de consulta incorporen esta opcion es evidente: proporciona una relacion de las diferentes expresiones vinculadas a la biisqueda en lugar de devolver la relacion de ejemplos (las concordancias), que tienen que ser reordenados у contados para poder obtener esa lista. La potencia de esta posibilidad combinada con el uso de operadores booleanos es enorrne. Con un tinico ejemplo, en el corpus ESLORA podemos obtener la relacion de lemas о formas que presentan la secuencia alucin* mediante los procedimientos ya explora- dos. Sin embargo, si lo que nos interesa es centrarnos en los lemas que se estan introdu- ciendo en los ultimos anos, sobre todo en la variedad coloquial, deberfamos excluir los correspondientes a alucinacion, que continue con su significado tradicional. La forma de lograrlo en ESLORA consiste en seleccionar en la ventana Tipo la opcion Elementos coincidentes (lemas) у escribir alucin* ! alucinacion en la ventana del Lema. El resultado es el del estilo siguiente:

  • 1 alucinar Verbo 14 / 780.662 11 /83 18/millon
  • 2 alucinante Adjetivo 7 / 780.662 4/83 9/millon
  • 3 alucine Sustantivo 2 / 780.662 1 /83 3/millon
  • 4 alucinado Adietivo 1 / 780.662 1 /83 l/millon
  • 5 alucinado Sustantivo 1 / 780.662 1 /83 l/millon

La version 2.0 de ESLORA permite combinar el uso del operador NOT con la especifi- cacion de condiciones sobre los elementos que ocupan determinadas posiciones con respecto al que es central en la biisqueda. Por ejemplo, podemos estar interesados en comprobar la frecuencia con la que formas verbales de primera persona de singular van precedidas о no por el pronombre yo, que es un rasgo de gran interes dadas las caracterfsticas del espanol en este aspecto. Podemos comenzar usando la opcion de Elementos gramaticales у marcar * en Lema, para senalar que buscamos casos en los que la forma verbal vaya precedida por algo (y no este, por ejemplo, en la primera posicion de un enunciado). Si pulsamos luego el signo +, aparece una nueva linea en la que podemos introducir la etiqueta correspondiente a las formas verbales de primera persona de singular. El resultado es que hay 24 091 secuencias con esta caracteristica. Para saber en cuantos de esos casos hay un pronombre yo inmediatamente antes de la forma verbal, en la primera de las dos lineas escribimos * en la ventana de Lema1’ у yo en la ventana de Forma ortografica. El resultado es que hay 2861 casos de este tipo. Para encontrar los complementarios, es decir, aquellos en los que la forma que esta inmediatamente a la izquierda de la forma verbal no es yo, dejamos el asterisco en el lema de la primera posicion у escribimos ! yo en la ventana de la forma ortografica. El resultado es 21 230.

El analisis de las concordancias que devuelve el sistema cuando se pide una forma verbal precedida de un elemento gramatical distinto de у о muestra que la estadfstica puede resultar un tanto inadecuada porque ahf entran casos en los que en primera posicion figura un signo de puntuacion. No es difi'cil solucionar este problema: la aplicacion de consulta de ESLORA permite anadir a los rasgos ya utilizados (cualquier lema у una forma ortografica distinta de yo) la indicacion de que la primera forma no debe ser un signo de puntuacion. Eso se logra simplemente eligiendo en el menii de Etiqueta la clase Puntuacion. Tras aceptarlo, hay que introducir a la izquierda de la etiqueta el signo del operador de negacion, con lo que en esta casilla figurara ! Q. Con esta operacion, estamos excluyendo de la primera posicion cualquier signo de puntuacion (en la etiqueta) у la forma yo (en la casilla de forma).

Dado que en todas las casillas es posible hacer mas de una indicacion, podemos tambien excluir la etiqueta de pausa en la primera posicion. La aplicacion no permite incluir dos etiquetas a traves del menu, pero es facil introducir primero, mediante el menu desplegable, la correspondiente a la pausa у anadir luego, ya desde el teclado, la negacion de este rasgo у luego la negacion de los signos de puntuacion: ! ETQ_PAUSA! Q.

 
<<   CONTENTS   >>

Related topics