Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Ventajas e inconvenientes del uso de corpus textuales

Leech (2011, 162-163) articula su respuesta a una pregunta acerca de las virtudes de la LC mediante las diferencias que tiene con respecto a la lingikstica de orientacion chomskyana. En su opinion, mientras que la lingikstica racionalista utiliza unicamente la introspeccion, la intuicion de un supuesto hablante-oyente ideal, la LC combina la intuicion con el anali- sis de datos externos, procedentes de corpus textuales, lo cual permite enfrentarse con datos concretos, producidos en actos lingufsticos realizados en condiciones especificas у sometidos a todos los factores de variabilidad asociados. Ademas, en la LC actua el principio de la explicabilidad total у se da gran importancia a la informacion acerca de la frecuencia de los fenomenos analizados, aspecto al que, frente al rechazo manifestado inicialmente por Chomsky, se ha venido prestando cada vez mayor atencion. La posibilidad (en realidad, obligacion) de trabajar con grandes volumenes de datos у tratar de dar cuenta de todos ellos (de nuevo la explicabilidad total) proporciona a la LC su gran diferencia con respecto a la lingikstica descriptiva tradicional, restringida, сото hemos visto en el apartado 2.3.3, por la imposibilidad practica de veneer las limitaciones impuestas por la inevitable seleccion de casos que podia analizar у los sesgos que ello provocaba. Por otro lado, la utilizacion de la web сото nn corpus tiene evidentes ventajas para analisis superficiales de fenomenos de rnuy escasa frecuencia, pero los corpus de referenda у los especializados permiten incorporar a los textos codificacion у anotacion, lo cual facilita el conocimiento en profundidad de las caracteristicas de los fenomenos analizados. En definitiva, las ventajas de la LC pueden resumirse en:

  • • Es una orientacion de caracter empfrico, lo cual no excluye el uso de la intuicion (siempre que sea aplicable, сото es logico).
  • • Maneja grandes volumenes de textos que pueden ser de muy diferentes tipos у caracteristi- cas. Esto permite establecer los factores de variabilidad (diacronica, diatopica, diastratica у diafasica) asociados a cada fenomeno у sus frecuencias respectivas.
  • • El trabajo con textos completos (o, al menos, grandes fragmentos de textos) permite acceder a todos los fenomenos relacionados con las coapariciones, la fraseologia у los diversos significados у construcciones que puede presentar una palabra, sin la dependencia que supone que esas caracteristicas hayan sido tenidas en cuenta en el momento, previo a la investigacion, de hacer la ficha correspondiente.

Al lado de sus evidentes ventajas, el manejo de corpus presenta tambien los que, a juicio de algunos autores, son claros inconvenientes. Los mas importantes son, tal сото los han presentado Hunston (2002) о Flowerdew (2012), los siguientes. En primer lugar, “[a] corpus will not give information about whether something is possible or not, only whether it is frequent or not” (Hunston 2002, 22). En realidad, un corpus da informacion acerca de si algo es posible en tanto que lo documenta y, ademas, registra su frecuencia de aparicion у dispersion de uso. El problema esta en que la ausencia de un elemento о una cierta estructura de un corpus no nos permite deducir que tal elemento о estructura sea imposible en la lengua en cuestion: simplemente, no se documenta en ese (sub)corpus concreto, lo cual puede estar provocado por su tamano, por su falta de representatividad en algun tipo de texto, etc.37 En la medida en la que los corpus aumenten de tamano y, sobre todo, contengan la codificacion necesaria para hacer recuperaciones selectivas de informacion, la pregunta acerca de si una determinada combinacion es о no posible, lo es unicamente en un determinado tipo de texto, variedad dialectal, registro, etc. adquiere mayor relevancia. Volveremos sobre la cuestion de la representatividad en el apartado 6.4, pero, en cualquier caso, es mas que evidente que un corpus no puede contener todo lo que es posible en una lengua о variedad, de modo que es forzoso aceptar que hay fenomenos que es dificil о casi imposible documentar en un corpus у que, por tanto, su ausencia en los textos analizados no permite concluir su imposibilidad en la lengua en cuestion.

Conectado a este rasgo suele aparecer otro que, sin embargo, es de naturaleza diferente. En el trabajo con corpus, se ha dicho a veces, es facil trabajar con factores positivos, pero resulta muy dificil о imposible hacerlo con elementos negativos, con la ausencia de elernen- tos. Con un ejemplo claro, en muchos corpus es facil recuperar con comodidad aquellos casos en los que una forma verbal de primera persona de singular va precedida (o seguida) por la forma yo, pero ya no resulta tan sencillo obtener directamente aquellos casos en los que el pronombre no aparece en el contexto inmediato (dos о tres formas a cada lado, por ejemplo) de la forma verbal. Se trata, sin duda, de un caso de cierta complejidad computa- cional, pero se puede solucionar mediante la inclusion en las aplicaciones de consulta de los operadores booleanos NEAR у NOT restringidos a un segmento corto del texto.38 De modo parecido, es posible recuperar los casos en que el verbo fijar(se) no va seguido de la preposicion en, etc. Distintos у mas complicados son casos сото el apuntado por Torruella Casanas (2017, 135) sobre los conectores. Segun mantiene Cano (2001), la genesis textual se relaciona con el uso de conectores interclausales, de modo que seria muy interesante poder detectar en un corpus diacronico los casos en los que hay yuxtaposicion (union asin- detica) de dos clausulas. Es sencillo detectar la presencia de conectores, pero no se pueden localizar automaticamente los casos en los que no aparece un elemento de ese tipo. Evi- dentemente, estos problemas no derivan de las caracteristicas de las aplicaciones de con- sulta, sino del nivel de anotacion de los textos: no es posible obtener casos de ausencia de conector si la anotacion es exclusivamente morfosintactica; en carnbio, si lo es si los textos han sido analizados sintacticamente у se ha tornado en cuenta esa caracteristica. En la BDS у ADESSE, por ejemplo, es posible recuperar todos los casos de completivas con verbo en forma personal no introducidas por una conjuncion о de un complemento indirecto que no este acompanado de un complemento directo, etc.39 No se trata, pues, de deficiencies de los corpus о de las aplicaciones de consulta, sino del grado de anotacion que han recibido los textos en cada caso.40

Suele aludirse tambien a los problemas derivados del reducido tamano de los corpus si se pone en relacion con las posibilidades existentes en cualquier lengua. Esta claro que los corpus han ido aumentando de volumen hasta llegar a tener cientos о miles de millones de formas у que existe tambien la posibilidad de usar todo el contenido de la web сото un corpus. A pesar de ello, un corpus no puede contener todo lo que es posible en una lengua, por muy grande que sea su tamano, es decir, sera siempre una muestra de la lengua en cuestion. A1 tiempo, es necesario tener en cuenta que el tamano adecuado para un corpus es algo que tiene que ser puesto en relacion con la finalidad con la que va a ser utilizado. No es lo mismo construir un corpus para estudiar aspectos fonicos que hacerlo para analizar feno- rnenos lexicos о gramaticales, que requieren habitualmente tamanos considerablemente mayores (cf. supra, 3.3). En lo que se refiere a explotaciones de caracter lexico, es necesario tener en cuenta que hay muchas palabras que tienen una frecuencia media de aparicion de una vez cada cien о doscientos millones, de modo que es perfectamente comprensible que no presenten ni un solo caso en corpus de mil millones de formas. Ademas, hay que tener en cuenta tambien que las palabras frecuentes о muy frecuentes presentan acepciones о combi- naciones sintacticas que tienen una frecuencia muy reducida, de modo que disponer de diez mil ejemplos de un determinado lerna no garantiza que ahi se puedan encontrar todas las acepciones que posee.41

Se alude tambien con cierta frecuencia a que un corpus “presents language out of its context” (Hunston 2002, 23) en tanto que prescinde de todo el contexto que rodea a la situacion comunicativa. En efecto, cuando se trabaja con la transcripcion de, por ejemplo, una conversacion se atiende habitualmente a las secuencias pronunciadas por las personas que intervienen en ella у no a los gestos, los cruces de miradas, los contactos, etc. Sin embargo, eso es, de nuevo, una deficiencia relacionada con el grado de anotacion. Como se ha indicado al hablar de los corpus multimodales, es posible anadir a la simple transcripcion ortografica la indicacion de todas esas caracteristicas que actuan en la comunicacion y, ademas, es posible alinear la transcripcion ortografica con el sonido у la imagen, de modo que todos esos factores puedan ser tenidos en cuenta adecuadamente. Por otro lado, es cierto que la informacion recuperada de un corpus se rnaneja habitualmente en forma de concor- dancias, con lo que tenemos un contexto bastante limitado. Sin embargo, la utilizacion de las concordancias no es un rasgo esencial en un corpus, sino que deriva habitualmente de la comodidad del manejo de los ejemplos о bien de las restricciones relacionadas con los derechos sobre los textos incluidos. Muchas aplicaciones de consulta de corpus tienen la posibilidad de ampliar el contexto recuperado у tambien, cuando las circunstancias legales lo permiten, de trabajar con el texto completo.

Segiin Hunston (2002, 23) “[a] corpus can offer evidence but cannot give information” у Szudarski (2018, 10) senala que “[a] corpus cannot interpret data”. Es de todo punto evidente que la investigacion lingufstica no puede consistir simplemente en reunir ejemplos de un cierto fenomeno (sea de un corpus, de una serie de experimentos о del conocimiento lingiifstico propio) у aplicarles pruebas estadfsticas mas о menos refinadas. El analisis tiene que ir mucho mas alia у discurrir en el modo esperable en un procedimiento hipotetico- deductivo. Creo que, en este sentido, el trabajo con los datos procedentes de un corpus no se diferencia fundamentalmente del que habfa que realizar con los casos seleccionados en la lingufstica descriptive tradicional о lo que supone el uso de la introspeccion sobre el cono- cimiento lingiifstico propio. St es cierto, sin embargo, que los avances en lingufstica com- putacional permiten realizar de forma automatica algunos analisis que suponen una ayuda considerable en la comprension de conjuntos de datos que, en ocasiones, pueden alcanzar varios miles de ejemplos. Las coapariciones, por ejemplo, pueden facilitar la deteccion de acepciones diferentes en una misma palabra, сото se ve en el ejemplo de saco analizado en el capftulo 4. En una lfnea diferente, recursos сото Sketch Engine pueden proporcionar un perfil bastante ajustado de las caracterfsticas sintacticas de una palabra a partir de los datos contenidos en un corpus anotado morfosintacticamente.42

Existe un inconveniente mas en el uso de los corpus al que no suele prestarse atencion en la bibliograffa general, ni siquiera en la centrada en los analisis diacronicos, que es donde el problema se presenta con mayor gravedad. En la situacion previa a la informacion de los textos у la posibilidad de recuperacion automatica, la primera fase de cualquier investigacion que pretendiera estar basada en los datos reales consistfa en la extraccion de los casos relevantes, tarea que suponfa la lectura de los textos seleccionados (el corpus) у el fichado de los ejemplos pertinentes. Ese procedimiento tiene los graves inconvenientes senalados en el apartado 2.3.3, pero obliga a hacer la lectura completa de los textos que forrnan el corpus у proporciona, por tanto, una idea habitualmente solida de sus caracte- rfsticas у tambien de la consideracion que hay que atribuir a los ejemplos procedentes de cada uno de ellos. En definitiva, el investigador conoce las obras, sabe cuales son las peculiaridades de la edicion que maneja, puede contrastar, si es necesario, con otras edi- ciones, etc. En un trabajo con datos procedentes de un corpus, en cambio, lo mas habitual es que nos limitemos a analizar los rasgos de las concordancias extrafdas de unos textos que, en buena parte de las ocasiones, no conocemos ni podemos situar adecuadamente. En un corpus general puede haber textos mal seleccionados, ediciones poco adecuadas, codi- ficacion insuficiente que puede dar lugar a errores en, por ejemplo, la consideracion de una cita textual сото un ejemplo perteneciente al propio texto о la inclusion del contenido de un regesto, etc.43

Una buena parte de esos problemas se solucionan con una seleccion mejor de textos у ediciones, у una codificacion mas cuidadosa у detallada, pero hay otros aspectos en los que los datos proporcionados por los corpus tienen que ser analizados con gran atencion. Por citar solamente algunos casos especialmente significativos, los periodicos, revistas, blogs, etc. contienen textos debidos a diferentes autores con distintas adscripciones lingiifsticas. Por ejemplo, un periodico publicado en Bogota puede contener noticias escritas en

Nicaragua por un nicaraguense о рог una persona de otra procedencia que lleva algun tiempo viviendo en ese pais. La codificacion de las noticias debe incluir el pais de la persona que la ha escrito, pero, сото se puede entender facilmente, este es un trabajo enormemente complicado que requiere una investigacion biografica detallada, imposible cuando hay que enfrentarse con miles de personas. Algo semejante sucede con las caracterizaciones lingiiisti- cas de diferentes personajes en las obras de ficcion. Diferenciar en la codificacion del texto entre los fragmentos atribuibles al narrador у a cada uno de los personajes es posible у tiene sentido cuando se trabaja unicamente con una novela о, сото mucho, la obra de un autor, pero totalmente inviable (tanto por la codificacion сото por la recuperacion) en el caso de un corpus.

La facilidad en la recuperacion de los datos no puede desembocar en una simple valoracion estadistica, mas о menos refinada, de los casos obtenidos. Es necesario aplicar siempre, sobre todo en los corpus de orientacion diacronica,44 el sentido filologico necesario para la valoracion de los datos que han sido devueltos por la aplicacion de consulta. Es evidente que trabajar con miles de ejemplos hace muy dificil о incluso imposible prestar una atencion detenida a todos los materiales que hemos encontrado, pero es absolutamente imprescindible analizar cuidadosamente al menos aquellos casos que manifiestan caracteristicas atipicas. Por poner un ejemplo especialmente llamativo, la busqueda de los casos de haber de + infinitivo en el CORPES devuelve una frecuencia inesperadamente alta en Filipinas (ciento un casos, con una FN de 733 frente a una FN general de 87,9). Una comprobacion rapida revela que ochenta у uno de esos casos vienen de un libro у diecinueve proceden de otro, lo cual obliga a manejar con sumo cuidado lo que se pueda decir acerca de la frecuencia de esta construe- cion en ese pais.4

 
<<   CONTENTS   >>

Related topics