Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

La lingüística de corpus

La LC supone, сото se ha visto en el apartado 2.3.1, una autentica revolucion instrumental en el sentido de Dyson 1999 y, por tanto, es extremadamente sensible a la evolucion experimentada por las computadoras, que constituyen el medio basico para la construccion у explotacion de los corpus. Frente a lo que sucede con las revoluciones conceptuales, las instrumentales no suponen forzosamente la llegada de cambios teoricos ni modificaciones en los paradigmas vigentes, sino el descubrimiento de hechos desconocidos previamente que hay que intentar explicar adecuadamente y, en el caso concreto de la linguistica, el acceso comodo a grandes cantidades de datos que pueden ser tratados automaticamente hasta un punto determinado. Este caracter encaja perfectamente con lo que en la seccion 1.4 hemos visto сото la “cara linguistica” de su aparicion en el conjunto de los estudios linguisticos: la posibilidad de analizar con rapidez у comodidad el contenido de un corpus textual de gran tamano es, precisamente, la herramienta que necesitaba la orientacion postulada por la escuela estructuralista inglesa para poder desarrollarse sin las limitaciones que tuvo que afrontar, por ejemplo, el Survey of English Usage (SEU), disenado у desarrollado por Quirk.

Todo ello explica que la LC haya tenido una expansion rapida у su practice se haya exten- dido a lo largo у ancho de todo el terreno ocupado por los estudios linguisticos. Quiza sea este mismo factor el que explique la falta de acuerdo que se observa en la bibliografia acerca de si la LC es una nueva teoria, constituye una nueva (sub)disciplina о se trata, mas bien, de una nueva metodologia (c/., entre muchos otros, Leech 1992; McEnery у Wilson 1996; Kennedy 1998; Tognini-Bonelli 2001; McEnery, Xiao у Tono 2006; Gries 2006; Guilquin у Gries 2009; Parodi 2010).

En efecto, la LC no es una teoria: los datos procedentes de un corpus pueden ser analizados desde muy diferentes marcos teoricos, aunque es evidente que las aproximaciones mas par- tidarias de la introspeccion no suelen estar interesadas en hacerlo. Tampoco parece que pueda ser considerada сото una (sub)disciplina linguistica сото la morfologia, la sintaxis, la sociolingiiistica, etc.: la utilizacion de corpus se da en estudios gramaticales, historicos, sociolingiiisticos, lexicograficos у muchos otros campos especializados. Por ultimo, no es sencillo contemplarla сото una metodologia en el sentido mas estricto de la palabra. Leech (1992, 106) considera que la LC es “a new research enterprise, and in fact a new philosophical approach to the subject”, mientras que Gries (2009, 1) la ve сото “a method(ology), no more, but also not less”, aunque no cree que “this difference would result in many practical differences”. Mas recientemente, Leech (2011, 158) ha insistido en considerar que la LC “is not a methodology pure and simple, but is more like a methodology than a scientific domain” у en el hecho de que ha supuesto una autentica revolucion (instrumental, habrfa que anadir en el sentido de Dyson):

It is arguable that the electronic corpus and its associated toolkit have been revolutionizing linguistic science, by empowering us to do things with linguistic data no one could have dreamed of fifty years ago, opening up the potential for a new empiricism in linguistics.

(ibidem)

No es extrano que exista una cierta dispersion en estas consideraciones generales, favore- cida ademas por la gran cantidad de facetas que pueden observarse en la caracterizacion de una metodologfa.23 Un modo que, en mi opinion, da una idea clara у operativa del caracter de la LC es considerar que se trata de una aproximacion al estudio de los hechos lingiifsticos de orientacion empfrica у basada en el analisis detallado de gran cantidad de datos (los corpus), con lo que queda patente su oposicion tanto a la lingufstica racionalista сото a la descriptiva tradicional (cf. infra 2.3.3). Para situar la cuestion en un ambito general, vendra bien partir de la conocida distincion establecida por Fillmore (1992) entre los que el llama “lingiiistas de sillon” у los “lingiiistas de corpus”. En su presentacion, que el mismo califica de caricaturesca, el lingiiista de sillon se pasa las horas sentado en su despacho, cavilando acerca del conocimiento que tiene de su propia lengua, y, de vez en cuando, considera que ha descubierto un hecho lingiifstico de interes, que muestra la autentica naturaleza del len- guaje, toma algunas notas para un futuro trabajo у vuelve a su estado habitual de meditacion. En el otro extremo, el linguista de corpus tiene a su disposicion miles de millones de registros, que ordena у reordena continuamente tratando de encontrar la frecuencia con que se pre- senta cualquier hecho lingiifstico (por ejemplo, para reforzar la caricatura, la que tienen las diferentes clases de palabras en primera posicion de una oracion frente a la que presentan las que ocupan el segundo lugar). Dejando a un lado la exageracion derivada del enfoque, se trata de actitudes totalmente distintas acerca de los hechos lingiifsticos у lo que se supone que hay que hacer en la investigacion lingufstica. Estos dos tipos de lingiiistas no se cornu- nican (recuerdese que Fillmore escribe en 1992) y, por tanto, no hay modo de que los hallaz- gos de uno beneficien el trabajo del otro. Fillmore se considera a sf mismo un linguista de sillon que, sin renunciar a ese caracter, se ha beneficiado enormemente del trabajo con corpus у concluye:

I have two main observations to make. The first is that 1 don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that 1 want to explore; all that I have seen are inadequate. The second observation is that every corpus that I’ve had a chance to examine, however small, has taught me facts that 1 couldn’t imagine finding out about in any other way. My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.

(Fillmore 1992, 35)24

En efecto, la LC constituye una forma de acercamiento al estudio de los fenomenos у elementos lingiifsticos fundamentada en ciertos supuestos acerca de que aspectos del analisis son realmente relevantes. Tomando сото referencia las propuestas de Leech (1992), Biber, Conrad у Reppen (1998), Tognini-Bonelli (2001), Cries (2006, 2009), Guilquin у Gries

  • (2009), podemos considerar que la LC se caracteriza fundamentalmente por los rasgos siguientes:
  • • Ser empirica, centrarse en el analisis de los esquemas reales de uso en textos producidos de forma natural. Por tanto, la LC esta mas interesada en la actuacion que en la competencia у en la descripcion de lo que se encuentra en las lenguas que en los universales lingiifsticos.
  • • Utilizar corpus textuales amplios сото base del analisis. En la medida en que esos corpus esten bien construidos у sean representativos, lo que se encuentra en la muestra puede ser proyectado a la poblacion, es decir, a la lengua. El objetivo, por tanto, no es solo describir у explicar lo que se encuentra en el corpus, sino todo lo que se puede ver en la lengua о variedad linguistica de la que ha sido extraido.
  • • Los datos proceden de textos producidos de forma natural, lo cual permite poner en rela- cion los datos obtenidos con las variaciones debidas a los diferentes registros у tipos de texto, relacion que no resulta posible en los datos obtenidos mediante los disenos expert- mentales. Naturalmente, las variaciones pueden estar situadas en las lineas diacronica, diatopica у diastratica.
  • • Hacer un uso intenso de computadoras para llevar a cabo al menos una parte de ese anali- sis. Como hemos visto en el apartado 1.1, la utilizacion de recursos computacionales en la construccion у explotacion de los corpus es una necesidad derivada de su volumen, puesto que solo asi es posible analizar conjuntos de datos de un tamano que resultaria imposible sin esos recursos. Pero, al tiempo, nos situa en una dimension diferente. Con un ejemplo tornado de Guilquin у Gries (2009, 7-8), trabajar con diez mil casos de estructuras clau- sales proporciona datos que nunca podrian ser recogidos mediante introspeccion, con el fichado tradicional ni en el curso de un experimento.
  • • Emplear tecnicas analiticas de caracter cuantitativo у cualitativo. En esta linea es impor- tante senalar que los corpus textuales son el recurso mas comodo у adecuado para estudiar todo lo relacionado con la frecuencia de los fenomenos у elementos lingiiisticos. La inves- tigacion realizada en los ultimos anos ha puesto de manifiesto lo injustificado del desprecio hacia el papel de la frecuencia caracteristico de los primeros estadios de la linguistica de orientacion chomskyana. Al tiempo, los analisis estadisticos mas refinados (сото, por ejemplo, el analisis multifactorial) permiten superar la inevitable existencia de “ruido” en los datos.
  • • Realizar (o, al menos, pretender realizar) analisis sistematicos у exhaustivos de todos los casos pertinentes localizados en el corpus de aquello que se pretende estudiar. Es decir, el corpus no es tratado simplemente сото una especie de base de datos de la cual se extraen unos cuantos casos у se rechazan otros, sino que se toma en consideracion la totalidad del corpus.

Como puede observarse, a pesar de las diferencias entre las formulaciones que hemos exam- inado, la vision acerca de las caracteristicas de la LC es bastante compacta у congruente. El primer factor es el afan de trabajar con datos reales, con datos que reflejen los usos lingiiisticos que tienen о han tenido lugar en el interior de una comunidad. Es, pues, una perspectiva empirica, que funciona analizando “what people actually say and write” (Aarts 2002, 4), pero con la idea de elevarse hasta la comprension del sistema que los ha hecho posibles. El modo de lograrlo es, por supuesto, el examen de lo contenido en corpus constituidos por cientos о miles de millones de formas, lo cual obliga a trabajar con computadoras para la reunion de esos textos (es decir, la construccion de corpus), la extraccion de la informacion pertinente

(la recuperacion selective) y, finalmente, el procesamiento estadfstico de esas grandes masas de informacion. La LC es un nuevo caso en el cual el crecimiento cuantitativo de nuestros conocimientos sobre el comportamiento de las lenguas у los hablantes ha dado lugar a un importante crecimiento cualitativo.25 En otras palabras, la metodologfa utilizada en la LC responde perfectamente a las caracterfsticas del que a veces se ha llamado “el ciclo empfrico” (cf. Krug, Schliiter у Rosenbach 2013). En primer lugar, la objetividad, lo cual significa que los datos utilizados tienen que ser por completo independientes de las personas que realizan la investigacion у de las herramientas utilizadas en su obtencion. En segundo termino, la fiabilidad у replicabilidad, que garantizan que los datos obtenidos seran los mismos en extrac- ciones realizadas en momentos diferentes. Por ultimo, la relevancia de los datos utilizados para el fenomeno analizado.

La consideracion de la LC сото una orientacion empfrica, centrada en el analisis de los datos reales у objetivos contenidos en grandes corpus textuales, у la alusion al ernpleo de nuevas tecnologfas nos permite entender tambien la resistencia a aceptar la existencia de “linguistas de corpus” сото una clase especial de estudiosos de los fenomenos lingufsticos. Tal сото ha senalado Sampson (2011, 197),

[cjorpus linguists are just people who study language and languages in an empirical, scientific manner, using whatever sources of empirical data are available; at the present time it happens that, for many aspects of language, the most useful data sources are often electronic corpora. 1 work a lot with corpora, but I think of myself as a linguist, not a “corpus linguist”. If some aspect of language is better studied using other tools, I will use those.

 
<<   CONTENTS   >>

Related topics