Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Tamaño de los corpus, representatividad y equilibrio

En las definiciones de los corpus se menciona sistematicamente su caracter de muestras que deben ser representativas de una lengua о una determinada variedad lingufstica у estar equilibradas. Es una formulacion correcta, pero resulta necesario dedicarle una cierta aten- cion para concretar el modo en que estas caracterizaciones generates deben ser entendidas en LC.

El concepto de muestra representativa precede, сото es logico, de la estadfstica, funda- mentalmente de la aplicada a ciencias sociales. En este terreno, se entiende que para que una muestra pueda ser considerada representativa tiene que reflejar las caracterfsticas de la poblacion de la cual ha sido extraida en los parametros pertinentes. Con palabras de Leech (2011, 158), que refleja la formulacion previa de Manning у Schiitze, “a sample is representative if what we find for the sample also holds for the general population”. Con un ejemplo sencillo, si se trata de extraer una muestra para analizar las actitudes polfticas о las caracte- risticas economicas de una poblacion, hay que construirla de modo que reproduzca la distri- bucion por edades, sexo, tipo de residencia, estrato socioeconomico, etc. de la poblacion general. De no ser asi, se corre el riesgo de que los resultados esten sesgados у reflejen per- fectamente la forma de pensar de los ciudadanos que viven en las ciudades, por ejemplo, pero no de la poblacion en general. No importa, en cambio, si la muestra tiene la misma propor- cion de personas que midan 1,80 metros о tengan los ojos verdes que la que existe en la poblacion general, puesto que se supone que esos son rasgos que no tienen relacion con lo que se va a estudiar.60 Por tanto, el factor fundamental en la construccion de la muestra es la necesidad de que refleje la distribucion existente en el universo del cual ha sido extrafda en los rasgos que se consideran pertinentes para el rasgo que se pretende analizar.

Es facil ver que esta consideracion no puede ser traspasada sin mas a la construccion de un corpus. Es imposible que la muestra (el corpus) reproduzca la configuracion del universo que pretende representar (la lengua о la variedad para cuyo analisis se construye el corpus) por la sencilla razon de que ese dato nos resulta desconocido. Como veremos mas abajo, saber cual es el porcentaje que deberiamos reservar en el corpus para la lengua conversacional, los textos de prensa diaria, los ensayos, los noticiarios, las conferencias, ruedas de prensa, etc. resulta send- llamente imposible. La representatividad de un corpus no puede ser establecida en la medida en que este formado por bloques que reflejen el peso que diferentes tipos de actos de lengua suponen para un grupo determinado de los hablantes de esa lengua о variedad. En realidad, la imposibili- dad de transferencia de la concepcion de representatividad en la estadistica aplicada a ciertas ciencias sociales no se refiere exclusivamente a la LC у esta clara desde hace bastante tiempo. A1 analizar la aplicabilidad de la nocion a la sociolingiustica, Sankoff (1988, 900) afirmaba:

The elementary notion of representativity involving a completely random sample, chosen with uniform probability over the entire population, is not very useful in the socio- linguistic context. Speech communities tend to consist of many varieties spoken by groups containing very different numbers of individuals, so that uniform sampling leads to redundancy for some groups and risks missing other entirely.

A more useful notion of representativeness requires not that the sample be a miniature version of the population, but only that we have the possibility of making inferences about the population based on the sample. For this, the probability of selection of individuals need not be uniform, as long as it is known what these probabilities are.

Una formulacion bastante mas manejable del concepto puede establecerse en terminos de proporcionalidad. Esto es, cada bloque de (tipos de) textos de un corpus debe contener una cantidad que sea proporcional al peso que ese genero representa en la poblacion, obtenido de forma intuitiva. Por esta via se puede valorar la conveniencia de que un corpus contenga, por ejemplo, un 30 % de textos procedentes de prensa у un 10 % de textos ensayisticos. Sin embargo, tendremos siempre el problema de los porcentajes que deberfan suponer, por ejem- plo, las transcripciones de lengua conversacional, que tienen el mayor peso en el comporta- miento linguistic» de los hablantes y, por razones casi siempre relacionadas con las dificultades у costes que suponen, estan presentes en los corpus generales en una proporcion mucho menor. A todo ello anade Leech (2011) otra consideracion de interes: a la hora de valorar la importancia de un cierto tipo de texto, es necesario atender mas a las caracterfsticas de los receptores que a las correspondientes a los emisores:

The author of a message is normally an individual, whereas the number of receivers can vary from one individual to many million individuals (in the case of a popular newspaper or a TV broadcast).

(Leech 2011, 160)

La cuestion de la representatividad recibio mucha atencion tanto desde el punto de vista teorico сото en la practica en los primeros anos de la LC.61 La razon de ello esta muy clara a mi modo de ver. Los primeros corpus son, сото hemos visto, de tamano muy reducido: un millon de formas ortograficas es lo que tienen el Brown Corpus у su contrapartida europea, el Lancaster-Oslo/Bergen Corpus. Con corpus de un millon, cinco о diez millones de formas es necesario poner un cuidado exquisito en la seleccion de los textos que los integran, puesto que se puede producir con mucha facilidad una situacion en la que un texto, por ejemplo una novela que tenga cien mil palabras, suponga un peso excesivo у sesgue los resultados que presenta un determinado fenomeno о elemento. Evitar este peligro es, precisamente, la razon por la que los primeros corpus estan compuestos sistematicamente por muestras reducidas, casi siempre dos mil palabras. Con fragmentos de ese tamano se elimina el riesgo de que un texto determinado tenga un peso excesivo sobre los resultados obtenidos. Como es logico, a medida que la evolucion de las computadoras permite que los corpus pasen a tener cientos о miles de millones de formas en su interior, este peligro va desapareciendo: en un corpus de cien millones, un texto de cien mil palabras no entrana riesgo de sobrerrepresentacion, de modo que se puede pensar en introducir textos de cierta extension completos, lo cual pre- senta ventajas para el analisis de los fenomenos lingiiisticos.

Hay otro factor que resulta incluso mas importante que el anterior. En los primeros anos, la codificacion externa de los corpus (cf. 3.4) es bastante deficiente, tanto por las dificul- tades de la organizacion de la informacion сото por las posibilidades de la recuperacion de datos. En otras palabras, lo unico que se puede hacer en la mayor parte de las ocasiones es obtener la frecuencia general que un elemento о un fenomeno lingiiistico presentan en el corpus en su conjunto. Es evidente que con un planteamiento de ese tipo el corpus deberia ser estrictamente representative de la lengua о variedad lingiustica a la que se refiere, puesto que, de no ser asi, podri'amos estar proyectando sobre todos los tipos de texto los resultados procedentes de un conjunto en el que predominaran los textos periodisticos о los blogs. Si los textos que componen el corpus reciben la codificacion externa necesaria y, sobre todo, si las aplicaciones de consulta permiten la recuperacion selectiva de la infor- macion, el problema se reduce en gran medida. En realidad, hace ya bastante tiempo que los estudios que utilizan corpus han dejado de trabajar unicamente con la frecuencia general de los fenomenos. Lo que interesa habitualmente no es la frecuencia del fenomeno en la totalidad del corpus, sino la que presenta en los diferentes corpus virtuales que se pueden construir, de modo que sea posible contrastar lo que se observa en los textos procedentes de un pais con lo que se ve en los que tienen otra procedencia, lo que sucede en textos de un cierto genera con lo que se aprecia en otro u otros, etc. Tampoco se trata de comparar cuantas veces aparece un elemento en los textos de tipo A con las que podemos encontrar en los textos de tipo B: no es la frecuencia general, sino la frecuencia normalizada lo que nos interesa, puesto que es la que pone en relacion el numero de casos hallados en cada corpus virtual con su volumen. A1 hacer las estimaciones no en numero de casos en general, sino en numero de casos por millon de palabras, por ejemplo, esas dificultades desapa- recen у el problema del tamano de los diferentes bloques que componen un corpus se diluye (siempre que, сото veremos, se alcance en cada caso un tamano que garantice la fiabilidad de los resultados).

Uniendo los dos factores que hemos analizado en los parrafos anteriores, la construccion de un corpus del espanol actual, por ejemplo, no tiene que plantearse el problema de si el volumen de textos procedentes de Mexico debe ser superior al de textos procedentes de Espana en la proporcion en que el numero de hispanohablantes mexicanos supere al de hispanohablantes espanoles. Y tampoco tiene que mantener que esos dos bloques deben poseer el mismo tamano para poder hacer las comparaciones de resultados. El volumen de textos correspondientes a cada pat's (o a cada tipo, cada area tematica, etc.) sera el que resulte aconsejable segun otros parametros у la comparacion se hara siempre utilizando la via de la frecuencia normalizada, con la que las diferencias de tamano de cada uno de los bloques puestos en relacion no impiden la comparacion. La solucion de este problema esta, pues, en la posibilidad de recuperacion selective de informacion, que nos permite construir corpus virtuales de forma dinamica,62 у en el empleo de la frecuencia normalizada. Atkins у Rundell (2008, 69) aluden al problema de la alta frecuencia que muestra la forma mucosa en el BNC. A pesar de ser un termino tecnico, aparecen 1031 casos, mas о menos los mismos que presenta la mucho mas familiar unfortunate. La causa de ello es la inclusion en el BNC de un numero importante de palabras procedentes de una revista medica especial- izada en la que estos terminos son utilizados con mucha frecuencia. La extraneza inicial que puede producir el peso de mucosa en la totalidad del BNC se resuelve al detectar el tipo de texto del cual precede la mayor parte de sus apariciones у la utilizacion de la frecuencia normalizada de mucosa у unfortunate en diferentes tipos de texto mostrara con claridad lo que sucede.63

Asf pues, una buena parte de los problemas derivados de la representatividad presentes en los primeros anos de la LC se ha resuelto con el impresionante aumento del tamano de los corpus. No es necesario trabajar con muestras de dos mil palabras ni recurrir a seleccionar los textos mediante procedimientos aleatorios en listas de publicaciones. Esta evidencia (el aumento de tamano сото factor para superacion de las dificultades con la representatividad) podrfa llevarnos a pensar que la solucion definitiva de esos problemas podria venir de la utilizacion del contenido de la red, es decir, de la linea conocida сото Web as Corpus, examinada en el apartado 3.1.2. Como ya vimos entonces, el tamano de la red esta varios ordenes de magnitud por encima del que se puede alcanzar en corpus de referencia, pero eso no significa que en ellos se encuentre la solucion a nuestros problemas. En esta orientacion, las dificultades vienen de los tipos de texto que predominan en la red. En efecto, ese es un factor que ha senalado, entre muchos otros, Aston (2011, 4):

Corpus linguists are fond of saying that there is no data like more data—but it clearly needs to be the right data. Thus, while web-as-corpus initiatives have enabled cheap automatic construction of far larger corpora than those of the 1990s, it is doubtful that they satisfactorily represent contemporary English as a whole—merely the English of the web, where there are not many transcripts of casual conversation, and the most common use of the word ‘home’ is likely to be to refer to home pages.

Ciertamente, hay corpus en los que este problema no se plantea о lo hace de un modo muy diferente. Un corpus constituido por todas las obras de Cervantes es integramente representative de la obra de este autor, caracteristica que debe ser matizada sin embargo por todo lo derivado de la posible existencia de obras que no han llegado hasta nosotros у el problema de las ediciones que podamos utilizar. En los demas casos, la representatividad es un objetivo al que se puede tender, sin duda, pero que sabemos imposible de alcanzar, у manejable en terminos del mayor о menor grado en que se log re.64 La linea adecuada esta, por tanto, en la de perseguir el equilibrio en el corpus, lo cual significa que debe contener, en cantidad suficiente, textos pertenecientes a todos los generos que sean relevantes para aquello que se pretende analizar,65 con lo que tendremos la garantia de que los resultados que arroja la consulta de un corpus virtual determinado estan bien fundamentados у no se deben a factores puramente casuales.

 
<<   CONTENTS   >>

Related topics