Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Tipos de corpus: enfoque general

El diseno es, сото hemos visto, el rasgo que diferencia a los corpus textuales de cualesquiera otras agregaciones de textos. El diseno у los objetivos con los que se construye el corpus hacen que exija, admita о rechace ciertos (tipos de) documentos. En consecuencia, decir que un corpus esta formado por un conjunto de textos es correcto, pero no refleja adecuadamente toda la realidad, puesto que esos textos forman parte de un todo que se ha construido en funcion de unas determinadas caracteristicas, que son, por supuesto, las que correspon- den al diseno previo.

Un corpus, pues, se opone a un texto (aunque, en casos excepcionales, un corpus pueda estar constituido por un unico texto, сото hemos visto). El punto fundamental consiste en que los textos se estudian para conocer sus caracterfsticas especi'ficas, aquello que los indi- vidualiza. El corpus, en cambio, se investiga en tanto que es considerado una muestra repre- sentativa de, por ejemplo, una cierta variedad lingiifstica y, por tanto, lo que perseguimos no es tanto el analisis de lo que contiene el corpus сото el conocimiento del sistema lingufstico en el que han sido producidos los textos integrados en el. Como senala Tognini-Bonelli (2010, 18-20), los textos se leen lfnea a lfnea, mientras que los corpus son analizados habitualmente mediante el examen de las concordancias de un determinado elemento a traves de los textos que lo componen. El texto, concluye, “is an instance of parole while the patterns shown up by corpus evidence yield insights into langue".

El diseno es lo que diferencia a un corpus de un simple archivo, que, сото hemos visto, es una pura agregacion de textos reunidos en un repositorio unico sin mas proposito especf- fico que el de facilitar su consulta о descarga individual. Por otro lado, la generalizacion de Internet ha permitido en los liltimos anos rastrear la web mediante buscadores de uso general (con Google сото el mas utilizado) para recuperar у analizar casos de elementos у fenomenos lingiiisticos. Es la orientacion conocida en ingles сото Web as Corpus. Los textos que se encuentran en la web responden a multitud de propositos diferentes y, por supuesto, carecen del diseno que hemos considerado constitutive de los corpus. En consecuencia, el contenido, multiforme у continuamente cambiante, de la web no puede ser considerado un corpus en el sentido mas estricto (с/. Sinclair 2005a, 15). No obstante, es necesario profundizar algo mas en esta cuestion, сото haremos mas adelante en este mismo apartado.

Existe una gran variedad de tipos de corpus, сото resultado de los diferentes objetivos a los que responden y, en funcion de ellos, de los tipos de textos que los componen, su grado de codificacion, la presencia de una о mas lenguas, las caracterfsticas generales de los mate- riales integrados, etc. Dado que son muchos los parametros que intervienen, la tipologfa resultante no puede presentarse de forma jerarquizada, por lo que dedicaremos este apartado al analisis de los tipos generales у centraremos el siguiente en la presentacion de caracte- rizaciones mas especi'ficas.15

En primer lugar, un corpus puede ser total о muestral.16 Dado lo que sabemos acerca de las caracterfsticas de las lenguas у la actividad lingiifstica de los seres humanos, es evidente que “total” solo puede ser entendido en el sentido de comprender todo lo que pertenece a una esfera muy concreta. Por ejemplo, se puede construir un corpus que contenga toda la obra de un determinado autor о las que integran una cierta corriente literaria. Es relativa- mente sencillo organizar un corpus constituido por toda la obra de Cervantes que ha llegado hasta nosotros.1' De modo semejante, se puede pensar en formar un corpus con toda la produccion procedente de una determinada tendencia literaria (la comedia clasica, la pro- duccion juglaresca), los discursos pronunciados en el Parlamento durante una legislatura, etc. Evidentemente, la “totalidad” a la que se alude en la denominacion se refiere a un con- junto que ha sido previamente acotado y, por supuesto, depende de avatares historicos. Por ejemplo, el descubrimiento de un manuscrito de la segunda parte de La Galatea nos obligarfa a modificar el corpus de “todas” las obras de Cervantes. A un ambito distinto, pero con este mismo caracter total, pertenece el proyecto Biblia Medieval, en el que estan alineados los textos bfblicos en sus versiones de referenda latinas у hebreas con sus traducciones medievales al Castellano, tanto totales сото parciales.18 Estos corpus son, сото es facil suponer, de proposito restringido al rasgo que los individualiza, razon por la cual la inmensa mayorfa de los corpus que utilizamos son muestrales, esto es, son concebidos сото una muestra que suponemos representativa de una cierta lengua, variedad, uso, etc. (por ejemplo, del espanol contemporaneo, pero tambien del espanol de la prensa publicada en Ecuador en un deter- minado periodo, de las comedias del Siglo de Oro, de la novela realista, etc.). Aquf es donde encaja todo lo discutido en el apartado anterior acerca de diseno, representatividad у equilibrio.

Vinculado a la representatividad у el equilibrio, pero determinado tambien por factores сото la legislacion sobre derechos de autoria у distribucion existente en cada pais, о el sistema de explotacion previsto en cada proyecto, esta la diferencia entre corpus formados por textos completos у corpus formados por fragmentos de textos. Como ya hemos visto, los corpus de proposito general у volumen reducido producidos en los primeros anos de la LC estaban obligados a utilizar fragmentos de pequeno tamano para no comprometer gravemente su representatividad. Ese condicionamiento fue perdiendo importancia a medida que las mejoras en las computadoras hacian posible construir corpus de cientos о miles de millones de formas. Por otro lado, lo habitual es que la legislacion proteja los derechos de autoria у distribucion, de modo que no es licito poner textos completos en regimen abierto salvo, naturalmente, que se haga con la conformidad de los propietarios de esos derechos. Las aplicaciones de explotacion de la mayor parte de los corpus, sin embargo, permiten la recti- peracion de fragmentos de texto de pequeno tamano (en forma de concordancias) у no la descarga de los textos completos. Con ello se soluciona la contradiccion aparente, de modo que el corpus puede contener los textos integros, lo cual puede ser util e incluso imprescin- dible para ciertas investigaciones, pero permitir unicamente la descarga de fragmentos cortos, con lo que los derechos quedan adecuadamente protegidos.

Otro elemento crucial en el diseno de un corpus es, por supuesto, su tamano, tanto por lo que puede implicar para la fiabilidad de los datos que se pueden obtener de el сото para aspectos externos, pero tan importantes сото la planificacion del trabajo о los costes del proyecto correspondiente. La distincion clasica en este punto es la que se establece entre los corpus cerrados у los corpus abiertos.19 Un corpus cerrado es aquel que se planifica con un determinado tamano, у una cierta distribucion del volumen de palabras que corresponde a cada una de las categories у subcategorias que contiene en su interior. Por tanto, cuando se ha alcanzado el tamano prefijado, se considera que el corpus esta terminado у ya no se altera en su composicion (aunque, por supuesto, si cabe anadirle, por ejemplo, un tipo de anotacion que no existe en la primera version, etc.). Los ejemplos tipicos de corpus cerrados son el Brown Corpus, constituido por un millon de formas, y, sobre todo, el British National Corpus (BNC), con cien millones de formas. Un corpus abierto, en cambio, es aquel que no parte con un tamano ya establecido, sino que va creciendo a medida que lo hace posible la dis- ponibilidad de textos у lo permiten las aplicaciones de explotacion. Un buen ejemplo de corpus abierto es el Collins Corpus, que contiene (en enero de 2020) unos 4500 millones de formas у en el que “[n]ew data is fed into the Corpus every month”.20

Como es de esperar, cada tipo presenta ventajas e inconvenientes. Los corpus cerrados son mas facilmente programables у ejecutables, puesto que tienen un tamano finito (aunque pueda ser muy elevado). Su estabilidad es otro elemento importante, dado que garantiza que los resultados obtenidos en un momento determinado van a aparecer de nuevo si se hace la misma consulta, lo cual es un factor de peso para la reproducibilidad de los resultados. En el platillo contrario, el cese de la entrada de datos hace que estos corpus envejezcan y, a medida que transcurren los anos desde el momento en que se cerraron, dejan de ser de utili- dad para todo lo que este relacionado con las ultimas tendencias observadas en la lengua о variedad reflejadas en ellos. En cambio, los corpus abiertos suponen un coste continuado у devuelven resultados cambiantes en funcion del contenido que tienen en cada momento, pero pneden, сото el Collins Corpus, mantenerse actualizados en la medida en que incor- poran continuamente textos nuevos.

La distincion entre corpus abiertos у cerrados es, sin duda, importante, pero es evidente que tenia mas sentido en una fase previa a la actual, en la que los recursos computacionales — memoria у velocidad de proceso sobre todo— eran diferentes a las de hoy en dfa. De hecho, el propio Sinclair defendio la creacion de lo que el llamo un monitor corpus, destinado a permitir el estudio de las innovaciones que se iban introduciendo en el ingles. El corpus monitor de Sinclair era, en realidad, una aplicacion que procesaba grandes cantidades de datos, obtenia de ellos la informacion que se consideraba de interes (por ejemplo, palabras no registradas con anterioridad) у guardaba esos resultados, pero no los textos de los que habfan sido extrafdos. Esto es, era un corpus destinado a monitorizar la evolucion de una lengua у de ahi el nombre adoptado.21

La evolucion de las computadoras, con el bien conocido incremento de potencia de cal- culo у capacidad de memoria, asf сото el enorme progreso en las tecnicas de anotacion у en las aplicaciones de consulta, han hecho que la distincion haya perdido el caracter fundamental que tenia en los primeros tiempos. En este momento, son mayorfa los corpus que tienen en su diseno las indicaciones necesarias acerca del caracter de los textos que van a contener, pero dejan abierta la cuestion del volumen, siguiendo el viejo principio de que un corpus deberia tener el mayor tamano posible. Un diseno interesante, que combina las caracterfsti- cas de los abiertos у los cerrados, es el que posee, entre otros, el CORPES. Tiene un diseno cerrado en tanto que contiene veinticinco millones de formas por ano —con una distribu- cion interna fija por pat'ses, soportes, tipos, etc.— pero entra en la clase de los abiertos en tanto que pretende ir integrando textos de todos los anos que vayan transcurriendo a partir de 2001. Por tanto, cuando termine la fase actual, en 2022, contendra quinientos millones de formas, que es el total de veinticinco millones por ano para el peri'odo transcurrido entre 2001 у 2020. Y esa es la lfnea que seguira en el futuro. Por tanto, el CORPES estabiliza у fija los textos pertenecientes a cada uno de los anos, lo cual lo aproxima a los cerrados, pero sigue incorporando textos correspondientes a los anos que van transcurriendo, con lo que pertenece mas bien a los corpus abiertos.

Segtin el caracter de los textos con respecto a lo que suele denominarse medio, los corpus pueden contener documentos escritos (previamente impresos о no) у transcripciones de intervenciones orales. Lo mas habitual es que los corpus de proposito general contengan textos de ambas clases. Las especiales dificultades у enormes costes asociados a la transcrip- cion de textos orales hace que, en estos corpus, el objetivo sea en muchos casos alcanzar un 10 % de textos orales, siguiendo en este punto la linea establecida por el BNC.22

Es necesario tener en cuenta algunos factores especiales relacionados con el caracter oral (unico о parcial) de los corpus. Algunos corpus orales son construidos con el proposito de contribuir al mejor conocimiento del componente fonico de una lengua о variedad, о bien a aplicaciones que lo implican directamente, сото son las relacionadas con el analisis (para reconocimiento) о sfntesis (para la produccion) de voz. Son los conocidos, en ingles, сото speech corpora, en los que, de acuerdo con la tipologia propuesta por Torruella у Llisterri (1999), cabe considerar la existencia de dos subtipos. En primer lugar se encuentran los orientados a facilitar la descripcion fonetica de lenguas о variedades. Consisten mayorita- riamente en “materiales grabados en condiciones acusticas optimas que permitan su posterior analisis experimental en el laboratorio” (Torruella у Llisterri 1999, 57) у pueden contener “desde combinaciones de segmentos hasta fragmentos de habla espontanea, pasando por frases aisladas о por textos leidos” (ibidem). El segundo subtipo de speech corpora corresponde a los construidos con el fin de desarrollar sistemas de sintesis у reconocimiento de voz. En este caso, se necesitan grabaciones de segmentos de habla, pero tambien, сото es logico, materiales procedentes de actos lingiiisticos reales, especialmente dialogos.

Frente a los anteriores se encuentran los spoken corpora, que estan formados por transcrip- clones, mas о menos proximas al sistema ortografico convencional, de actos lingiiisticos сото conversaciones, narraciones, entrevistas, tertulias, conferencias, etc. Conviene en este punto tener en cuenta lo ya indicado en el apartado 1.3 acerca de la conveniencia de no reducir el caracter de texto oral exclusivamente al producido en situaciones en las que se tiende a utilizar la variedad coloquial: los registros informales de las lenguas. En el (sub) componente oral de un corpus puede haber muestras de discursos parlamentarios, conferen- cias, clases universitarias, sermones, noticiarios radiofonicos о televisivos, etc. en los que se emplea habitualmente el registro formal. En el mismo corpus pueden figurar tambien trans- cripciones de textos correspondientes al registro coloquial de la lengua analizada.

La construccion de corpus orales puede responder a objetivos especificos muy diferentes, lo cual condiciona su configuracion. En algunos casos, los materiales orales son los iinicos que nos permiten trabajar con el habla de segmentos especificos de la comunidad lingiiistica, сото pueden ser los adolescentes, los estudiantes universitarios о la poblacion rural. En otros, la finalidad fundamental es la reunion de textos que permitan conocer mejor la varia- bilidad diatopica, diastratica о diafasica. Aqui es donde se situan todos los corpus de orien- tacion dialectologica о sociolingiiistica. En tercer lugar, un grupo de corpus orales esta dirigido a posibilitar el analisis de la lengua oral (frente a la escrita), los mecanismos con- versacionales, el analisis del discurso (oral), etc. En muchos de los aspectos mencionados, los textos orales son el unico modo en que se pueden documentar у analizar los datos rele- vantes. Tengase en cuenta tambien que los corpus generates contienen habitualmente un cierto porcentaje de textos orales (сото sucede en el CdEhist, el CREA, el CORPES у muchos otros). Hacer posible la explotacion amplia de las caracterfsticas vinculadas a la oralidad suele tener consecuencias de importancia en la codificacion de los textos, сото se vera en el apartado 3.4-

Tanto la codificacion сото el procesamiento linguistic» de los textos orales exige que el audio sea transcrito, lo cual crea un buen numero de problemas. Como es bien sabido, los sistemas ortograficos convencionales no representan de modo fiel lo que sucede en la secuen- cia fonica, de modo que no son adecuados para codificar muchos de los aspectos que pueden ser relevantes en una investigacion sobre la lengua hablada. Esa es la razon por la que las transcripciones de textos orales disenadas para ser publicadas de forma impresa anaden a la representacion ortografica о semiortografica marcas que pretenden representar graficamente aspectos сото la entonacion, los solapamientos, los alargamientos, etc. Ademas, se pueden introducir marcas de tiernpo que permiten localizar con cierta comodidad el segmento de la grabacion en que se halla el fenomeno que interesa. La generalizacion del formato elec- tronico para las transcripciones implica la sustitucion del sistema de marcas pensadas para su interpretacion visual por otro basado en una codificacion adecuada a su manejo mediante procedimientos informations, сото XML (cf. infra 3.4). Se representan las pausas, los alarga- mientos, las palabras truncadas, las vacilaciones, los solapamientos y, en general, todo aquello que puede resultar de interes en funcion de los objetivos con los que se construye el corpus у que, naturalmente, son diferentes en uno orientado al estudio sociolingiiistico сото PRE- SEEA (cf. Moreno Fernandez 2006) о el Corpus Sociolingiiistico de la Ciudad de Mexico (cf. Martin Butragueno у Lastra 2011,2012), al estudio sociolingiiistico у analisis del discurso сото ESLORA (cf. Vazquez Rozas et al. en prensa), uno dirigido al estudio del espanol rural сото COSER (с/. Femandez-Ordonez 2010, De Benito et al. 2016) у en uno construido para su empleo en la ensenanza del espanol сото L2, que es lo que persigue el Corpus Oral Didac- tico Anotado Lingiifsticamente (C-Or-Dial) (с/. Nicolas Martinez 2012). En los ultimos anos se ha impuesto la alineacion de la transcripcion con el audio, que trabaja poniendo en rela- cion fragmentos cortos. El sistema habitual de trabajo, en estos casos, consiste en la loca- lizacion del fenomeno que interesa utilizando para ello la transcripcion ortografica y, cuando es preciso, recuperar el fragmento de texto correspondiente. Este sistema, que proporciona todos los datos necesarios, supone que la transcripcion se libera de una buena parte de la carga que implica intentar reflejar los fenomenos fonicos: estan en la grabacion у pueden ser recuperados de forma selectiva.

En el caso de entrevistas о conversaciones, la alineacion de texto transcrito у sonido proporciona lo necesario para hacer, por ejemplo, estudios de tipo fonico: se localiza lo que interesa mediante una busqueda textual у luego se recupera el sonido correspondiente a ese fragmento, con la posibilidad de procesarlo mediante los instrumentos adecuados si es nece- sario. Ademas, para el estudio completo de los mecanismos que actiian en, por ejemplo, una conversacion, parece claro que se necesita tambien poder observer las miradas, la expresion facial, los gestos de quienes intervienen. Los llamados corpus multimodales reiinen, en estratos diferentes pero debidamente alineados, todos esos componentes que, ademas, estan codificados у etiquetados, de modo que se puede recuperar la informacion correspondiente a, por ejemplo, una sonrisa, un cierto movimiento de las manos, etc. Los corpus multimodales constituyen, sin duda, una de las zonas de desarrollo futuro de los corpus, сото se senala en el apartado 6.5.

Segiin la finalidad con que hayan sido construidos, los corpus pueden ser de proposito general о especializados. Los primeros son aquellos que han sido disenados con la intencion de ofrecer un recurso en el que puedan ser analizados fenomenos у elementos lingiiisticos que se dan en una determinada lengua о variedad. Como es logico, esos corpus deben cuidar el equilibrio entre los diversos componentes que los integran (paises, medio, tipo de texto, etc.), de modo que permitan tanto la obtencion de las caracteristicas generales que presenta un determinado fenomeno сото el analisis de las diferencias que se dan entre los diferentes subcorpus que lo componen, сото hemos visto en el capitulo 1. Los corpus generales son llamados tambien corpus de referencia, que es el termino que usaremos aqui.23

Frente a los corpus generales о de referencia estan los corpus especializados. Son, natural' mente, aquellos que se construyen mediante la seleccion de textos que poseen una caracte- ristica comun determinada, que puede pertenecer a ambitos muy variados. Efectivamente, son corpus especializados en sentido amplio los que reunen muestras de habla juvenil, las obras de un cierto autor о tendencia literaria, de habla rural, etc. Tambien lo son los que contienen materiales de un tipo determinado, сото pueden ser los textos biblicos о docu- mentos notariales de una epoca determinada. No obstante, la presentacion habitual de los corpus especializados se hace con caracteristicas mas especificas. Asi, por ejemplo, los corpus tecnicos se basan en la reunion de textos pertenecientes a una determinada disciplina cienti- flea (biologia, legislacion, economia, quimica, etc.) para permitir el analisis de las peculiars dades (fundamentalmente, pero no de forma exclusive, lexicas) que presentan frente a la lengua general. La confeccion de terminologias tecnicas (especializadas) es una de sus apli- caciones mas habituales.

Tambien son especializados los corpus de aprendices о de aprendientes, que recogen muestras orales о escritas de estudiantes de una lengua extranjera con diferentes grados de dominio de esta. El analisis de esas producciones permite analizar las caracteristicas de la interlengua que se produce a lo largo del proceso de aprendizaje, detectar los errores mas frecuentes en los estudiantes en general о bien con una determinada lengua de procedencia (la LI), etc.24 A un ambito muy diferente pertenecen los corpus de entrenamiento. En reali- dad, son subconjuntos de corpus mas amplios que se preparan, codifican, anotan morfosin- tacticamente у se revisan у corrigen de forma manual para que proporcionen informacion estadfstica fiable que pueda ser generalizada luego у utilizada en procedimientos automaticos.

Los textos que componen un corpus pueden pertenecer linicamente a una lengua (corpus monolingiies) о bien a mas de una lengua (corpus multilingiies).b En el segundo caso, resulta de gran interes la diferencia entre los corpus paralelos у los corpus comparables. Los corpus paralelos son aquellos que contienen “el mismo texto” en dos о mas lenguas, es decir, estan formados por traducciones (por ejemplo, de informes redactados en frances al aleman, al ingles у al espanol). En la mayor parte de los casos —у es lo que les confiere un valor especial— los corpus paralelos tienen sus materiales alineados, lo cual significa que cada parrafo о cada oracion de los textos en cada una de las lenguas esta vinculado al parrafo u oracion que contiene su equivalente en la(s) otra(s) lengua(s). Evidentemente, estos corpus son de gran utilidad en todos los procesos implicados en la traduccion automatica, pero tambien para los estudios de linguistica contrastiva. Los corpus comparables, por el contrario, estan formados por textos pertenecientes a diferentes lenguas, pero sin que sean traducciones unos de los otros. Lo que sf se pide en estos corpus, у de ahi el nombre con que se conocen, es que los textos que los forrnan sean del mismo tipo, es decir, informes tecnicos, artfculos cientfficos, cartas personales, etc., puesto que se necesita la seguridad de que las diferencias en los procedimientos linginsticos que se puedan observar se deben a las que existen entre las lenguas у no, por ejemplo, a que se comparen cartas particulares escritas en aleman con informes cienti'ficos redactados en espanol.

Entre los objetivos generales establecidos para la construccion de un corpus puede figurar el centrarse en las caracterfsticas generales de una lengua en un momento determinado о bien la de tratar de poner de manifiesto la variacion existente en alguno de los ejes. La dis- tincion mas destacada, сото es de esperar, es la que se da entre los corpus de orientacion sincronica у los de orientacion diacronica, que presenta todas las caracteristicas derivadas de la propia dicotomfa saussureana. Por apuntar solo a lo mas evidente, parece claro que el CdEhist, el CDH о el CORDE, que contienen textos desde los ori'genes de la lengua hasta mediados о finales del siglo xx, son corpus diacronicos. ;Lo es tambien el CREA, formado por textos publicados о producidos entre 1975 у 2004? La cuestion es equivalente a pregun- tarse si un periodo de treinta anos en la epoca contemporanea es suficiente para poder pensar en el analisis de los cambios lingihsticos que puede contener el CREA en su interior. Una formulacion prudente puede pasar por referirse a corpus de orientacion sincronica о diacronica, pero teniendo siempre presente la indeterminacion que traen consigo estas nociones. La LC ha tenido una fuerte influencia en el progreso que los estudios diacronicos han experimentado en los ultimos anos.

Mutatis mutandis, algo parecido se puede decir con respecto a los ejes diatopico у diastratico. Son muchos los corpus que tienen un diseno destinado precisamente a permitir el estudio de las diferencias que presentan las lenguas en los diferentes lugares en que se hablan о en los distintos estratos socioculturales existentes en una misma ciudad. Lo mismo que en el caso anterior, los corpus de referencia tambien suelen contener textos adscribibles a diferentes lugares у estratos, con lo que pueden ser utilizados para este tipo de estudios si la codificacion у la aplicacion de consulta lo permiten.26

Finalmente, atendiendo a la informacion anadida a los textos, los corpus pueden estar codificados у analizados en diferentes grados у niveles. En terminos generales, los corpus mas utilizados en la actualidad anaden la informacion extratextual (pais, ano, tipo, etc.) congruente con su organizacion, у el analisis de las formas graficas en sus elementos lexicos у gramaticales correspondientes, con la indicacion del lerna al que pertenecen у los valores que poseen las categorias у subcategorias gramaticales que les son de aplicacion (esto es, lo que se llama habitualmente, anotacion morfosintactica). Algunos corpus anaden el analisis sintactico de las oraciones, aunque resulta mucho mas habitual la presentacion de esta informacion en forma de tree-banks.21 Por otro lado, el desarrollo de las tecnicas espe- ciales necesarias para trabajar con textos orales ha permitido la aparicion de corpus en los que se conectan el sonido (y, si es conveniente, tambien el video) con la transcripcion ortografica, la fonetica (o fonologica), la anotacion morfosintactica, la anotacion semaiv tica, etc.

En relacion sobre todo con los corpus de orientacion diacronica, se ha explorado la utili- dad de construir corpus constituidos por las fichas utilizadas en proyectos сото el Oxford English Dictionary (OED) (c/., por ejemplo, Rohdenburg 2013; Mair 2004; Hoffmann 2004). Se trata, sin duda, de una posibilidad interesante para el estudio de la evolucion de lenguas en las que los corpus diacronicos disponibles no son de gran tamano. Dado que estos ficheros, que pueden contener millones de referencias textuales, proceden de proyectos lexicograficos anteriores a la difusion de las computadoras, presentan todos los problemas descritos en el apartado 2.3.3 acerca de los riesgos que supone la seleccion de ejemplos, que tiende a fijarse en lo mas llamativo у concede mayor importancia a los “buenos autores” (с/. Rojo en prensa). Anadase a ello que, dado que se trabaja con las citas publicadas en los diccionarios, a la seleccion de los ejemplos que se incorporan a los ficheros de trabajo se suma luego la criba que se realiza al decidir cuales de los registrados se incorporan a la publicacion. Sin duda, una parte de los problemas senalados pierde peso en tanto que los ejemplos no son tratados ya сото ilustraciones de la palabra concreta para la que fueron extraidos, sino que se vuelcan todas las citas у se tratan, en conjunto, сото un corpus. Un corpus que puede ser de un tamano respetable, puesto que, segun Mair (2004), la primera edicion del OED contiene 2 428 253 citas en total.

Trasladar lo que se ha hecho con el OED al ambito hispanico podria consistir, por ejemplo, en construir un corpus formado por las algo mas de setenta mil citas contenidas en el llamado Diccionario de autoridades (DAut) (cf. Rojo 2014b)28 о las mucho mas numerosas incluidas en el Diccionario de construccion у regimen de la lengua castellana (DCRLC) de Rufino Jose Cuervo.29 En cualquiera de los dos casos, son evidentes los problemas derivados del caracter de las ediciones utilizadas y, en el caso de la obra de Cuervo, el amplisimo periodo de recogida de ejemplos у redaccion de las entradas.30

 
<<   CONTENTS   >>

Related topics