Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Capítulo 6 Otras cuestiones centrales en lingüística de corpus

Resumen

En los tres capitulos anteriores hemos revisado las caracteristicas basicas del diseno, cons- truccion у explotacion de corpus у hemos trabajado con numerosos ejemplos ilustrativos de сото obtener la informacion pertinente en un gran numero de fenomenos lexicos у gramaticales. Este capi'tulo esta dedicado a revisar algunas de las cuestiones generales ya mencionadas en ellos, pero necesitadas de un tratamiento mas complete para la compren- sion adecuada de la lingiifstica de corpus.

Antecedentes y evolución de la LC

Antecedentes

Dada la evidente dependencia de la lingiifstica de corpus (LC) con respecto a las com- putadoras у la computacion, es facil suponer que su historia debe de ser bastante corta, puesto que no puede ir mas atras de mediados del siglo xx, epoca en la que aparecen las primeras maquinas que cabe considerar computadoras con los criterios que manejamos actualmente. Resulta comprensible, por tanto, que el tema no haya suscitado demasiado interes, pero lo cierto es que se trata de una cuestion atractiva у compleja, que no ha sido suficientemente bien tratada por varios factores diferentes, entre los que cabe destacar los siguientes:

  • • Cierta indeterminacion acerca de que es lo que se puede considerar un corpus, tanto en lingiifstica сото en otras disciplines. Como se ha visto en el apartado 3.1, no todo lo que ha llevado tradicionalmente el nombre de corpus podrfa recibir hoy esa consideracion (al menos, visto desde la lingiifstica) y, en sentido contrario, es posible aplicar ese nombre a algunos conjuntos que no tenfan esa denominacion.
  • • Confusion entre la existencia (o construccion) de un corpus, la elaboracion de concor- dancias у la existencia de una orientacion que se pueda considerar lingiifstica de corpus en sentido medianamente estricto.
  • • Desde ciertas perspectivas, identificacion de la idea de corpus manejada por los distri- bucionalistas estadounidenses de la primera parte del siglo XX у los corpus concebidos у producidos a partir de 1960.
  • • Reduccion de la historia de los primeros anos de la LC a lo ocurrido en Estados Unidos у marginacion de todos los desarrollos realizados fuera de la tradicion anglosajona.

En el analisis de este tema, es obligado tomar сото punto de partida un artfculo de Nelson Francis, uno de los dos responsables principales de la construccion del primer corpus textual concebido para ser introducido en una computadora, el Brown Corpus. En un momento en que la LC habfa experimentado todavia un desarrollo rnuy reducido, Francis (1992) se plantea la conveniencia de estudiar los antecedentes de los corpus en la epoca previa a la aparicion de las computadoras у su aplicacion a estudios lingiii'sticos.1 Por desgracia, limita este objetivo a corpus disenados para su utilizacion en analisis lingiii'sticos del ingles, lo cual restringe fuertemente su posible valor сото panorama de conjunto. Por otro lado, tampoco en ese objetivo espectfico cabe considerar adecuada la vision de Francis. En su opinion, las tres lineas que se pueden presentar сото antecedentes de los corpus lingiit'sticos son, en primer lugar, las colecciones de datos (fichas, papeletas) construidas en el curso de los trabajos lexicograficos tradicionales, сото el Oxford English Dictionary (OED), por ejemplo, сото base para la redaccion de las entradas. En segundo termino, menciona las agrupacio- nes de datos producidas en el rnarco de ciertos estudios dialectologicos (сото los de Ellis, en los Estados Unidos) que desembocan en los atlas lingiii'sticos. Cita ademas la reunion de materiales para ejemplificacion en proyectos de caracter gramatical, сото los de Jespersen, Kruisinga о Poutsma y, finalmente, el Survey of English Usage (SEU), dirigido por Randolph Quirk, ya en la decada de los sesenta del siglo pasado. Sorprendentemente, algo no muy distinto, con la simple adicion de los materiales aportados por Fries, figura en la revision historica que hace, anos mas tarde, Svartvik (2007), en la que se dedica atencion especial al SEU, proyecto en el que participaba el mismo.

Naturalmente, hay que aceptar las limitaciones que Francis (y Svartvik) imponen a su trabajo de revision, aunque es evidente que eso restringe fuertemente la utilidad del panorama que dibujan. Reducir su ambito a los corpus construidos con intencion de facilitar los analisis lingiii'sticos permite justificar la ausencia de toda la tradicion de corpus constituidos por textos juridicos, textos biblicos о las obras de autores de especial significacion en una cierta tradicion literaria у cultural. El coste mas evidente de esta exclusion procede del hecho de que es precisamente esta lfnea la que crea las concordancias, una de las herramientas mas caracteristicas de la LC y, mas en general, del trabajo con corpus. Por otro lado, no es evidente que de la reunion de papeletas que incluyen textos considerados especialmente impor- tantes para la clasificacion del significado de una palabra о un uso gramatical pueda resultar un corpus en sentido medianamente estricto.2 Mucho mas clara resulta la inconveniencia de asimilar el conjunto de datos contenidos en un atlas lingiii'stico a un corpus textual.3 Por fin, sorprende la falta de referencia a los trabajos destinados a la elaboracion de listas о diccio- narios de frecuencias, habitualmente enfocados hacia la ensenanza del ingles сото lengua extranjera.4

El panorama disenado por Francis se fue completando у mejorando en los anos posteriores, no en estudios monograficos, sino en textos de introduccion a la LC, obligados a rastrear antecedentes. Asi, McEnery у Wilson (1996) se refieren a la recogida de datos para la elaboracion de listas de frecuencias lexicas у mencionan, сото antecedente curioso de corpus lingiii'stico, los once millones de palabras procesadas por Kading (1897-1898), a finales del siglo xix, para obtener la frecuencia de distribucion de combinaciones de letras en aleman.5 Kennedy (1998) considera la existencia de cinco grandes lfneas: estudios biblicos у literarios, lexicograft'a, estudios dialectales, estudios relacionados con el aprendizaje у ensenanza de lenguas y, finalmente, estudios gramaticales. Por su parte, Meyer (2009) se refiere a las concordancias biblicas, gramaticas, diccionarios у el SEU. McCarthy у O’Keefe (2010) dedican mucha atencion a las concordancias у mencionan luego la papeletizacion habitual en la lexi- cografia tradicional у los corpus empleados por los distribucionalistas estadounidenses.

Como ha podido observarse en los parrafos anteriores, hay cierta confusion con respecto a que podemos considerar un corpus antes de la generalizacion de las computadoras о un antecedente real de la LC. Introducir algo de claridad en este terreno requiere tomar cierta distancia, incluir entre los candidatos a corpus no solo los construidos con propositos de analisis lingiifstico y, por supuesto, considerar tradiciones distintas de la anglosajona. En Rojo (2015) se propone la existencia de tres grandes lfneas de trabajo en las que se pueden rastrear los antecedentes de los corpus tal сото los entendemos en la actualidad у de la LC.

La primera de ellas es, sin duda, la que consiste en la elaboracion de concordancias de textos que, сото los bi'blicos, son especialmente importantes en una determinada sociedad. En principio, las concordancias son simplemente indicaciones acerca de los lugares en los que se habla de un asunto determinado en los textos de referenda. Es decir, lugares de esos textos que concuerdan en ciertos temas6 y, por tanto, sirven de ayuda para quienes necesitan localizar las referencias adecuadas (para, por ejemplo, incluir en un sermon). Las primeras concordantiae rerum pueden remontarse hasta, por lo menos, la primera mitad del siglo xiii, con las elaboradas por el franciscano Antonio de Padua [1191/1195-1231].' No muy poste- riores son las primeras concordancias verbales (no ya tematicas), preparadas por el dominico Hugo de San Caro [c. 1200-1264] con la ayuda de unos quinientos monjes. En realidad, estas Concordantiae breves son mas bien lo que hoy llamamos indices, puesto que se limitan a dar la situacion aproximada de los elementos correspondientes.8 Otros tres dominicos prepararon a mediados de ese mismo siglo las Concordantiae majores о Concordantiae anglicanae, que ya incluyen el fragmento del texto en que aparece la palabra en cuestion (с/. Hanon 1990; Meyer 2009). Como se puede apreciar, en un peri'odo inferior a cincuenta anos se crea, remodela у consolida un recurso que, con muy ligeras modificaciones, es el mismo que se utiliza en la actualidad. La elaboracion de concordancias se extiende a textos que desempe- nan un papel semejante a los bi'blicos en otras tradiciones religiosas (сото el Coran) у tambien, сото es logico, a versiones de la Biblia en otras lenguas (el hebreo, el griego, el ingles, el frances, etc.). En los textos de LC se alude con mucha frecuencia a las concordan- cias elaboradas por Alexander Cruden [1699-1770] sobre el texto de la Biblia del rey Jacobo (King James Bible, publicada en 1611). Tras dos anos de intenso trabajo (dieciocho horas diarias durante siete dias a la semana), Cruden consiguio publicar, en 1737, A Complete Concordance to the Holy Scriptures, en las que destaca el hecho de que muchas entradas corresponden no a elementos lexicos simples, sino tambien a las que hoy consideramos coapariciones, сото dry ground, his annointed, Lord annointed о mine annointed (cf. Kennedy 1998, 14; Meyer 2009).

El paso siguiente consiste en ampliar el ambito de los textos que se consideran de impor- tancia tal que merecen la elaboracion de concordancias. Las primeras concordancias de autor son las publicadas anonimamente en 1787 sobre las obras de Shakespeare (cf. Karpova 2003) у de ahf se va extendiendo a otros autores у a otras tradiciones literarias. Las concordancias se convierten en un procedimiento especialmente importante en las llamadas “lenguas de corpus” (cf. 3.1.1). Los procedimientos tradicionales entroncan finalmente con el trabajo que, ya con la utilizacion de computadoras, hizo Roberto Busa a mediados del siglo xx con los textos de Tomas de Aquino9 у de ahf a la enorme cantidad de concordancias de autores у obras que se elaboran en la decada de los anos cincuenta у siguientes del siglo pasado.10 Para decirlo rapidamente, la tecnica у los objetivos son los mismos, pero la gran diferencia esta en el volumen de texto, la velocidad у la comodidad que se pueden conseguir cuando se dispone de computadoras. Es claro que las concordancias presuponen un texto (o un con- junto de textos) que cabrfa considerar сото un corpus en un sentido relativamente amplio del concepto. Parece excesiva, sin embargo, la consideracion de Aston (2011, 9), que alude a Hugo de San Caro у senala que “[i]t thus seems right to see him as the first corpus linguist”.

Puede considerarse que los textos btblicos (o la obra de Shakespeare, Virgilio о Cervantes) constituyen nn corpus, pero las concordancias tradicionales (tambien las realizadas mediante computadora) son solo una herramienta que permite la localizacion de los pasajes en los que se encuentra una determinada expresion. La LC, que utiliza regularmente esta misma her- ramienta, persigue unos objetivos distintos, centrados en el analisis de fenomenos у elemen- tos lingih'sticos.

La segunda line a es la constituida por la tradicion lexicografica mas proxima a los modos de trabajo actuales. Se practica la lectura sistematica de un conjunto de textos seleccionados en funcion de sus caracterfsticas e importancia, у se extraen de ellos los fragmentos que se consideran mas representativos del significado у el uso de las palabras. Las referencias habitua- les a esta orientacion aluden sistematicamente a los diccionarios de Samuel Johnson (1755), Webster (1828) о el OED (cuya primera edicion aparecio entre 1884 у 1928), pero hay muchas otras obras que pueden ser inscritas en esta li'nea. La mas importante de todas ellas es, sin duda, el llamado Diccionario de Autoridades, publicado por la Real Academia Espanola entre 1726 у 1739, inspirado en los editados anteriormente por las academias italiana у francesa, pero muy superior a ellos. La denominacion usada habitualmente para este die- cionario alude precisamente a la caracteristica de ilustrar con ejemplos reales, tornados de textos, cada uno de los significados atribuidos a las palabras incluidas en el repertorio. Puede aceptarse que las obras de las que se extraen los ejemplos constituyen un corpus en el sentido mas actual de la palabra, pero las concepciones comienzan a divergir cuando se tiene en cuenta que el material de trabajo para la confeccion de los artfculos esta constituido unica- rnente por las citas seleccionadas en funcion de criterios que pueden ser muy cambiantes. Dicho con otras palabras, la lexicograffa tradicional impone ciertos filtros tanto sobre la determinacion de los textos сото sobre la seleccion de los ejemplos, у ese modo de actuar la aleja de los procedimientos habituates en la LC. (cf. supra, 2.3.3). Algo parecido puede decirse de las recolecciones de ejemplos realizadas por autores сото Jespersen para la confec- cion de tratados gramaticales. Especialmente importante, у no solo en la lingufstica espanola, es el enorme conjunto de citas ejemplificadoras de fenomenos lingiiisticos de los mas diversos tipos acumulado durante muchos anos por Salvador Fernandez Ramirez, editado digitalmente en el Archive gramatical de la lengua espanola (AGLE).

La tercera linea se relaciona con la elaboracion de listas de frecuencias, principalmente de elementos lexicos, pero preparadas tambien para fenomenos о construcciones gramatica- les. En esta orientacion, lo habitual es analizar de modo exhaustivo las obras (o fragmentos de obras) seleccionadas, pero con la unica intencion de hacer recuentos de las unidades de interes en cada caso, las palabras, por ejemplo. Asi pues, lo que se hace es extraer la infor- macion cuantitativa pertinente у prescindir del texto una vez despojado. No interesa el ejemplo concreto, sino simplemente el hecho de que un elemento ha aparecido un cierto numero de veces en un texto determinado о en el conjunto de los textos analizados. Tambien aqui se puede aceptar que los textos sobre los que se trabaja constituyen un corpus, pero esta claro que el trabajo no se realiza al estilo de lo habitual en la LC, donde las listas de frecuen- cias son solo una de las multiples explotaciones posibles de la informacion contenida en los textos que integran el corpus. Mucho menos abundantes, por razones obvias, son los estudios de frecuencias de estructuras gramaticales. En este terreno, las dos contribuciones de Kenis- ton para el espanol (1937a, 1937b) siguen constituyendo un ejemplo que no ha sido superado en otras tradiciones.

Estas tres lineas se ven fuertemente afectadas por la difusion del empleo de computadoras en lingufstica, aunque, сото es logico, el proceso es diferente en direccion e intensidad.

Durante los primeros anos, la capacidad de las computadoras es muy limitada у su uso requiere conocimientos especializados, pero la dificultad mayor esta, probablemente, en lo costoso del proceso de informatizacion de los textos, sea mediante tarjetas perforadas, la digitacion directa о el uso de maquinas especiales сото las Kurzweil Data Entry Machine (KDEM). Sin embargo, сото he mencionado anteriormente, Roberto Busa emprendio ya en 1949 el camino que terminara en la informatizacion de la obra de Tomas de Aquino у la elaboracion de las concordancias completas. Por su caracter pionero, este es, sin duda, el proyecto mas llamativo, pero es facil hacerse cargo de las enormes ventajas que proporciona la informa- tizacion de los textos para la produccion de listas de formas, indices, concordancias о listas de frecuencia de textos de especial relevancia en la historia de la literatura у la preparacion para su edicion impresa (antes de la existencia de Internet, por supuesto). Manifestacion interesante de esta fase intermedia es el Frequency Dictionary of Spanish Words (Juilland у Chang'Rodrfguez 1964), obra en la que los recuentos se hicieron de forma manual, pero en la que los calculos finales pudieron ser realizados en una computadora.11

Asi pues, tanto la produccion de listas, indices у concordancias сото la realizacion de listas de frecuencias mantienen sus caracteristicas basicas, pero se benefician de las ventajas que proporciona la posibilidad de encomendar a una computadora los penosos procesos que habia que realizar previamente de forma manual. En sentido estricto, no se llega por este camino ni a los corpus ni a la LC. Mucho mas proximo se sitiia, en cambio, lo que el alma- cenamiento de los textos en computadora supone para los proyectos lexicograficos. Aunque ahora pueda parecer muy incomodo у bastante primitivo, la posibilidad de informatizar una serie mas о menos amplia de textos у de imprimir las concordancias de las formas contenidas en ellos produjo un avance considerable con respecto a la situacion anterior. Supuso, ademas, un importante cambio metodologico en tanto que quebro la linea que suponia trabajar solo con ejemplos previamente seleccionados para comenzar a enfrentarse con todos los casos de una cierta palabra contenidos en una serie amplia de textos. Por supuesto, esa ventaja se manifiesta con mayor importancia cuanto mas alejados estan los materiales del sentimiento lingiiistico de los lexicografos, que, por tanto, dependen casi exclusivamente de la documen- tacion que pueden manejar.

Por tanto, a partir de los primeros anos sesenta del siglo pasado se va difundiendo el uso de computadoras en las investigaciones lingiiisticas (y sus aplicaciones, сото, por ejemplo, la traduccion automatical. En la fase de transicion hacia la LC, que se va realizando a dis- tintos ritmos en las diferentes lenguas у culturas, los avances de producen fundamentalmente en la utilizacion de computadoras para automatizar las tareas mecanicas en proyectos rela- cionados con la produccion de concordancias de obras о autores de especial significacion, indices de palabras, listas de frecuencias, diccionarios inversos, etc. En el ambito del espanol, es obligado mencionar la importancia que tuvo el Hispanic Seminar of Medieval Studies, que ya en la decada de los setenta acometio la conversion a formato electronico de textos medievales espanoles en el curso de la preparacion del Dictionary of Old Spanish Language (E>OSL).12 Este proyecto fue pionero tambien en lo referente a la codificacion, сото se ha mencionado en el apartado 3.4- Pocos anos despues surgen los proyectos ONE71 (once novelas espanolas) у PE77 (unos tres mil articulos de prensa), desarrollados en Suecia por David Mighetto у Per Rosengren, que publican listas de frecuencias, concordancias у die- cionarios inversos. Por esta misma epoca, Hiroto Hueda informatizo los textos de treinta obras teatrales espanolas.13

La segunda via de confluencia reside en los proyectos que, si bien discurren por lineas proximas a lo que luego sera la LC, no emplean recursos computacionales. El caso de referenda es, sin duda, el Survey of English Usage (SEU), dirigido por Randolph Quirk у consistente en un conjunto de aproximadamente un millon de formas procedentes de la transcripcion de textos orales у textos escritos en el cual era fichado exhaustivamente (en papel) un amplio conjunto de fenomenos fonicos у gramaticales.14 El SEU no fue concebido сото un corpus informatizado, probablemente debido mas a lo detallado de sus transcrip- ciones foneticas у las complicaciones insalvables que suponian con la tecnologia computa- cional de la epoca que a la falta de voluntad о perspectiva de Quirk.15 En esta misma situacion de transicion hacia los corpus en sentido estricto se encuentran las recogidas sistematicas de materiales practicadas por autores сото Fries (cf. McCarthy у O’Keefe 2010, 4) о el conjunto de materiales orales procedentes de conversaciones grabadas у transcritas construido en la Universidad de Edimburgo entre 1963 у 1965 por iniciativa de John Sinclair (cf. Tognini-Bonelli 2010, 16).16 Como es de esperar, la frontera entre un conjunto de materiales recogidos con el proposito de analizar los fenomenos lingiifsticos у un corpus en sentido estricto no es clara. Leech (2011) senala dos criterios que le permiten determinar quienes fueron los “padres fundadores” de la LC у que pueden contribuir a clarificar esta consideracion:

a That someone giving an account of a language should aim at what Quirk [...] called “total accountability”: that is, all relevant data obtainable should be taken into account, not just the examples that the investigator finds useful or congenial, b That a corpus, compiled in the spirit of offering total accountability, should be made available as a resource for the world of scholarship at large.

(Leech 2011, 156)

El segundo factor resulta un tanto discutible, puesto que incluso en la actualidad hay recur- sos que sin duda deben ser considerados сото corpus у que no han sido puestos nunca a disposicion de investigadores ajenos al equipo responsable de su construccion.17 El primero, en cambio, es mucho mas claro у decisivo. Los procedimientos tradicionales que hemos mencionado anteriormente (las fichas lexicograficas, por ejemplo) son el resultado de la extraccion selectiva de elementos о secuencias consideradas de interes para la ilustracion de un fenomeno. En estos otros proyectos, en cambio, primero se hace la integracion de los materiales (orales о escritos) у los casos relevantes de cada fenomeno (todos ellos si se quiere cumplir con el principio de la explicabilidad total, cf. 2.3.2) son extrai'dos у analizados posteriormente. Es decir, se retinen textos, no ejemplos de fenomenos, у de este rasgo deriva todo lo relacionado con la reutilizacion, el acceso abierto, etc.18 Desde esta consideracion, el hecho de que los materiales esten en formato electronico es menos importante aunque, por supuesto, es lo que hace que un corpus, incluso de un millon de formas, pueda ser manejado con comodidad.

El proyecto mas proximo al SEU en el mundo hispanico es el Proyecto de estudio coordinado de la norma lingufstica culta del espanol hablado en las principales ciudades de Iberoamerica у de la Peninsula Iberica, propuesto inicialmente por Lope Blanch [1927-2002] en el simposio de Bloomington (1964) у considerablemente modificado en los anos posteriores.19 La compara- cion de los dos muestra el caracter heterogeneo de los proyectos de transicion: el SEU pretendia integrar sus materiales en un conjunto unico; el Proyecto de la Norma Culta, mucho mas amplio en su diseno, carecia de la idea de integracion, pero mostraba en cambio gran interes en facilitar el analisis de la variacion. Ambos proyectos fueron reconvertidos posteriormente en corpus, aunque solo una pequena parte en el caso del Proyecto de la Norma Culta.20

La confluencia de todos estos procesos hace que en los anos sesenta cristalice, con natu- ralidad, la idea de informatizar un conjunto de textos para extraer у analizar la informacion lingufstica contenida en ellos. El Brown Corpus, constituido por quinientas muestras de unas dos mil palabras cada una, procedentes de textos publicados en Estados Unidos en 1961, es el primer corpus concebido de modo semejante al que se practica en la actualidad, aunque a una gran distancia en objetivos у procedimientos, сото es logico.21 Muy poco tiempo despues se elabora su contrapartida britanica, el llamado Lancaster-Oslo/Bergen (LOB),22 que supone el enraizamiento de esta corriente en Europa, donde alcanzara enseguida un gran desarrollo, сото se vera a continuacion.

 
<<   CONTENTS   >>

Related topics