Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Lecturas complementarias recomendadas

En Wynne (2005) puede encontrarse una revision general de los diversos aspectos relacio- nados con el diseno, construccion у explotacion de corpus textuales. De especial interes resultan Leech (2005) para anotacion у Thompson (2005) para lo relacionado con corpus orales. Una perspectiva general util puede encontrarse tambien en Weisser (2016). Para las cuestiones generates relacionadas con la anotacion sigue siendo util Garside, Leech у McEn- ery (1997). Para los diacronicos, puede verse Torruella Casanas (2017).

Para conseguir la familiarizacion con los aspectos fundamentals de XML, vease Hardie (2014) о Birbaum (2015). Para profundizar en el sistema, puede verse el documento A Gentle Introduction to XML (https://tei-c.org/release/doc/tei-p5-doc/en/html/SG.html).

En De Benito Moreno (2019) se hace un repaso muy completo de las caracterfsticas mas importantes de los sistemas de explotacion de los corpus de espanol mas importantes. En Rojo (2016a) puede encontrarse una relacion amplia (aunque ya desactualizada) de los corpus de espanol adscribibles a los diferentes tipos descritos en este capitulo.

Para la revision de los aspectos implicados en la construccion de un corpus oral, incluidos los legales у eticos, resulta muy util Vazquez Rozas et al. (en prensa). Para una vision general de los corpus multimodales, puede verse Bezemer у Jewitt (2010) у, сото muestra de trabajo, Dahlmann у Adolphs (2009).

Cuestiones, problemas y temas de investigación

  • a) Disene las lineas generales de un corpus que sea adecuado para estudiar, por ejemplo, la forma en que ha evolucionado el espanol desde 1900 hasta la actualidad en la utilizacion de futuros sinteticos frente a la construccion perifrastica ir + a + infinitivo. Identifique los parametros que deberian ser tornados en cuenta (tipos de texto, paises, lengua oral о escrita, etc.).
  • b) Investigue la existencia de corpus de espanol que sean adecuados para el estudio de las caracterfsticas lingiifsticas de un cierto tipo de hablantes (poblacion juvenil, por ejem- plo) о de un cierto tipo de textos (noticias de economfa о discursos parlamentarios, por ejemplo). Elabore una tabla que resurna los factores comunes у diferenciales de los corpus localizados.
  • c) Visite las paginas de demostracion de FreeLing о Linguakit, introduzca una secuencia que contenga algunos casos de homograffas, nombres propios formados por mas de una palabra, fechas, etc. у valore el resultado obtenido.
  • d) Si la version de demostracion lo permite, utilice la opcion que devuelve todas las etique- tas aplicables у proporciona su probabilidad en ese contexto. Analice los resultados.
  • e) Intente identificar que rasgos contextuales podrfan ser utilizados para diferenciar automaticamente entre

i la artfculo у la pronombre personal

ii paso sustantivo у paso verbo

iii para preposicion у para verbo

Analice luego los resultados proporcionados por algtin corpus con anotacion morfo- sintactica у trate de ver en que medida dan resultados correctos у en que aspectos podrfan mejorar.

NOTAS

  • 1 Es el proyecto mas antiguo de la Union Academique Internationale у consiste en “a series of high- quality catalogues of mostly ancient Greek painted pottery in collections around the world. The first fascicule appeared in 1922 and since then almost 400 have appeared, illustrating more than 100,000 vases in 24 countries” (www.cvaonline.org/cva/default.htm).
  • 2 Lo mismo puede decirse del Corpus Vitrearum (www.corpusvitrearum.org/), que contiene ima- genes de vidrieras.
  • 3 Raimundo de Miguel incluye la acepcion “[c]uerpo, union, conjunto, totalidad, union de varias cosas” y, entre otros ejemplos, cita “corpora Homeri, Ulp., las obras completes de Homero; corpus omnis iuris Romani, Liv. el cuerpo de todo el derecho romano” (De Miguel 1897, s.v. corpus). Como se puede observer en la ultima traduccion, a De Miguel no le resultaba familiar el uso de corpus con este sentido en espanol. Algo parecido se puede encontrar en Blanquez (1960, s.v. corpus).
  • 4 Es una amplisima reunion de todas las inscripciones latinas que han llegado hasta nosotros, orde- nadas por parses de origen у tipo de inscripcion. El proyecto, iniciado en 1853, bajo la direccion de Theodor Mommsen, у todavfa vivo, contiene en la actualidad unas ciento ochenta mil inscrip- ciones. Cf. http://cil.bbaw.de/cil_en/index_en.html.
  • 5 La planificacion del corpus es la “parte de los procesos de planificacion lingiustica у de la codi- ficacion en la que se lleva a cabo la toma de decisiones sobre las caracteristicas linguisticas de la variedad de lengua en cuestion, сото, por ejemplo, aspectos relativos a la pronunciacion a selec- cionar de entre las disponibles, el tipo de estructuras sintacticas у formas morfologicas a permitir, el niimero de palabras de origen regional con identico significado a favorecer, у las actuaciones a seguir para ampliar el vocabulario, si se considera necesario” (Trudgill у Hernandez Campoy 2007, s.v. planificacion de corpus; negritas en el original).
  • 6 Una lengua de corpus es “una lengua no activa en la actualidad, cuyos materiales constituyen un compendio de textos cerrado у delimitado, susceptible de ser aumentado unicamente por la via del descubrimiento (nuevos papiros, codices, inscripciones, etc.), con lo que ello implica de cara a su estudio” (Ramos Guerreira 1996, 36).
  • 7 En LC se ha trabajado durante anos con el concepto de “textos anidados”, es decir textos integra- dos en un conjunto superior que es tambien un texto. Un ejemplo claro puede ser el de la edicion de un periodico, un documento constituido por la suma de otros documentos (noticias, reportajes, cartas al director, editoriales, etc.) contenidos en su interior. En un documento de ese tipo, las informaciones referentes a los textos (los metadatos, cf. 3.4) se distribuyen entre una cabecera general, que corresponde a todo el documento, у las cabeceras especificas, que contienen los pro- pios de cada texto. El concepto puede generalizarse у llegar a la idea de la totalidad de un corpus сото un documento ilnico, que contiene, anidados, miles de documentos que, a su vez, pueden tener otros documentos en su interior. No es esta la forma habitual de trabajar en la actualidad: lo normal es que cada texto constituya una unidad distinta у contenga en su cabecera todos los datos pertinentes.
  • 8 El hecho de que habitualmente se trabaje con concordancias (con un tamano de docenas de caracteres) no invalida esta afirmacion. Si la situacion legal de los textos en el corpus lo permite, los contextos pueden ser bastante mas extensos y, ademas, el empleo de concordancias no es el unico modo de trabajar con corpus.
  • 9 Lo cual no excluye la posibilidad de que la codificacion interna marque los fragmentos corres- pondientes a las intervenciones del narrador у de los distintos personajes, que puede tener gran interes cuando han sido caracterizados linginsticamente. Naturalmente, las intervenciones de los personajes se pueden marcar tambien en las obras de teatro.
  • 10 El termino (observers paradox) fue introducidoen losestudiossociolingufsticos por William Labov “para hacer referencia al principal objetivo de cualquier investigador interesado en el uso de una lengua en situaciones naturales у a la vez el principal problema metodologico de la lingiustica secular” (Trudgill у Hernandez Campoy 2007, s.v. paradoja del observador". En la formulacion clasica de Labov, la paradoja supone que “el objetivo de la investigacion lingiustica de la comuni' dad debe ser hallar сото habla la gente cuando no esta siendo sistematicamente observada; у sin embargo nosotros solo podemos obtener tales datos mediante observacion sistematica” (Labov 1972a, 266).
  • 11 Todas estas cuestiones nos hacen pensar casi siempre en textos medievales о clasicos, pero se plantean de modo semejante en los modernos у contemporaneos, incluso en los actuales. La publicacion de sus obras completes, por ejemplo, hace que casi todos los autores revisen sus textos, lo cual provoca diferencias y, por tanto, la necesidad de decidir acerca de que version se integra en el corpus. Los cambios se pueden producir tambien en nuevas ediciones de un texto. Por ejemplo, Hermeren (1992) se ha enfrentado con las modificaciones introducidas por Miguel Delibes en ediciones distintas de algunas de sus obras en relacion al empleo de ciertas formas verbales. Cam- bios en las nuevas ediciones de algunos de sus textos han introducido tambien, entre muchos otros autores, Juan Marse (Ultimas tardes con Teresa), Antonio Munoz Molina (Eljinete polaco) о Gabriel

Garcia Marquez (Cien unos de soledad). En todos estos casos surge el problema de la seleccion de la edicion que va a ser incorporada al corpus correspondiente.

  • 12 Con palabras de Sinclair (2005a, 7), si los criterios para la seleccion de textos son determinados exclusivamente por la influencia, el niimero de lectores у similares, “the most likely document that an ordinary English citizen will cast his or her eye over is The Stm newspaper; in a corpus of British English should we then include more texts from that paper that from any other source?”.
  • 13 Cabe incluso ir mas alia у cuestionar la utilidad de la proporcionalidad entre muestra у poblacion en cierto tipo de estudios. En el caso de los sociolingiusticos, por ejemplo, Sankoff (1988, 900) senalaba:

The elementary notion of representative involving a completely random sample, chosen with uniform probability over the entire population, is not very useful in the sociolinguistic context. Speech communities tend to consist of many varieties spoken by groups containing very different numbers of individuals, so that uniform sampling leads to redundancy for some groups and risks missing other entirely.

A more useful notion of representativeness requires not that the sample be a miniature version of the population, but only that we have the possibility of making inferences about the population based on the sample. For this, the probability of selection of individuals need not be uniform, as long as it is known what these probabilities are.

  • 14 Algo mas de sesenta mil en enero de 2020 (с/, www.gutenberg.org/).
  • 15 Para una revision esquematica de los tipos de corpus, cf., entre otros muchos, Kennedy (1998, 19 у sigs.), Torruella у Llisterri (1999), Weisser (2016, 13 у sigs.). Detallada у organizada es la que se encuentra en Torruella Casanas (2017, cap. 3). Para la descripcion, superficial у forzosamente ya desactualizada, de los corpus de espanol pertenecientes a cada tipo, cf. Rojo (2016a).
  • 16 La tcrminologia es un tanto equfvoca. Aunque el sentido en que se utilizan aquf estos terminos se aclara inmediatamente, hay que tener presente que esta diferenciacion no camina en el sentido de oponer corpus formados por textos completos a corpus formados por fragmentos de textos (cf. Kennedy 1998, 19 у sigs.).
  • 17 Naturalmente, ese trabajo supone decisiones difi'ciles acerca de las ediciones que habrfa que utilizar.
  • 18 Se trata de un corpus “que permite consultar en paralelo la practice totalidad de los romanceamien- tos existentes junto a sus fuentes latinas о hebreas, con posibilidad de consulta de imageries digi- tales de los codices originales” (www.bibliamedieval.es/). Cf. infra en este mismo apartado.
  • 19 Rocfo Caravedo (1999) utilize estos mismos terminos para diferenciar dos tipos de corpus a partir de rasgos muy diferentes de los habituales. Para esta autora, los corpus abiertos son “recopilacio- nes independientes de cualquier analisis posterior у de teori'as preestablecidas” (Caravedo 1999, 94), los denomina de este modo “en razon de su no restriccion teorico-metodologica” у considera que su proposito es “ofrecer paquetes preparados de una porcion finita у abarcable de la realidad empirica que podra servir a otros investigadores, con el consiguiente ahorro de energfa у tiempo en la recoleccion de los propios datos” (Caravedo 1999, 97). Los corpus cerrados, en cambio, son “proyectos cuyos objetivos no apuntan de modo exclusivo a la formacion у difusion de un material, sino —mas bien— al estudio de ciertos aspectos de la realidad linguistica previamente definidos, a partir de supuestos teoricos о metodologicos diversos. En tales proyectos, el corpus es un medio mas que un fin en si mismo. Se entiende el calificativo de ‘cerrado’ no en razon de su inextendibilidad, sino mas bien en su caracter de dependiente de un sistema de hipotesis, de una metodologia pre- definida о de la construccion de un conjunto de estrategias claras para abordarlo desde perspectives especfficas.” (Caravedo 1999, 98-99). La distincion es, sin duda, de gran interes, pero los terminos utilizados no son los mas adecuados, puesto que chocan con su empleo mas habitual en LC.
  • 20 Cf. www.collins.co.uk/page/The+Collins+Corpus. El ejemplo clasico de corpus abierto era el Bank of English, proyectado por John Sinclair hace ya bastantes anos. En la actualidad, sin embargo, el Bank of English “is a subset of 650 million words from a carefully chosen selection of sources”. Extraido del Collins Corpus (cf. ibidem).
  • 21 En palabras de Teubert у Cermakova (2004, 71), un monitor corpus es simplemente “a corpus that monitors language change”. La referenda inicial esta en Sinclair (1991, 24-26), aunque luego el concept» se complica bastante у a ello contribuyen tambien las dificultades de la tra- duccion al espanol de la expresion inglesa. Sinclair establece una oposicion basica entre sample corpus у monitor corpus, es decir, un corpus muestral (cf. supra) у un corpus monitor. El primero es el que se utiliza сото muestra de una poblacion mucho mayor. El segundo consiste en grandes masas de datos que son procesados para conservar la informacion relevante. Es decir, no se trata de tener un corpus enorme que haya que consultar cada vez que se quiere hacer algo, sino de examinar los textos segun 'an pasando por unos filtros preparados previamente у conservar de todo ello la informacion relevante: nuevas palabras, nuevos contextos de uso, etc. Con sus propias palabras (pero hay que tener en cuenta que el texto es de 1991, con una situacion muy distinta de la actual en lo que se refiere a potencia, capacidad у velocidad de las computadoras):

Most of the material will come in from machine-readable sources, and it will be examined for the purposes of making routine records. Gradually, it will get too large for any practicable handling, and will be effectively discarded. The focus of attention will be on what information can be gleaned from the text as it passes through a set of filters which will be designed to reflect the concerns of researchers.

(Sinclair 1991, 25)

Cf. tambien Teubert у Cermakova (2004, 71 у sigs.), que fijan сото utilidades basicas de estos corpus el analisis de cambios en la frecuencia de palabras у expresiones, los neologismos о los cam- bios en las coapariciones de una palabra —reveladoras de cambios en su significado.

22 Debe tenerse en cuenta que la integracion de textos en un corpus es siempre costosa en todos los sentidos. En la epoca anterior a los escaneres у los programas de reconocimiento optico de carac- teres (OCR), la introduccion de los documentos en las computadoras exigfa digitarlos de nuevo. En la fase siguiente, con programas de reconocimiento optico de caracteres mucho menos fiables que los que tenemos ahora, el trabajo de revision del resultado del OCR resultaba muy laborioso. En la actualidad, la posibilidad de integrar directamente los documentos en formato electronico ha facilitado toda esta parte previa del trabajo у se ha hecho especialmente comoda, sobre todo en lo correspondiente a la prensa digital.

Los textos orales exigen la transcripcion, сото hemos indicado ya en el apartado anterior, pero hay que tener en cuenta que un trabajo similar es el que hay que realizar con textos que no han sido publicados previamente, сото sucede con una parte importante de los que entran en corpus de orientacion diacronica о los constituidos por materiales manuscritos, сото las cartas particula- res, las pruebas realizadas por estudiantes, etc.

  • 23 Torruella Casanas (2017, 54) recoge otro concepto de corpus de referenda: el que “no incorpora obras completes, sino fragmentos de estas” con el objetivo de ampliar el abanico de textos у aumentar asf la representatividad.
  • 24 Para la revision de los aspectos fundamentales de estos corpus en espanol, cf. Rojo у Palacios (en prensa) у Vazquez Rozas у Blanco (en prensa).
  • 25 Por supuesto, en un texto que consideramos monolingiie puede haber multiples palabras у secuen- cias de palabras pertenecientes a otras lenguas, lo cual crea algunos problemas para los tratamien- tos de anotacion у lematizacion. Cf. Nurmi у Riitten (2017).
  • 26 Es decir, no es suficiente con la existencia de esa diversidad en los textos, sino que la informacion debe ser procesada у resultar asequible a los consultantes. El CdEhist, por ejemplo, tiene textos de los diferentes pafses hispanicos, pero la consulta no puede hacer uso de esa informacion y, por tanto, no se admite la recuperacion selectiva segtin este parametro. Lo mismo sucede con los anos (solo por siglos) у los tipos de texto (solo los muy generales en el siglo xx).
  • 27 Para informacion sobre tree-banks en espanol у proyectos semejantes сото la BDS, el CSA о ADESSE, cf. Rojo (2016a).
  • 28 La aplicacion de consulta del DAut que se encuentra en la pagina de la RAE (www.rae.es/recursos/ diccionarios/diccionarios-anteriores-1726-1996/diccionario-de-autoridades) permite recuperar todos los casos de una determinada forma en todo el contenido del diccionario. Evidentemente, no es equivalente a convertir todas las citas en un corpus, pero permite localizar todos los casos de una forma presentes en la obra, lo cual puede facilitar considerablemente algunas investigaciones (cf. infra, 4-4, sobre cocodrilo у crocodilo).
  • 29 Cf. Cuervo 1886-1893. Aunque es un planteamiento distinto у no podrfa dar lugar a un corpus, cabe senalar tambien la utilizacion de la enorme cantidad de informacion incluida en los textos utilizados en el Diccionario critico-etimologico Castellano e hispanico (DCECH) (Corominas у Pascual 1980-1991) para localizar primeras dataciones explorada por Clavena Nadal у Torruella i Casanas (2005) e integrada en el Portal de Lexico Hispanico (cf. Clavena et al. 2013).
  • 30 Tengase en cuenta que Rufino Jose Cuervo publico en vida los dos primeros tomos de su DCRLC (entre 1886 у 1893). El Instituto Caro у Cuervo edito, entre 1959 у 1987, los fascicules corres- pondientes al tomo tercero. Por ultimo, en 1994 aparecieron los tomos restantes. Las diferencias esperables en las ediciones utilizadas son, pues, muy considerables.
  • 31 El Corpus del Espanol NOW (News on the Web), construido por Mark Davies, contiene un total de 7200 millones de formas, procedentes todas ellas de noticias periodfsticas publicadas en la web entre 2001 у 2019. La informacion puede ser seleccionada por ano о bien por pais de procedencia. Su aplicacion de consulta es basicamente la misma que utilizan el CdEhist у el CdEweb.
  • 32 El CODEA contiene (en enero de 2020) unos 2500 documentos transcritos segun las directrices seguidas en el proyecto Corpus Hispanico у Americano en la Red: Textos Antiguos (CHARTA).
  • 33 El proyecto Biblia Medieval, constituido por los textos hebreo у latino de la Biblia alineados entre si у con sus traducciones medievales al Castellano, tiene una enorme gama de posibilidades de recuperacion de datos у consta de unos cinco millones de formas (en enero de 2020). Notese que este corpus muestra que la idea de alineacion es un concepto bastante amplio en LC. Se habla de alineacion para hacer referenda a la vinculacion entre las secuencias fonicas у sus transcripciones ortograficas, у tambien a la que existe entre las versiones en diversas lenguas de un “mismo” texto. Aquf se aplica a una variante de esta ultima lfnea, de gran interes en los estudios diacronicos. Segun Enrique-Arias (2012), el paralelismo de los textos en diferentes lenguas presenta grandes ventajas en los estudios diacronicos, puesto que permite superar el inconveniente de los corpus diacronicos mas habituales, que exigen conocer previamente la forma que se desea recuperar y, por tanto, ir de la forma a la funcion. En un corpus alineado de este tipo, en cambio, es posible partir de las formas existentes en, por ejemplo, latfn para expresar un determinado concepto о funcion у localizar las que se emplean en las diferentes versiones castellanas con la misma finalidad. Sin duda, el procedimiento es muy util porque se trata de tomar una lengua bien conocida сото punto de partida у utilizar esos datos para localizar sus equivalentes (conocidos о no) en espanol. Pero, en realidad, no es un camino que parta de la funcion: parte de la(s) forma(s) en latfn (por ejemplo) у busca sus equivalentes en otra(s) lengua(s).
  • 34 El CORD1AM contiene, en la version consultable en enero de 2020, la transcripcion de algo mas de doce mil documentos con un total de 8,5 millones de formas. Cf. Bertolotti у Company Corn- pany (2014).
  • 35 Pedro Sanchez-Prieto, director del CODEA, ha insistido repetidamente en el valor excepcional de corpus de este tipo para el conocimiento de la historia de la lengua. A su modo de ver,

[p]ara que un corpus sea lingufsticamente aprovechable se exige: (1) control filologico del proceso de edicion, lo que se relaciona con la fiabilidad, у (2) control filologico en el proceso de tratamiento de la informacion, es decir, de los datos obtenidos mediante la exploracion у explotacion del corpus. El editor ha de ofrecer instrumentos que hagan posible la verificacion por el usuario. Estos instrumentos se identifican normalmente con el aparato crftico, pero el medio electronico permite proporcionar las “fases” por las que editor llega a la propuesta editorial final (facsfmil, transcripcion, edicion).

(Sanchez-Prieto Borja 2012, 9)

Es evidente que estas caracterfsticas solo se pueden lograr en corpus de tamano reducido у con una tipologfa textual muy limitada.

  • 36 Pero no es el tamano lo mas importante. El Corpus de Helsinki (1984-1991) es de los mas citados у utilizados у consta solo de cuatrocientos cincuenta textos con poco mas de 1,5 millones de formas (cf. www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/).
  • 37 Salvo Filipinas у Guinea Ecuatorial.
  • 38 No hay calculos fiables del tamano de la parte accesible de la red. En el verano de 2008, dos inge- nieros de Google (cf. Alpert у Hajaj 2008) publicaron un informe en el que estimaban el tamano de la red publica en un billon (101-) de paginas linicas (es decir, sin tomar en cuenta repeticiones, espejos, etc. En un estudio anterior, Gulli у Signorini (2005) estimaban que Google tenia indexa- dos unos ocho mil millones de paginas (frente a cinco mil en MSN у cuatro mil de Yahoo). Si, de acuerdo con calculos conservadores para cifras ya muy antiguas, estimamos que el 2 % de esas paginas pod fan estar en espanol (ciento sesenta millones) у que el tamano medio de una pagina puede situarse en torno a quinientas palabras, resulta que el volumen de textos escritos en espanol e indexados por Google se situaba en aquel momento en unos ochenta mil millones de palabras. Otras estimaciones daban, en 2008, un total de cuarenta mil millones de paginas indexadas en Google (с/. Rojo у Sanchez 2010, apdo. 2.2.5.). Lew (2009) estimaba el volumen de los textos en ingles incluidos en la web en unos cinco billones (1012) de formas (no paginas), es decir, cincuenta mil veces el volumen del BNC.

Los calculos sobre el tamano de la red son siempre altamente problematicos у mucho mas si lo que interesa no es el numero de paginas, sino el de palabras. Se ha usado en varias ocasiones la tec- nica de obtener la frecuencia de una expresion en un corpus controlado, hacer la misma operacion con un buscador de uso general у realizar luego la proyeccion correspondiente. En su tesis doctoral, M. de Kunder (2007) lo aplico anadiendo la comparacion con varios buscadores у mantiene desde entonces una pagina web (http://worldwidewebsize.com) en la que actualize diariamente los resul- tados obtenidos. En agosto de 2009, los resultados oscilaban entre 22 000 у 47 000 millones de paginas indexadas (cf. Rojo у Sanchez 2010, 69). En enero de 2020, la estimacion se situa entre 65 000 millones de paginas indexadas en Google que tambien lo estan en Bing у 6000 millones de paginas indexadas en Bing que tambien lo estan en Google. La diferencia es realmente fuerte у hay que tener en cuenta, ademas, que se limita a las paginas indexadas por estos dos buscadores, de modo que no entra lo que se puede considerar la “materia oscura” de la red.

Como senala Mair (2006), este mismo sistema se puede usar para estimar el numero de paginas web correspondientes a una determinada lengua. Asf, la expresion salida de tono aparece treinta у cuatro veces en la version 0.91 del CORPES, lo cual supone una frecuencia normalizada de 0,12 casos por millon o, lo que es equivalente, un caso cada 8 333 333 formas ortograficas. Si suponemos que hay un caso por cada pagina у multiplicamos el numero de paginas (o casos, puesto que suponemos una aparicion por pagina) por el numero de formas que por termino medio se necesitan para que esta expresion aparezca una vez, el resultado es que Google tiene indexados alrededor de trece billones (1012) de palabras (no paginas) en espanol.

  • 39 En palabras de Baker (2010a, 13), “[t]he web is therefore a potentially useful electronic “corpus”, but we should not view it as particularly balanced or representative of other types of language use, nor should we abandon projects that aim to create smaller, more carefully constructed reference corpora".
  • 40 Recuerdese, no obstante, la diferencia establecida por Kilgarriff у Grefenstette (2003) у men- cionada previamente acerca de la conveniencia de diferenciar entre lo que se puede exigir para considerar que un cierto conjunto de materiales es un corpus у lo que se precisa para que ese conjunto de textos sea adecuado para un determinado tipo de estudio. En el marco conceptual у metodologico usado en la LC habitualmente, la web no es el recurso adecuado para la mayor parte de los analisis lingiifsticos.
  • 41 Cf. Sinclair (2005a, 15). En palabras de Johansson (2011, 121):

Many people these days speak of the “Web as corpus”. 1 would prefer to say that the Web is a vast archive of texts from which material can be drawn by the researcher taking into account his/her research question. It must be remembered, however, that not all types of texts are adequately represented on the Web, in particular carefully transcribed casual speech.

42 Algunas versiones de buscadores de uso general ofrecen la posibilidad de restringir la busqueda a textos correspondientes a ciertos pafses. Como he indicado ya, esta posibilidad, basada en las direcciones IP de los servidores en los que residen las paginas localizadas, resulta, sin embargo, muy poco fiable para las consultas que se hacen con intencion de recuperar datos de interes en la inves- tigacion lingufstica. En efecto, que una cierta pagina resida en un servidor situado fisicamente en un cierto pais no garantiza que el texto corresponda realmente a ese pais. Por otro lado, el pro- cedimiento deja de lado todos aquellos dominios de ambito general (сото .com, .edu, etc.). Los corpus construidos a partir de textos descargados de la red no manejan las diferencias entre pafses (сото es el caso de EsTenTen) о utilizan la direccion IP de los servidores (сото el CdEweb), con la inseguridad consiguiente en esta caracterizacion.

  • 43 Y la posibilidad de usar metacaracteres сото los examinados en el capftulo 1 esta, en general, bastante restringida (por razones perfectamente comprensibles en buscadores de uso general).
  • 44 Por citar algo bien conocido, se afirma con frecuencia que Google atiende mucho mas al mundo anglosajon que al mundo que se expresa en lenguas diferentes del ingles. El proyecto de buscador europeo Quaero, que pretendfa solucionar ese problema, se cerro en 2013 (cf. www. quaero.org/).
  • 45 Por ejemplo, limitar el niimero de busquedas diarias a unas cifras que pueden ser aceptables para con- sultas hechas por seres humanos, pero no para las que pretenden automatizar la recuperacion de datos.
  • 46 Para una revision general, pero fundada en la experiencia real, cf., entre muchos otros, Sinclair (2005a, 2005b) у Torruella Casanas (2017, apdos. 5 у 6).
  • 47 Por esa razon, todos los textos del CREA llevan tambien las indicaciones tipologicas que les corresponderian en el CORDE en el momento en que se integrasen en este corpus.
  • 48 Cf. vvwvv.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/period.html.
  • 49 Para informacion basica, cf. http://ice'Corpora.net/ice/.
  • 50 Son las siguientes: zona andina, Antilles, Caribe continental, Chile, Espana, Estados Unidos, Filipinas, Guinea Ecuatorial, Mexico у Centroamerica у Ri'o de la Plata.
  • 51 Cf. www.rae.es/publicaciones/parametros'de-seleccion'de-textos.
  • 52 El COVJA esta integrado en el CREA, у el CHUS forma parte del CORPES.
  • 53 A grandes rasgos, la granularidad consiste en el grado de detalle presente en la informacion mane- jada. Con un ejemplo simple, un sistema de anotacion que maneje unicamente la clase de palabras (por ejemplo, verbo) dene una granularidad mucho menor que otro en el que figuren tambien el modo, el tiempo, la persona у el numero. Es evidente que incluir todos estos rasgos complica al proceso, aumenta la posibilidad de error, etc., pero enriquece considerablemente la informacion que se puede obtener del corpus.
  • 54 C). Rojo у Sanchez (2010, cap. 4) para el analisis de la evolucion de la prensa digital en espanol.
  • 55 Para una idea rapida de las dificultades con las que se enfrentan los programas de reconocimiento optico de caracteres, veanse los resultados habituates de las obras incluidas en Google Books pro- cedentes de ediciones anteriores al primer cuarto del siglo xx. Por supuesto, los resultados depcn- den de la tipografia, no de la fecha, pero, en terminos generales, el proceso da mas errores cuanto mas antigua sea la edicion.
  • 56 Es necesario diferenciar entre procesadores de texto (Word, LibreOffice, etc.) у editores de texto (edit, Notepad, TextPad, etc. en el mundo Windows; vi, emacs, Kate, etc. en el mundo Linux; Pages, TextEdit, etc. en MacOS).
  • 57 C/.https://tei'C.org/guidelines/p5/ у www.xces.org/.
  • 58 Por supuesto, hay formas de lograr un detalle aceptable en la indicacion de todos estos fenomenos у lograr el procesamiento adecuado de los datos, precisamente mediante el empleo de un sistema de codificacion adecuado (vid. infra, apdo. 3.4). Lo que se pretende mostrar aquf es el conjunto de problemas que aparecen en transcripciones que hacen, sin mas, indicaciones del tipo esperaaaaa у similares. Por otro lado, la transcripcion de espe, sin mas, cuando el hablante no llega a decir espera da lugar a la aparicion de una forma que la aplicacion de anotacion no va a poder resolver adecuadamente. Es decir, la codificacion de todos estos fenomenos es absolutamente necesaria, pero complica considerablemente las tareas de preparacion, que es lo que se pretende mostrar aquf.
  • 59 McEnery у Hardie (2012, 29 у sigs.) se refieren a la presencia de tres grandes tipos de informacion: “metadata, textual markup and linguistic annotation”.
  • 60 Bit es el acronimo de la expresion inglesa binary digit. Es decir, cada bit consiste en un сего о bien un uno, у la combinacion de siete bits proporciona la posibilidad de codificar ciento veintiocho (2') caracteres distintos, que es lo que da lugar al sistema conocido сото ASCII (American Stan- dard Code for Information Interchange). El ASCII ampliado se basa en un sistema de ocho bits y, por tanto, puede contener 256 (2s) posibilidades distintas, lo cual, сото se indica en el texto, supone un cierto avance, pero no soluciona el problema.
  • 61 Fue el caso, bien conocido, del sistema desarrollado por el Hispanic Seminary of Medieval Studies, que diseno un sistema completo de codificacion de caracteres у marcas de edicion para textos medievales espanoles. Cf. infra.
  • 62 Para comprobar lo que aquf se indica se puede probar a escribir ese texto en un editor (no un procesador) у abrirlo con un navegador cualquiera. Otra posibilidad es abrir una pagina web cual- quiera у activar la opcion de ver el codigo fuente en que ha sido escrita.
  • 63 Un caso diferente es el que se plantea, por ejemplo, con las lfneas, columnas у folios de un manuscrito.
  • 64 Por ejemplo, en ESLORA las lfneas que devuelven las concordancias pueden ser сото la siguiente, en la que se anotan los lugares de las pausas, una vacilacion, la existencia de un fragmento de sonido ininteligible у se resalta una palabra en la que se da un alargamiento:

manera personalmente fue una suerte vivir una epoca tan efervescente о no se сото decirlo visto desde ahora £,no?

  • 65 Como se indica con mas detenimiento despues, se trata de una de las muchas recodificaciones que tienen lugar habitualmente. En el mundo anterior a las maquinas de escribir electronicas у los procesadores de texto, los originales manuscritos о mecanografiados que se enviaban a imprenta indicaban, por ejemplo, primus inter pares cuando se deseaba que el texto impreso apareciese сото primus inter pares (cursiva) у gjygqs^g|g£_gg^ о primus inter pares cuando se querfa impri- mir primus inter pares (negrita).
  • 66 Para una introduccion rapida a cuestiones relacionadas con la codificacion, cf. Hardie (2014), Birbaum (2015).
  • 67 . . . son las etiquetas que delimitan el elemento, rend (rendition) es un atributo у cursive, negrita у negrita cursiva son algunos de los valores posibles de ese atributo.
  • 68 Tengase en cuenta que el resalte dpografico funciona siempre por diferenciacion respecto de lo que hay a su alrededor. Por ejemplo, es habitual que los prologos de las obras se escriban en letra cursiva y, en ese contexto, para resaltar alguna palabra о expresion se ponen en redonda.
  • 69 Es, por ejemplo, la etiqueta usada en el sistema de codificacion del proyecto PRESEEA.
  • 70 Con entidad para la cedilla.
  • 71 El resultado obtenido con FreeLing puede variar en funcion de la version utilizada. El que aparece en esta figura fue producido con la version 3.2. Puede accederse a una demostracion de las dife- rentes posibilidades de FreeLing en http://nlp.lsi.upc.edu/freeling/demo/demo.php. Vid. tambien Padro (2011), Padro у Stanilovsky (2012).
  • 72 Notese que, en realidad, ese se es una variante de le: reprocharle algo a alguien.
  • 73 Vease, por ejemplo, el etiquetario utilizado en ESLORA (http://eslora.usc.es/guide_tags).
  • 74 https://linguakit.com/es/etiquetador-morfosintactico. Cf. Gamallo у Garcia (2017).
  • 75 Notese que hay algunas diferencias llamativas entre el contenido de los recuadros anteriores у el siguiente. Por ejemplo, aquf considera que se pertenece al verbo ser.
  • 76 Es decir, de las formas que no son irregulares en el sentido mas habitual de la expresion, pero tampoco presentan las peculiaridades de verbos сото cazar о llegar, que necesitan ciertos ajustes ortograficos (lie go / llegue, cazo / cace, etc.). Para tener una idea de la complejidad de esta parte del proceso general, veanse los apendices del DLE en su version impresa: contienen sesenta у tres modelos diferentes de conjugacion.
  • 77 Tengase en cuenta que reglas de este tipo son las necesarias para aislar e identificar los elemen- tos gramaticales de formas сото decirme, diciendoselo, etc. Notese, de paso, que la retirada de los elementos enclfticos en el ultimo caso deja dicierulo, que no es exactamente la forma de gerundio del verbo decir. Hay que hacer, pues, una notable cantidad de ajustes, todos ellos mediante reglas mas о menos complicadas.
  • 78 Con algunos casos de sincretismo sistematico, сото el de las primeras у terceras personas del singular del copreterito de indicativo о los preteritos de subjuntivo, por ejemplo.
  • 79 La edicion de 2001 del DLE dene unos doce mil verbos.
  • 80 En el proyecto FreeLing, “[t]he Spanish dictionary contains over 555,000 forms corresponding to more than 76,000 lemma-PoS combinations” (http://nlp.lsi.upc.edu/freeling/node/12).
  • 81 Para mas detalles sobre las diferencias entre lemarios de diccionarios у lemarios de corpus, cf. Rojo (en prensa)
  • 82 La transcripcion fue realizada en este caso con el programa Transcriber (http://trans.sourceforge. net/en/presentation.php), que va alineando los turnos automaticamente.
  • 83 Para la comparacion en profundidad de estas dos formas de plantear la construccion у explotacion de los corpus generales, cf. Rojo (2010a).
  • 84 Utilizo la estructura de las etiquetas de FreeLing (cf. supra). Como se ve, se utilize una cierta version de expresiones regulares. Para mas detalles, cf. infra cap. 7.
  • 85 El CdEhist, CdEweb, ESLORA у CAES permiten ver сото se va construyendo la etiqueta a medida que quien hace la consulta va seleccionando rasgos.
  • 86 En la legislacion espanola, las obras pasan a dominio publico setenta anos despues del failed- miento de su autor (ochenta si el fallecimiento se produjo antes de 1987). Para manejar estos plazos, es necesario tener en cuenta que los derechos sobre un texto no son unicamente los de su autor, sino tambien los de los responsables de, por ejemplo, la edicion critica de una obra. En otras palabras, no se puede distribuir libremente El corule Lucanor о el Quijote si no se utiliza una edicion que ya esta en el domino piiblico (сото sucede con la que se maneja en el capftulo 7) о se cuenta con los permisos de los editores literarios у comerciales de la edicion seleccionada.
  • 87 En efecto, de los textos con tamano inferior a cuarenta mil palabras se elimina el 10 % antes de su integracion en el corpus con la finalidad de “ensure that no text is captured in its entirety” (www. natcorp.ox.ac.uk/corpus/permlettets.html).
 
<<   CONTENTS   >>

Related topics