En busca del método para la investigación documental web.

Por Alfonso Esparza C.

En el recorrido por el magnífico volumen de ensayos The Handbook of Internet Studies, editado en 2011 por Mia Consalvo y Charles Ess, trabajos como el de Niels Brügger “Web archiving: between past, present and future” cobran especial interés por su sistemática insistencia en la necesidad de un trabajo transdisciplinario que integre necesidades y experiencias en un modelo de trabajo creativo, en que tendrían un rol de primer orden las instituciones de preservación documental con programas y proyectos de documentación digital en proceso, para unificar iniciaivas, compartir experiencias, y evitar la duplicidad de funciones compatibles y factibles para ser compartidas, y sobre todo, no cometer errores de método que tienen un alto costo.

En el camino hacia la consolidación de las investigaciones de internet como objeto de estudio el ensayo de Brügger propone como punto de partida considerar al documento web como medio y como texto. La pregunta metodológica es si un nuevo tipo de documento debe ser tratado de una manera distinta de otros medios y textos. Para el autor la respuesta es afirmativa: en primer lugar porque se caracteriza por ser dinámico, efímero, cambiante, fundamentalmente diferente de los llamados medios masivos convencionales, a los que puede integrar en su contenido, y requiere nuevos métodos de investigación.

Estrategias de documentación web

Brügger  define sucintamente documentación web como cualquier forma deliberada y propositiva de preservar material publicado en ese medio, y distingue dos grandes géneros: micro y macro documentación. La pequeña escala emprendida por amateurs es micro archivar, a partir de necesidades de corto plazo, por una necesidad utilitaria para preservar un objeto de estudio en particular, como lo haría, por ejemplo,  un investigador o un estudiante al archivar los periódicos en versión digital en línea.

En contraste, macro archivar es un desarrollo de escala mayor que llevan a cabo instituciones con una especialización técnica y presupuesto a su disposición, con el fin de preservar materiales de interés para el patrimonio cultural en general. Aplica a grandes bibliotecas y museos que cuentan con equipo y software especializado.

El autor empieza por fijar un principio taxonómico para el material web, con dos características genéricas: es digital y se publica en internet. Puede clasificarse entonces como un subgrupo, por un lado un medio digital (junto con otros documentos electrónicos, consolas de juegos de computadora, CD-ROM/DVDs, etcétera) y por el otro lado, su existencia en internet, distribuido a través de una infraestructura de telecomunicaciones, mediante una serie de protocolos, hardware/software, etcétera que hacen posible una publicación con un sentido de transmisión, que está sucediendo simultáneamente en múltiples puntos.

En un análisis comprehensivo del material web como una unidad significante delimitada, se identifican cinco niveles analíticos, donde en un extremo se abarca todo el material que está presente en la red como un todo, y en el otro, la escala de un solo elemento, por ejemplo, una imagen o un hipervínculo en una página electrónica.

Una estratificación de cinco niveles el material a preservarse puede ser cualquier cosa desde la WWW como un todo a una “esfera web” a un sitio o un elemento en una página, siendo cada uno de estos cinco estratos un contexto mutuamente relacionado (WWW-esfera web- sitio web-página-web-elemento web).

Entre las diferentes capas del material documental una de las más importantes es la “esfera web”, conjunto de recursos digitales dinámicamente definidos distribuidos en múltiples sitios relacionados con un evento central, concepto o tema; el sitio web como unidad coherente de páginas, y una página electrónica individual.

El autor hace además una distinción entre material público y no-público, que resulta crítica en una investigación documental. En estas categorías se puede diferenciar según varias consideraciones:

1) Material no público o semi público: material documental mantenido en una intranet o sistema privado y que es accesible a un grupo reducido de personas; 2) material pre-público: bosquejos, diseños preliminares, versiones beta, borradores, dummies, etcétera; 3) material público que se ha publicado en otros medios como los impresos (periódicos, revistas, libros, bitácoras, etcétera) o se haya transmitido en estaciones convencionales de radio o televisión.

Especialmente en lo que respecta al periodo temprano de la historia de la WWW hay material preservado en medios no digitales, sin haber sido publicado pero que puede rastrearse desde la red almacenándose en otros medios, como los catálogos cinematográficos, entre muchos otros ejemplos.

Breve historia de la documentación web.

El simple acto de colocar un archivo de html en un servidor web conectado a internet para ser publicado, es ya de entrada una forma de preservación de un documento. La irrupción de la WWW en el mundo de los medios implicaba de entrada aunque con un alto componente arbitrario, la intención de preservar datos, documentos y archivos, hojas de cálculo, despliegues de pantalla, gráficas, etcétera, como respuesta a necesidades inmediatas. El quehacer académico documental no estaba animado entonces por una reflexión de lo realizado en el pasado ni se le consideraba como parte de un esfuerzo sistemático de salvaguardar los materiales de un patrimonio cultural digital.

Mucho de lo creado en esta primera fase está en poder de sus autores o desperdigado en internet, con varios ejemplos emblemáticos que ilustran esta circunstancia, como la primera pantalla web publicada por Tim Berners-Lee, en 1990, una reliquia extraviada.

Paradójicamente es este modelo amateur de documentación en la que se archiva gran parte de esa “prehistoria” de micro documentación que se suma a los documentos registrados en medios no digitales.

¿Bibliotecas estáticas de publicaciones digitales?

En el mismo periodo en que se documentaba de manera amateur por parte de individuos y pequeñas organizaciones, se fragua de manera concomitante un creciente profesionalismo e intenciones claramente formuladas de preservar la herencia cultural nacional publicada en internet.

El autor pone énfasis en la importancia de una innovación tecnológica toral en el desarrollo de la documentación web, los robots de búsqueda, que potencian las iniciativas de preservación documental.

Por ese entonces, a mediados de los noventa se formuló la idea de archivar virtualmente cualquier publicación de interés documental, sin importar su contenido o quién lo colocó en línea. Pero no sólo material similar a una publicación impresa, sino también el material dinámico multimedia.

Sin embargo, estas iniciativas emergen desde instituciones documentales como bibliotecas y hemerotecas, con criterios totalmente basados en la cultura de la biblioteconomía, al equiparar los documentos web con el material factible para ser impreso y encuadernado como los libros y los periódicos. Un ejemplo de esta aproximación es el Electronic Publications Pilot Project (EPPP) dirigido por la Biblioteca Nacional de Canadá en 1994, donde el criterio era seleccionar de todo documento web que tuviera la apariencia de publicación impresa, eran archivados y catalogados como tales, con los estándares convencionales de las bibliotecas públicas.

Más tarde esta misma institución los documentos en línea publicados en formatos como blogs y sitios web en general, son archivados con técnicas de selección y convenios de envíos de contenidos por parte de editores de publicaciones en internet relevantes para el archivo.

El Internet Archive fue creado en 1996 como organización no lucrativa, localizada en The Presidio, en San Francisco, Estados Unidos, con el propósito de preservar las colecciones históricas existentes en formato digital, y entre otros medios la web. Esta colección es construida con una estrategia de búsquedas en internet, subcontratada a una empresa privada, con criterios de vincular los datos y las estadísticas de rastreo de uso, es decir que se archiva lo que se vincula y lo que consumen los usuarios, de allí que la iniciativa sea transnacional de origen. La técnica de preservación empleada es la “instantánea” (snapshot), y cada ocho días es almacenado todo el material que se localiza mediante los buscadores con este método.

El Internet Archive dio inicio con un ejercicio bien delimitado, con la técnica basada en el evento, con las campañas presidenciales de 1996, en que se documentó todo lo vertido en los sitios web de los candidatos. Más allá de su “utilidad” estratégica, demostró la necesidad y potencial de la documentación web, en un momento en que su valor no era tan evidente.

Otros proyectos pioneros de preservación documental web es Kulturaw3, iniciado por la Real Biblioteca de Suecia, cuyo objetivo fundamental sería archivar todo lo relativo a este país y su cultura. Fue lanzado en 1996 con una primera cosecha documental en 1997, con la técnica de “instantánea”.

El archivo Pandora creado ese mismo año por la Biblioteca Nacional de Australia, con la técnica de selección con el enfoque de preservar “significativos sitios web de Australia y publicaciones en línea basadas en web”. Un limitado conjunto de sitios son seleccionados, archivados y catalogados, siendo una de las primeras iniciativas inspiradas en las colecciones de biblioteca, como el proyecto canadiense EPPP.

El Archivo Danés de Internet Netarchive.dk es una estrategia compartida entre la Biblioteca Universitaria del Estado y la Real Biblioteca, creado en 2005, luego de reformarse el fundamento constitucional.

En 2003 once de las más grandes bibliotecas nacionales de EE.UU. y el Internet Archive unieron fuerzas en la creación del Consorcio Internacional de Preservación de Internet. En 2004 el European Archive fue creado basado en la asociación entre bibliotecas, museos y otros órganos de preservación documental, que ha desarrollado desde entonces un circuito de conocimiento de las más recientes experiencias en la materia.

Una metodología dinámica, siempre subjetiva

El autor argumenta que una característica distintiva de archivar material publicado en web, independientemente de la estrategia del proceso, es una reconstrucción dinámicamente creada, la cadena de decisiones y criterios, incluso antes del arranque desde el URL de inicio, la selección entre las distintas estrategias y formas de archivar, en general y en detalle, implica que el documento archivado está basado en una decisión estrictamente subjetiva, por un individuo o institución.

Cuándo y desde dónde iniciar la selección y la ruta de búsqueda, y si serán incluidos o excluidos tipos específicos de archivos (imágenes, sonidos, flash, registro de chat o videoconferencia, hipervínculos activos, etcétera); si el material será recolectado de otros servidores, cómo será preservado este material; si será desde una perspectiva empírica y muy selectiva, o una planificada, de largo plazo, de escala regional, nacional o transnacional.

Aunque la problemática es la punta de un iceberg, se suma un elemento no menos relevante, que es el carácter cambiante y no estático del material que circula en la web, porque incluso los periódicos en línea con formato web podrían modificar sustancialmente o quitar de circulación un documento, y quedar disponible en versiones en cache o textos fantasmas del original, además de las deficiencias inherentes a la deliberada omisión en el proceso de selección. Hay sin embargo otras dos severas fuentes de error: las relacionadas con el tiempo, y los generados por problemas tecnológicos durante el proceso de documentar-archivar.

También destaca Brügger que el documento web está en riesgo de ser sujeto de la siguiente paradójica doble inconsistencia: por un lado el archivo no es exactamente como estaba realmente publicado originalmente en internet, porque en el proceso de guardar siempre se pierde algo. Por el otro lado, el archivo puede ser exactamente como nunca fue, porque siempre se obtiene algo diferente, siendo una gran paradoja que el documento preservado nunca es como la web “en vivo”, ya que el texto escrito, imágenes/gráficos, sonidos, imágenes dinámicas podrían faltar o algunas de las posibilidades de interactividad podrían no ser funcionales en la versión archivada.

Versiones de las versiones…

El proceso de archivar, en última instancia crea una versión única, pero no una copia del documento originalmente publicado, de lo cual se coligen dos consecuencias: se ha soslayado la relevancia de que un mismo sitio web “guardado” en distintos archivos en idéntica fecha y hora, difiere sustancialmente uno de otro.

La segunda consecuencia es que un documento nunca es la versión de un original y no se puede esperar encontrarlo en la forma en que fue publicado; tampoco se puede encontrar el original entre las distintas versiones, ni se puede reconstruir a partir de éstas.

La labor de los académicos especializados llevaría a un punto cercano a la crítica del texto, según la filología de manuscritos, en tanto que se trabajaría con versiones de un documento, en que las variantes son comparadas entre sí, en ausencia de algún original “autorizado” disponible. De allí que algunos de los métodos de la filología clásica del texto probablemente son relevantes para lo que Brügger y sus colegas llaman “filología web”, aunque es preciso, subraya, que debe ser analizado con la especificidad del material de medios incorporados en el documento web.

Al ahondar en el análisis el autor despliega una serie de características únicas a tomar en cuenta en el proceso de documentación:

–        Es un texto de varias capas, en el sentido de que puede ser examinado en niveles que se extienden desde el texto inmediatamente percibido (las unidades significantes que se ven y escuchan), hasta la variedad de elementos textuales subyacentes que no son percibidos de manea inmediata (el código fuente: HTML, XML, etcétera), así como las capas de la comunicación por internet (los modelos de protocolo TCP/IP, OSI o similar).

–        La escritura digital hace posible que el documento web archivado pueda ser continuamente re-escrito, en un sentido distinto al empleado tradicionalmente en los manuscritos, ya que la continua reescritura se da mayormente después de que el texto fue archivado, e incluso, en la perspectiva de una preservación documental de largo plazo, “migrar” a otros formatos.

–        La escritura digital permite en muchos casos comparar documentos archivados automáticamente.

–        Versiones idénticas del mismo material pueden existir en distintos archivos, muchas veces en sitios web pequeños y poco complicados, rara vez actualizados.

El futuro de la archivonomía web

Resulta imperativo el trabajo transdisciplinario entre las instituciones con iniciativas de preservación documental web y las comunidades de investigación de internet y establecer mecanismos de cooperación que no han sido aún establecidos.

La colaboración puede basarse en una variedad de formas, siendo tres las más obvias:

–        Las colaboraciones pueden se integradas en el día a día del quehacer académico en las operaciones del archivo web, por ejemplo al asociar al proyecto a un consejo asesor en que participen investigadores de internet y otros usuarios.

–        La colaboración puede ser ocasional, con relación a proyectos de investigación específicos o tareas concretas de archivar, por ejemplo, con investigadores que ya cooperan con instituciones que realizan programas de preservación documental web, en la planeación del proyecto de archivo, y no después de que se ha avanzado.

–        Estos dos tipos de colaboraciones pueden tener lugar en una escala global, con relación a proyectos transnacionales de investigación.

En lo que toca a la interacción entre los archivos y los investigadores se presentan tres desafíos que deben ser mencionados, advierte Brügger:

1) Debe ser iniciado un rastreo y preservación dirigidos de material heterogéneo que no ha sido hecho público, posiblemente con otros institutos dedicados a la preservación patrimonial como los museos.

2) Las instituciones dedicadas a la preservación documental web deben empezar a experimentar de manera más sistemática con las otras dos formas de archivo en la red: captura de pantallas y la entrega-distribución de material. Ambas tareas tienen la perspectiva de preservar tanto material como sea posible del patrimonio cultural de relevancia histórica y antropológica.

3) Las discusiones deben ser iniciadas de acuerdo con los alcances del software analítico utilizado en la web en vivo, que puedan ser aplicados al material archivado, teniendo en cuenta la composición específica de cada componente.

Finalmente, no menos trascendental es que la comunidad de investigadores de internet confronte a la brevedad el desafío de difundir el conocimiento sobre registro documental web tanto entre las otras disciplinas de las ciencias y humanidades (ciencia política, sociología, lingüística, literatura, artes, comunicación, historia, etcétera), tan sólo porque desde hace algunos años internet ha sido una parte integral de la infraestructura de comunicación de nuestras sociedades y el pensamiento contemporáneo.

Deja un comentario