Archive for the inteligencia colectiva Category

La privacidad en los tiempos del algoritmo Big Brother reloaded

Posted in CIENCIA Y TECNOLOGÍA, comunidades virtuales, inteligencia colectiva, redes sociales, TIC with tags , , , , , , , , on junio 16, 2017 by zewx

privacidad_online

15 de junio de 2017. La privacidad en las redes electrónicas, llamadas en corto “redes sociales”, se encuentra recientemente bajo la lupa en centros de estudios académicos y organizaciones civiles, pero al parecer a los miles de millones de usuarios los tiene sin cuidado, mientras la miel siga fluyendo de sus dispositivos favoritos, muy contentitos seguirán poniéndose como tiro al blanco del llamado micro-marketing basado en minería de datos.

Desde hace unos cuantos años quien no esté en las redes sociales, prácticamente “no existe”. Por supuesto son falacias del mundo transposmoderno, donde conviven situaciones y actitudes por lo menos eclécticas, con múltiples combinaciones de “necesidades” fantasmales creadas por las grandes empresas y consorcios multinacionales, con el uso de las nuevas Tecnologías de Información y Comunicación (TIC) el negociazo del siglo XXI, en el que más vale estar conectados o, sencillamente no estás… “Me conecto, luego existo”, diría un filósofo neocartesiano.

Todos hemos escuchado que gracias a las nuevas tecnologías cualquiera se puede comunicar con quien sea, todo el tiempo, estén donde estén, claro, siempre y cuando se cuente con un aparato, un plan o crédito suficiente para estar “conectado todo el tiempo”, a sabiendas de que hay trucos para no estar, aunque algunos son para verdaderos iniciados.

Hoy parece importar a pocos si son rehenes voluntarios de acosadores domésticos o laborales, o incluso potenciales víctimas del crimen, pero también de las eternas actualizaciones y de la obsolescencia programada, tanto en equipos como en aplicaciones que, no obstante ser “gratuitas”, cobran su jugosa cuota de datos e información personal de los usuarios e incluso contactos, que encantados con este flautista de Hamelin digital, no solo se hiperconectan sino que orondos brindan su localización para que todo el mundo se entere dónde se encuentran y qué hacen en todo momento, con lujo de imágenes y hasta videos “en tiempo real”.

Los servicios de Google, y la reina de las redes, Facebook -que también posee Instagram, WhatsApp y Oculus, entre decenas de otras empresas menos popularizadas-, de manera muy inteligente disponen de poderosos algoritmos de minería de datos, para vincular todos los hábitos personales y de grupo, con la maravillosa herramienta que encuentra en segundos lo que se desea, y que incluso a veces pareciera adivinar el pensamiento, y poco a poco las pantallas chicas o grandes se ven sobrepobladas con anuncios de productos y servicios de su preferencia, “¡qué chistoso!”, exclaman desde las abuelas hasta los nietecitos en sus flamantes iPads, ante la aburrición de los millenials, que exigen ir “al siguiente nivel”.

Sin embargo, los casos que han salido a la luz, tanto de víctimas de acoso, actos criminales o de la benévola publicidad digital, ponen al descubierto estrategias de marketing que aunque son aceptadas tácitamente por las personas, al validar las “cookies” con “me gusta” y vínculos compartidos que pocos se detienen a analizar, o desinstalar, son por lo menos antiéticas, según analistas y expertos.

Uno de esos casos se registró a finales de abril de 2017 en Australia, con la filtración de un documento interno de Facebook, publicado en The Australian, en el cual esta mega empresa ofreció a un grupo de anunciantes de ese país la posibilidad de llegar a casi 6 y medio millones de usuarios adolescentes australianos y neozelandeses, en momentos de vulnerabilidad emocional y psicológica, por sus estados emocionales basados en palabras como “inútil”, “estrés”, “inseguro”, “derrotado”, “ansioso” y “fallido”.

La compañía de Zuckerberg se justificó pero no admitió acto antiético, y recibió una carta firmada por organizaciones civiles de más de doce países (incluido México, con SonTusDatos Artículo 12, A.C.), para exigir una explicación satisfactoria, ante la evidencias de tácticas de mercadeo emocional abusivo. Algunos ejecutivos dieron entrevistas poco convincentes, ante estudios realizados por especialistas, como Tom Oswald y Saleem Alhabash, de la Universidad Estatal de Michigan, que han demostrado la relación entre el uso de las redes sociales y el alcoholismo entre adolescentes, “quienes tienen una necesidad particular de motivación en este momento particular y darles mensajes relacionados exactamente con lo que sienten, el retorno de inversión es cuantioso”.

En los últimos años, Facebook adopta herramientas que incluyen técnicas como el neuromarketing y el desarrollo de investigación biométrica que incorpora pruebas y análisis de las reacciones corporales y emocionales, como las respuestas del cerebro, corazón, movimientos oculares y memoria, con la adquisición y alianza con empresas especializadas en el rastreo y diseño de algoritmos orientados al mercadeo. Tal es el caso de Datalogix, Epsilon, BlueKai y Acxiom, esta última con 23 mil servidores que almacenan 1,500 puntos de datos por persona de 500 millones de consumidores activos en el mundo.

Está documentado ampliamente que estas tácticas de abuso empleadas por Facebook a través de estas alianzas estratégicas, redundan en el cruce de bases de datos que se incorporan en línea y fuera de Internet, y que dan a cada usuario una clave, con la técnica denominada como “hash”, algo así como un CURP, ya que cada vez más empresas y organizaciones registran los datos de sus clientes en bases de datos, incluso registros públicos, que los mismos consumidores están dispuestos a proporcionar en una modalidad del crowdsourcing, por las promociones y membresías que se ofrecen, al proporcionar sus correos electrónicos y otros datos personales, que son comparados con los perfiles de Facebook, Instagram, Google, entre otras redes, en lo que se denomina database marketing, con la economía de “likes” y las acciones para compartir.

Las personas diligentemente no solo comprometen sus gustos y situaciones, sino también los de sus conocidos, amigos y seguidores, y viceversa: si un usuario no aporta información suficiente en su perfil, sus amistades lo harán, con la misma mecánica de “gustar y compartir”, creándose un enriquecido entorno de mercadeo para colocar publicidad de precisión, con 52 dos mil categorías únicas, específicas y de terceros.

Con todo, muchos usuarios no ven riesgos en estas prácticas, y se jactan de disfrutar de nubes de datos que facilitan sus actividades de consumo, pero ¿dirían lo mismo siendo víctimas de criminales al acecho que pueden penetrar o comprar muy fácilmente dichos datos? ¿Qué opinan de las campañas de mentiras que pueden inducir los resultados de una elección?

Fuentes consultadas:

Wired / Get Ready for the Next Big Privacy Backlash Against Facebook / Nitasha Tiku

Silicon BeatNonprofits urge Facebook to realease research targeting “insecure” teens / Queenie Wong

Propublica / Facebook Doesn’t Tell Users Everything It Really Knows About Them / Julia Angwin, Terry Parris Jr. y Surya Mattu

Lifehacker / How Facebook Uses Your Data to Target Ads, Even Offline / / Thorin Klosowski

The New York Times / Mapping and sharing, the consumer genome / Natasha Singer

 

En busca del método para la investigación documental web.

Posted in CIENCIA Y TECNOLOGÍA, comunidades virtuales, inteligencia colectiva, internet on agosto 23, 2012 by zewx

Por Alfonso Esparza C.

En el recorrido por el magnífico volumen de ensayos The Handbook of Internet Studies, editado en 2011 por Mia Consalvo y Charles Ess, trabajos como el de Niels Brügger “Web archiving: between past, present and future” cobran especial interés por su sistemática insistencia en la necesidad de un trabajo transdisciplinario que integre necesidades y experiencias en un modelo de trabajo creativo, en que tendrían un rol de primer orden las instituciones de preservación documental con programas y proyectos de documentación digital en proceso, para unificar iniciaivas, compartir experiencias, y evitar la duplicidad de funciones compatibles y factibles para ser compartidas, y sobre todo, no cometer errores de método que tienen un alto costo.

En el camino hacia la consolidación de las investigaciones de internet como objeto de estudio el ensayo de Brügger propone como punto de partida considerar al documento web como medio y como texto. La pregunta metodológica es si un nuevo tipo de documento debe ser tratado de una manera distinta de otros medios y textos. Para el autor la respuesta es afirmativa: en primer lugar porque se caracteriza por ser dinámico, efímero, cambiante, fundamentalmente diferente de los llamados medios masivos convencionales, a los que puede integrar en su contenido, y requiere nuevos métodos de investigación.

Estrategias de documentación web

Brügger  define sucintamente documentación web como cualquier forma deliberada y propositiva de preservar material publicado en ese medio, y distingue dos grandes géneros: micro y macro documentación. La pequeña escala emprendida por amateurs es micro archivar, a partir de necesidades de corto plazo, por una necesidad utilitaria para preservar un objeto de estudio en particular, como lo haría, por ejemplo,  un investigador o un estudiante al archivar los periódicos en versión digital en línea.

En contraste, macro archivar es un desarrollo de escala mayor que llevan a cabo instituciones con una especialización técnica y presupuesto a su disposición, con el fin de preservar materiales de interés para el patrimonio cultural en general. Aplica a grandes bibliotecas y museos que cuentan con equipo y software especializado.

El autor empieza por fijar un principio taxonómico para el material web, con dos características genéricas: es digital y se publica en internet. Puede clasificarse entonces como un subgrupo, por un lado un medio digital (junto con otros documentos electrónicos, consolas de juegos de computadora, CD-ROM/DVDs, etcétera) y por el otro lado, su existencia en internet, distribuido a través de una infraestructura de telecomunicaciones, mediante una serie de protocolos, hardware/software, etcétera que hacen posible una publicación con un sentido de transmisión, que está sucediendo simultáneamente en múltiples puntos.

En un análisis comprehensivo del material web como una unidad significante delimitada, se identifican cinco niveles analíticos, donde en un extremo se abarca todo el material que está presente en la red como un todo, y en el otro, la escala de un solo elemento, por ejemplo, una imagen o un hipervínculo en una página electrónica.

Una estratificación de cinco niveles el material a preservarse puede ser cualquier cosa desde la WWW como un todo a una “esfera web” a un sitio o un elemento en una página, siendo cada uno de estos cinco estratos un contexto mutuamente relacionado (WWW-esfera web- sitio web-página-web-elemento web).

Entre las diferentes capas del material documental una de las más importantes es la “esfera web”, conjunto de recursos digitales dinámicamente definidos distribuidos en múltiples sitios relacionados con un evento central, concepto o tema; el sitio web como unidad coherente de páginas, y una página electrónica individual.

El autor hace además una distinción entre material público y no-público, que resulta crítica en una investigación documental. En estas categorías se puede diferenciar según varias consideraciones:

1) Material no público o semi público: material documental mantenido en una intranet o sistema privado y que es accesible a un grupo reducido de personas; 2) material pre-público: bosquejos, diseños preliminares, versiones beta, borradores, dummies, etcétera; 3) material público que se ha publicado en otros medios como los impresos (periódicos, revistas, libros, bitácoras, etcétera) o se haya transmitido en estaciones convencionales de radio o televisión.

Especialmente en lo que respecta al periodo temprano de la historia de la WWW hay material preservado en medios no digitales, sin haber sido publicado pero que puede rastrearse desde la red almacenándose en otros medios, como los catálogos cinematográficos, entre muchos otros ejemplos.

Breve historia de la documentación web.

El simple acto de colocar un archivo de html en un servidor web conectado a internet para ser publicado, es ya de entrada una forma de preservación de un documento. La irrupción de la WWW en el mundo de los medios implicaba de entrada aunque con un alto componente arbitrario, la intención de preservar datos, documentos y archivos, hojas de cálculo, despliegues de pantalla, gráficas, etcétera, como respuesta a necesidades inmediatas. El quehacer académico documental no estaba animado entonces por una reflexión de lo realizado en el pasado ni se le consideraba como parte de un esfuerzo sistemático de salvaguardar los materiales de un patrimonio cultural digital.

Mucho de lo creado en esta primera fase está en poder de sus autores o desperdigado en internet, con varios ejemplos emblemáticos que ilustran esta circunstancia, como la primera pantalla web publicada por Tim Berners-Lee, en 1990, una reliquia extraviada.

Paradójicamente es este modelo amateur de documentación en la que se archiva gran parte de esa “prehistoria” de micro documentación que se suma a los documentos registrados en medios no digitales.

¿Bibliotecas estáticas de publicaciones digitales?

En el mismo periodo en que se documentaba de manera amateur por parte de individuos y pequeñas organizaciones, se fragua de manera concomitante un creciente profesionalismo e intenciones claramente formuladas de preservar la herencia cultural nacional publicada en internet.

El autor pone énfasis en la importancia de una innovación tecnológica toral en el desarrollo de la documentación web, los robots de búsqueda, que potencian las iniciativas de preservación documental.

Por ese entonces, a mediados de los noventa se formuló la idea de archivar virtualmente cualquier publicación de interés documental, sin importar su contenido o quién lo colocó en línea. Pero no sólo material similar a una publicación impresa, sino también el material dinámico multimedia.

Sin embargo, estas iniciativas emergen desde instituciones documentales como bibliotecas y hemerotecas, con criterios totalmente basados en la cultura de la biblioteconomía, al equiparar los documentos web con el material factible para ser impreso y encuadernado como los libros y los periódicos. Un ejemplo de esta aproximación es el Electronic Publications Pilot Project (EPPP) dirigido por la Biblioteca Nacional de Canadá en 1994, donde el criterio era seleccionar de todo documento web que tuviera la apariencia de publicación impresa, eran archivados y catalogados como tales, con los estándares convencionales de las bibliotecas públicas.

Más tarde esta misma institución los documentos en línea publicados en formatos como blogs y sitios web en general, son archivados con técnicas de selección y convenios de envíos de contenidos por parte de editores de publicaciones en internet relevantes para el archivo.

El Internet Archive fue creado en 1996 como organización no lucrativa, localizada en The Presidio, en San Francisco, Estados Unidos, con el propósito de preservar las colecciones históricas existentes en formato digital, y entre otros medios la web. Esta colección es construida con una estrategia de búsquedas en internet, subcontratada a una empresa privada, con criterios de vincular los datos y las estadísticas de rastreo de uso, es decir que se archiva lo que se vincula y lo que consumen los usuarios, de allí que la iniciativa sea transnacional de origen. La técnica de preservación empleada es la “instantánea” (snapshot), y cada ocho días es almacenado todo el material que se localiza mediante los buscadores con este método.

El Internet Archive dio inicio con un ejercicio bien delimitado, con la técnica basada en el evento, con las campañas presidenciales de 1996, en que se documentó todo lo vertido en los sitios web de los candidatos. Más allá de su “utilidad” estratégica, demostró la necesidad y potencial de la documentación web, en un momento en que su valor no era tan evidente.

Otros proyectos pioneros de preservación documental web es Kulturaw3, iniciado por la Real Biblioteca de Suecia, cuyo objetivo fundamental sería archivar todo lo relativo a este país y su cultura. Fue lanzado en 1996 con una primera cosecha documental en 1997, con la técnica de “instantánea”.

El archivo Pandora creado ese mismo año por la Biblioteca Nacional de Australia, con la técnica de selección con el enfoque de preservar “significativos sitios web de Australia y publicaciones en línea basadas en web”. Un limitado conjunto de sitios son seleccionados, archivados y catalogados, siendo una de las primeras iniciativas inspiradas en las colecciones de biblioteca, como el proyecto canadiense EPPP.

El Archivo Danés de Internet Netarchive.dk es una estrategia compartida entre la Biblioteca Universitaria del Estado y la Real Biblioteca, creado en 2005, luego de reformarse el fundamento constitucional.

En 2003 once de las más grandes bibliotecas nacionales de EE.UU. y el Internet Archive unieron fuerzas en la creación del Consorcio Internacional de Preservación de Internet. En 2004 el European Archive fue creado basado en la asociación entre bibliotecas, museos y otros órganos de preservación documental, que ha desarrollado desde entonces un circuito de conocimiento de las más recientes experiencias en la materia.

Una metodología dinámica, siempre subjetiva

El autor argumenta que una característica distintiva de archivar material publicado en web, independientemente de la estrategia del proceso, es una reconstrucción dinámicamente creada, la cadena de decisiones y criterios, incluso antes del arranque desde el URL de inicio, la selección entre las distintas estrategias y formas de archivar, en general y en detalle, implica que el documento archivado está basado en una decisión estrictamente subjetiva, por un individuo o institución.

Cuándo y desde dónde iniciar la selección y la ruta de búsqueda, y si serán incluidos o excluidos tipos específicos de archivos (imágenes, sonidos, flash, registro de chat o videoconferencia, hipervínculos activos, etcétera); si el material será recolectado de otros servidores, cómo será preservado este material; si será desde una perspectiva empírica y muy selectiva, o una planificada, de largo plazo, de escala regional, nacional o transnacional.

Aunque la problemática es la punta de un iceberg, se suma un elemento no menos relevante, que es el carácter cambiante y no estático del material que circula en la web, porque incluso los periódicos en línea con formato web podrían modificar sustancialmente o quitar de circulación un documento, y quedar disponible en versiones en cache o textos fantasmas del original, además de las deficiencias inherentes a la deliberada omisión en el proceso de selección. Hay sin embargo otras dos severas fuentes de error: las relacionadas con el tiempo, y los generados por problemas tecnológicos durante el proceso de documentar-archivar.

También destaca Brügger que el documento web está en riesgo de ser sujeto de la siguiente paradójica doble inconsistencia: por un lado el archivo no es exactamente como estaba realmente publicado originalmente en internet, porque en el proceso de guardar siempre se pierde algo. Por el otro lado, el archivo puede ser exactamente como nunca fue, porque siempre se obtiene algo diferente, siendo una gran paradoja que el documento preservado nunca es como la web “en vivo”, ya que el texto escrito, imágenes/gráficos, sonidos, imágenes dinámicas podrían faltar o algunas de las posibilidades de interactividad podrían no ser funcionales en la versión archivada.

Versiones de las versiones…

El proceso de archivar, en última instancia crea una versión única, pero no una copia del documento originalmente publicado, de lo cual se coligen dos consecuencias: se ha soslayado la relevancia de que un mismo sitio web “guardado” en distintos archivos en idéntica fecha y hora, difiere sustancialmente uno de otro.

La segunda consecuencia es que un documento nunca es la versión de un original y no se puede esperar encontrarlo en la forma en que fue publicado; tampoco se puede encontrar el original entre las distintas versiones, ni se puede reconstruir a partir de éstas.

La labor de los académicos especializados llevaría a un punto cercano a la crítica del texto, según la filología de manuscritos, en tanto que se trabajaría con versiones de un documento, en que las variantes son comparadas entre sí, en ausencia de algún original “autorizado” disponible. De allí que algunos de los métodos de la filología clásica del texto probablemente son relevantes para lo que Brügger y sus colegas llaman “filología web”, aunque es preciso, subraya, que debe ser analizado con la especificidad del material de medios incorporados en el documento web.

Al ahondar en el análisis el autor despliega una serie de características únicas a tomar en cuenta en el proceso de documentación:

–        Es un texto de varias capas, en el sentido de que puede ser examinado en niveles que se extienden desde el texto inmediatamente percibido (las unidades significantes que se ven y escuchan), hasta la variedad de elementos textuales subyacentes que no son percibidos de manea inmediata (el código fuente: HTML, XML, etcétera), así como las capas de la comunicación por internet (los modelos de protocolo TCP/IP, OSI o similar).

–        La escritura digital hace posible que el documento web archivado pueda ser continuamente re-escrito, en un sentido distinto al empleado tradicionalmente en los manuscritos, ya que la continua reescritura se da mayormente después de que el texto fue archivado, e incluso, en la perspectiva de una preservación documental de largo plazo, “migrar” a otros formatos.

–        La escritura digital permite en muchos casos comparar documentos archivados automáticamente.

–        Versiones idénticas del mismo material pueden existir en distintos archivos, muchas veces en sitios web pequeños y poco complicados, rara vez actualizados.

El futuro de la archivonomía web

Resulta imperativo el trabajo transdisciplinario entre las instituciones con iniciativas de preservación documental web y las comunidades de investigación de internet y establecer mecanismos de cooperación que no han sido aún establecidos.

La colaboración puede basarse en una variedad de formas, siendo tres las más obvias:

–        Las colaboraciones pueden se integradas en el día a día del quehacer académico en las operaciones del archivo web, por ejemplo al asociar al proyecto a un consejo asesor en que participen investigadores de internet y otros usuarios.

–        La colaboración puede ser ocasional, con relación a proyectos de investigación específicos o tareas concretas de archivar, por ejemplo, con investigadores que ya cooperan con instituciones que realizan programas de preservación documental web, en la planeación del proyecto de archivo, y no después de que se ha avanzado.

–        Estos dos tipos de colaboraciones pueden tener lugar en una escala global, con relación a proyectos transnacionales de investigación.

En lo que toca a la interacción entre los archivos y los investigadores se presentan tres desafíos que deben ser mencionados, advierte Brügger:

1) Debe ser iniciado un rastreo y preservación dirigidos de material heterogéneo que no ha sido hecho público, posiblemente con otros institutos dedicados a la preservación patrimonial como los museos.

2) Las instituciones dedicadas a la preservación documental web deben empezar a experimentar de manera más sistemática con las otras dos formas de archivo en la red: captura de pantallas y la entrega-distribución de material. Ambas tareas tienen la perspectiva de preservar tanto material como sea posible del patrimonio cultural de relevancia histórica y antropológica.

3) Las discusiones deben ser iniciadas de acuerdo con los alcances del software analítico utilizado en la web en vivo, que puedan ser aplicados al material archivado, teniendo en cuenta la composición específica de cada componente.

Finalmente, no menos trascendental es que la comunidad de investigadores de internet confronte a la brevedad el desafío de difundir el conocimiento sobre registro documental web tanto entre las otras disciplinas de las ciencias y humanidades (ciencia política, sociología, lingüística, literatura, artes, comunicación, historia, etcétera), tan sólo porque desde hace algunos años internet ha sido una parte integral de la infraestructura de comunicación de nuestras sociedades y el pensamiento contemporáneo.