Internet 2 & Tecnologías de la Información: el violín no hace la música



Descargar 101,98 Kb.
Fecha de conversión10.04.2017
Tamaño101,98 Kb.
Internet 2 & Tecnologías de la Información: el violín no hace la música

Autor: Diego Antona , DGSCA / UNAM. Versión del documento: 1.04

FECHA: 14/06/1999

Abstract

El desarrollo de la Web ha significado no sólo mejores herramientas y estándares para la documentación electrónica, sino también un aumento en la capacidad de transmisión de datos. Los proyectos que se afronten teniendo en cuenta esta última ventaja (I2) deben prestar atención a los dos primeros (herramientas y estándares); de otro modo se estará circulando por la más moderna autopista, pero con ruedas de madera. Este documento estudia los métodos actuales de producción en Internet, presenta líneas de trabajo y establece recomendaciones que satisfagan las necesidades presentes y futuras para la nueva autopista.

[ Somos conscientes de su expansión en la empresa privada, si encuentra una relación exitosa en su origen académico. ]

tabla de contenidos


tabla de contenidos 1

Introducción 1

Conceptos 2

Objetivos 4

Perspectiva 4

Marco previo 6

Defectos comunes en proyectos de internet 'HTML' 7

Sistemas de desarrollo en la WWW 13

Soporte de bases de datos en el desarrollo de la WWW 17

Estándares para la documentación electrónica 23

Herramientas 23

Conclusiones 24

ÍNDICE 27

Introducción



Conceptos





  • Entendemos por documentos, no sólo aquellos archivos de contenido textual: cuéntese como tales los recursos multimedia de una Biblioteca Digital.

[ Véase, para más detalles, el documento: Bibliotecas Digitales: criterios y planteamientos preliminares. ]

  • Entendemos por estándares para la documentación electrónica, aquellas prácticas establecidas cuyo fin último es, más que la creación de textos o recursos, la de información.

  • Por herramientas, nos referiremos a aquellos programas / aplicaciones que proporcionan, para un conjunto de documentos y datos, la mejor forma de ser servidos en internet.

  • Sistema hipermedia, es un conjunto coherente de documentos y herramientas, que logra de forma integrada y biunívoca (relaciones hipermedia) su función informativa. Una Biblioteca Digital es un sistema hipermedia. La Web debe serlo.

[ Es curioso ver la proliferación de 'pseudo Bibliotecas Digitales': bases de datos comerciales servidas del mismo modo en Internet. ]

Objetivos


Si nos fijamos como objetivo (a) producir los mejores documentos posibles, y (b) servirlos también de la mejor manera, cumpliremos con creces la labor de explotación de I2. No bastará con servir documentos o crear sitios Web: deben ser óptimos sistemas hipermedia.

Perspectiva


Los organismos académicos propietarios de los recursos tecnológicos, deben adquirir, dada su actividad investigadora y orientación docente, un papel pionero en las nuevas y mejores prácticas a adoptar, para convertirse en ejemplo y apoyo de la comunidad que crea la información, y desea tenerla disponible en el marco de la segunda Revolución Gutenberg que supone la Web. Es inexcusable su dedicación a las nuevas Tecnologías de la Información (IT), se cuente o no para ello de I2.

De otra parte, dado el desarrollo de software por parte de la empresa privada, la comunidad académica debe tener en sus miras una amplia explotación de recursos de dominio público. Se da la circunstancia de que estas herramientas surgen a su vez en ambientes académicos, son soportadas por miles de colaboradores alrededor del mundo y suponen, en el mayor número de casos, las mejores opciones de desarrollo para los proyectos.

En condiciones de economía emergente, puede producirse el riesgo de adquisición de tecnología, más que de desarrollo de la misma. Contándo con equipo y tecnología, no hay excusas para no ser desarrolladores, y es precisamente la co-participación en los estándares y herramientas de dominio público donde puede estar la misma clave al desarrollo tecnológico competitivo de las naciones.

[ Véase las recomendaciones de organismos como la UNESCO, o los planes universitarios. ]

[ El uso de herramientas de dominio público no significa obtener productos 'gratuitos'. La rentabilidad se da además al nivel de los costos de producción. ] Por citar, la universidad moderna, entra en el mismo juego de costos que la empresa privada; pero debe mantener una calidad de producción que está asegurada por la elección pública propuesta.

Marco previo


En esta sección analizaremos la situación de la producción tradicional en Internet. En las siguientes nos fijaremos en las mejores producciones documentales y en la forma adecuada de servirlas en la Web. Existe un número de inconsistencias que pudo afrontar la producción pasada, pero que no puede permitirse un sistema hipermedia ligado a la capacidad de transmisión de datos masiva.

Partiendo del old-fashioned HTML presentamos dos enfoques: formato del documento independiente versus construcción desde una base de datos, para integrar una propuesta, que ya adelantamos ecléctica.


Defectos comunes en proyectos de internet 'HTML'


La mayor parte de la WWW es una colección de recursos interrelacionados, ligados entre sí a través de páginas Web tradicionalmente marcadas con HTML. Sólo las páginas HTML pueden apuntar a otros recursos de la WWW, como imágenes, vídeo, sonido y texto. Cada recurso tiene, al menos, una dirección, conocida como URL (Universal Resource Locator), muy ligado al sistema de archivos de la máquina en la que reside (a menudo impone limitaciones en la longitud o en el uso de los caracteres). Esto hace que la portabilidad esté bastante comprometida.

A la WWW no le importa el tipo de sus componentes. Aunque HTML está definida por un DTD SGML, los documentos HTML raramente cumplen con la definición.

[ Bray -nota i en pág. 28 encontró en 1996, que apenas el 5% de 3 millones de documentos HTML estudiados, contenían la declaración

Dado el enfoque HTML, la mayoría de las herramientas están orientadas a la edición y creación de tales documentos. Muy poco se ha hecho para encontrar una herramienta de autor que considere la Web como una colección de nodos y ligas, y que trate HTML como un lenguaje de presentación, más que como un formato de almacenamiento.

Dada la simplicidad del HTML, no ha existido una preocupación en la calidad del contenido documental, y se ha enfocado más al diseño gráfico. Como veremos, la separación entre formato y contenido es necesaria para crear -y mantener- documentos de calidad. Únase a lo apuntado, la falta de rigor estructural misma de los documentos, aun cuando se haya intentado representar ésta desde distintas versiones del DTD HTML, y las limitaciones para representar mediante marcas de formato el sentido.

HTML se ha expandido con nuevas características, sobre todo de presentación, no de sentido: código ejecutable (p. ej. :Java y JavaScript, ActiveX) y hojas de estilo (Cascading Style Sheets - CSS). Estas características, mientras enriquecen las potencialidades de la Web, hacen que los documentos en sí sean más difíciles de leer, escribir y mantener.

El W3 Consortium, a la cabeza de la estandarización de la WWW, se ha quejado de que la simplicidad no se haya convertido en un objetivo, dado que las herramientas pueden ocuparse de limarlas. Por ejemplo, los archivos HTML con "frames" y "hojas de estilo" pueden ser difíciles de leer, pero editores WYSIWYG pueden utilizarse para mostrarlos y crearlos en un formato más legible.



La mayor parte de las herramientas de autor para la Web se han centrado en los archivos HTML como entidad principal. Estas herramientas han puesto poca (o ninguna) atención al hecho de que las páginas HTML son sólo una representación visual de entidades más abstractas y que, en un sitio Web, las entidades están interrelacionadas y la modificación de una entidad puede requerir cambios en otras. La lista que sigue subraya algunos de los problemas más comunes, consecuencia de usar un archivo HTML como la única metáfora para el sistema hipermedia de la WWW:


  • Consistencia. Desde que cada página es independiente, la información común a varias de ellas debe ser repetida, abriendo un potencial problema de consistencia.

[ Algunos servidores HTTP soportan "server-side includes", directivas hacia el servidor para reemplazar contenidos (encabezado o pie de página, por ejemplo) desde un archivo o de un programa ejecutables; esto solamente afronta parcialmente el problema de la consistencia pagando un alto precio en "performance", desde que la directiva es ejecutada cada vez que el nodo es solicitado. ]

  • Organización. La organización de un sitio Web tiene lugar en el mismo momento de la creación de las páginas HTML, sin ningún tipo de planificación previa. Reestructurar es una actividad costosa y requiere no sólo traslado de elementos, cortes, añadidos, renombrado, traslado o borrado de archivos y carpetas, sino tambien actualizar las ligas desde los archivos locales (y globales, desde otros sitios Web) que apuntaban a ellos. (Véase el documento en preparación: Metodología para la Estructura Física de Sitios Web en Entornos Multirecurso )

  • Navegación. Dado que la estructura navegacional está ya incluida en los archivos, es difícil modificarla.

  • Presentación. La información no está separada de su presentación

[ CSS intenta parcialmente resolver este problema, pero lo hace también al nivel de archivo. ] Si la presentación de un conjunto de páginas necesita cambiarse, esa información debe modificarse en base a cada uno de los archivos.

  • Integridad referencial. Cuando el URL de un recurso cambia, todos los enlaces que apuntan a él deben actualizarse. Este problema es común ambos niveles: el global, en el que el autor no tiene control sobre cuáles documentos de la red apuntan a la información local desde un sitio externo, y en el mismo local. En lo que sigue del documento, nos referiremos al nivel local, a menos que se diga lo contrario (Véase Metadatos, en Herramientas en pág. 23)



Sistemas de desarrollo en la WWW


Distintas aproximaciones han sido empleadas para separar la información de su organización y presentación:


  • Lenguajes de marcas distintos de HTML. Dado que HTML es más representacional que estructural, el sistema más empleado para conseguir lo segundo ha sido el SGML. Estándar gratuito establecido como norma ISO 8879 en 1986, el SGML permite al autor caracterizar la estructura de un conjunto de documentos, y reforzar su estructura.

[ Esto puede hacerse incluso con elementos multimedia: imágenes, audio y vídeo. ] Con filtros empleados ad-hoc (el documento presente es una prueba de ello), los archivos SGML pueden convertirse en HTML. La ventaja es que la estructura de la información así publicada se mantiene separada de su presentación. De hecho, si el usuario necesita cambiar la apariencia, sólo debe modificar el filtro, no los documentos generados. De ahí, la pregunta errónea: ¿cuál es el formato con más futuro: PDF, RTF, PostScript...? SGML es la respuesta, pues permite obtener cualquier otro. Así trabaja Sun Microsystems, Novell, Microsoft o Elsevier, en sus publicaciones electrónicas; desde una enciclopedia multimedia, hasta manuales técnicos o sitios Web.

[ Para proyectos académicos véase: http://www.oasis-open.org/cover/acadapps.html . ]

La crítica a los formatos que han venido siendo propuestos: LATEX, formatos de procesadores de texto, RTF, etc., o el mismo SGML, es el considerar un sitio web como documentos de texto + reglas de transformación hacia HTML. La desventaja principal de este acercamiento es enfocarse a los documentos en su estructura linear, como libros o artículos, más que como estructuras altamente conectadas de objetos, típicas en aplicaciones hipermedia (Dejamos la solución en suspenso hasta llegar a Nuestra Propuesta)


  • Publicación directa de documentos SGML. A través de visores (en forma de plug-in, como Panorama Free de SoftQuad). Se sirven documentos "nativos" SGML, con hojas de estilo que se ocupan de la presentación. (De hecho, este documento también puede verlo de esta manera, si cuenta con el plug-in)

  • Conversión 'on-the-fly' HTML de documentos SGML. Soluciones comerciales como DynaWebde Inso, permiten realizar la conversión hacia HTML de los documentos SGML en el momento de la petición. La interfaz Web proporciona los elementos navegacionales, y se incluyen otras herramientas derivadas de las ventajas de los archivos SGML. Muchas Bibliotecas Digitales, entre ellas la de Berkeley, usan extensivamente esta solución.

  • Sistemas basados en macroprocesadores. Similar a los procedimientos de marcado SGML descritos, la información se almacena en un formato adecuado, y un preprocesador convierte los archivos a HTML. Un macroprocesador flexible puede asistir en el desarrollo, reduciendo inconsistencias y separando el contenido de la estructura presentacional y navegacional. El problema está en la inversión de implementación del sistema (estructura de los archivos, marcas, y "engine"), y en el peligro de encontrarse con un conjunto de archivos nada portable, pudiendo lograrse resultados similares a los de la aproximación SGML.

  • Sistemas hipermedia. El éxito de la WWW ha conseguido que los desarrolladores de sistemas hipermedia adapten sus sistemas para generar páginas HTML. La solución comercial clásica es Microcosm.

  • El recién llegado: XML. Con el necesario advenimiento de XML (todo lo bueno de SGML + las potencialidades de HTML) implementados en los navegadores, acaban los problemas de plug-ins. Cualquier documento SGML es XML (aunque no es cierto lo contrario). El único problema, el formato de la hoja de estilos XSL, todavía no tiene un consenso y tanto Microsoft como Netscape, están intentando llevar el agua a su molino en sus más recientes navegadores. Cuando pase la tormenta comercial, la Web habrá dado un paso de gigante en la disposición de información y servicios.

En ninguna de las aproximaciones mencionadas la información reside en una base de datos.


Soporte de bases de datos en el desarrollo de la WWW


Metodologías hipermedia como Object Oriented Hypermedia Design Metodology (OOHDM) -nota iii en pág. 28 y Relationship Management Methodology (RRM) -nota ii en pág. 28 acentúan -cómo no- la separación del contenido de su presentación. Ambas metodologías proponen que un sistema hipermedia, por ejemplo, una Biblioteca Digital, sea desarrollado en tres etapas: descripción de la información que contendrá; descripción de cómo dicha información será presentada al usuario; y finalmente, descripción de cómo la información será ligada una con otra para propósitos navegacionales.

Aunque un sitio Web esté compuesto de distintos tipos de media, en general, su estructura es estática (desde el punto de vista del navegante).

[ "Scripts" CGI, JavaScript, PHP, etc., añaden la posibilidad de tener sitios Web altamente interactivos. Con todo, la mayoría de los sitios web se componen de páginas HTML estáticas, actualizadas de cuando en cuando por sus autores. ]

Actualmente la WWW es un lenguaje de hipertexto enfocado a la presentación. una vez que la página es creada, es difícil diferenciar entre los distintos tipos de información que contiene o poder reutilizarlos. Un sitio Web generado desde una base de datos -y no nos olvidamos de XML para poder realizar también dichas funciones- puede incorporar en el momento de la instanciación, tanto su apariencia como contenido. Si el contenido de la base de datos cambia, el sitio puede seguir actualizado automáticamente.

[ Véase donde la galería es creada colaborativamente; o la conocida revista electrónica . Recientemente en México, la página de Radio Centro. ]

Los requerimientos para el desarrollo de la Web pueden dividirse en tres tipos, cada uno de ellos soporta uno de los tipos básicos de información envueltos en un sistema hipermedia: texto, relaciones y objetos:




  • Primitivas de bases de datos de texto. El texto es ubicuo el la Web. El avance de SGML es fundamental para caracterizar estructura y contenido. Las ventajas de las bases de datos de texto son:

  • Autoría. El autor debe tener presente la estructura de una porción de texto, y no su presentación. Cada tipo de texto puede regirse por un particular DTD . El marcado estructural puede ser traducido a cualquier tipo de presentación que sea necesaria.

  • Transformación. La transformación de marcas SGML a marcas HTML puede ser parte del sistema de la base de datos o un proceso externo. Tales transformaciones pueden ser posibles a través de herramientas como Omnimark o SP . Por ejemplo, si tenemos una base de datos con documentos SGML que siguen un DTD específico para cartas comerciales, podemos escribir un programa para extraer de una carta comercial el nombre del remitente, del destinatario, la fecha y los primeros 50 caracteres, y presentar el resultado en una página.

  • Base de datos relacional. Las relaciones son fundamentales para ligar objetos, y el modelo entidades-relaciones ha sido usado en con éxito en el desarrollo hipermedia -nota iv en pág. 28-nota v en pág. 28. Una base de datos relacional se usa precisamente para mantener esas relaciones.

  • Bases de datos orientadas a objetos. Para los restantes tipos de información (imágenes, vídeos, JavaScript, etc.), una base de datos orientada a objetos parece ser la mejor opción. Por ejemplo, considere un conjunto de imágenes de manuscritos, parte de una Biblioteca Digital. Estas imagénes, en "calidad de archivo" están en formato tiff (mucho más pesadas que las de formato gif y jpeg que proporciona la web). En este escenario en particular, una clase abstracta imagen tiene tres métodos principales: obten_thumbnail, obten_gif, y obten_jpeg, y entonces las transformaciones de tiff pueden ser descritas como métodos del objeto. Así el objeto imagenpuede tener métodos baja_resolucion, thumbnail

[ En las imágenes sólo pueden recibirse en formato gif y jpeg. No es una base de datos la que realiza las transformaciones. Una sóla vez obtiene el thumbnail y lo guarda en una carpeta anexa. El motor es un pequeño script PHP embebido en la página, que invoca a un programa de transformación de imágenes en el servidor. En los sistemas de software, los métodos se ejecutan run-time, mientras que en un sistema hipermedia, los métodos a menudo se ejecutan durante la instanciación, lo que aquí significa (a) antes del run-time, si el sistema final es una colección de páginas web, o (b) run-time si la aplicación está orientada a un modo altamente interactivo.], blanco_y_negro.
Aunque un tipo de base de datos puede servir para modelizar las otras, es importante hacer notar que cada tipo de base de datos es más útil que otro para cada uno de los distintos tipos de datos. Por ejemplo, una base de datos de texto proporcionará mejores operaciones de búsqueda textual que una orientada a objetos. Además, a menudo nos encontramos con "legacy data" y el tipo de datos ya está determinado.

Estándares para la documentación electrónica


Véase: Diego Antona, Bibliotecas Digitales: criterios y planteamientos preliminares

Herramientas


Véase: Diego Antona, Biblioteca Digital de Red Escolar

Conclusiones


El desarrollo de la WWW requiere soporte de base de datos. La heterogeneidad de la información y recursos, por ejemplo, de una Biblioteca Digital requiere de una combinación de modelos de datos que incluyen los textuales, los relacionales y los orientados a objetos.

La elección de los mejores estándares documentales, como el SGML/XML, y la mejor forma de servir elementos multimedia -con la ventaja de un mayor ancho de banda proporcionada por Internet 2- cumplen con los requisitos de un óptimo sistema hipermedia (creemos haber tenido presentes cada uno de los caveats de la producción tradicional). En éste, los elementos se hallan referenciados en bases de datos, autónomamente caracterizados por metadatos, disponibles a través de páginas dinámicas que realizan consultas a bases de datos y ejecutan procesos de transformación en el lado del servidor.iiiiiiivv


GLOSARIO


CSS

Cascading StyleSheets

DTD

Document Text Definition, que formalmente describe la estructura de un tipo de documento. Entre los más conocidos están el TEI, empleado en el marcado de textos literarios, y el EAD, para la descripción de archivos.



PHP

PHP is a server-side, cross-platform, HTML embedded scripting language. http://www.php.net

ÍNDICE




i Tim Bray. Measuring the Web. Ed. Elsevier. W3 Consortium, Mayo, 1996. pp. 993-1005.

ii T. Isakowitz, E. A. Stohr, y P. Balasubramanian. "RMM: A methodology for structured hypermedia design." Communications of the ACM, 38 (8) (Agosto 1995), pp. 34-44.

iii Daniel Schwabe y Gustavo Rossi. "The object-oriented hypermedia design model." Communications of the ACM, 38 (8) (Agosto 1995), pp. 45-46.

iv D. Lange. "An Object-Oriented Design Method for Hypermedia Information Systems." Proceedings of the 28th Hawaii International Conference on System Sciences, (Enero 1995), .

v Jean paoli. "Extending the Web´s tag set using SGML: Authoring new tags with GrifSymposia." Proceedings of the 5th International WWW Conference, W3 Consortium, Elsevier (Mayo 1996), pág. 1095-1103.


Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©absta.info 2019
enviar mensaje

    Página principal