Sindicación de Contenidos

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 54

Instituto Tecnolgico de Acapulco

PROGRAMACIN WEB
PROFR: M.A. RICARDO FLORES OLIVEROS

Hora: 11:00 12:00 HRS.


Aula: 711

SINDICACIN DE CONTENIDOS

PGINA 1 DE 54

ELABORADO POR:

CARRILLO CALLEJA ERICK JERZAIN


LUCENA ROMERO MARCOS
POLANCO BOLAOS CARLA
BEATRIZ

NDICE
RESUMEN

INTRODUCCIN

IDENTIFICACIN DEL PROBLEMA

Bases tecnolgicas de la sindicacin de contenidos


La familia de lenguajes XML
Tipologa funcional de la familia de lenguajes XML
XML
XSLT
DTD
XSD Schema
XPath
XLink
XPointer

7
7
8
9
11
12
13
13
14
14

La sindicacin de contenidos
Orgenes de la sindicacin
Definicin del trmino
Propiedades y caractersticas de la sindicacin
Funcionamiento de la sindicacin

14
15
17
21
23

Los formatos de sindicacin


Atom
Estructura del formato Atom
Extensibilidad de Atom
Ventajas e inconvenientes del formato Atom

25
26
27
33
33
PGINA 2 DE 54

RSS 1.0 RDF


Estructura del formato RSS1.0 RDF
Apertura y cierre del formato
Elementos de descripcin del canal, <channel></channel>
Elementos de item
Extensibilidad de RSS1.0 RDF
Mdulo Dublin Core
Mdulo Syndication
Mdulo PRISM
Ventajas e inconvenientes del formato RSS1.0

34
34
35
35
37
37
38
39
40
41

RSS 2.0

42
43
43
43
44
45
46

Estructura del formato RSS 2.0


Apertura y cierre del formato
Elementos de channel
Elementos del elemento, item
Extensibilidad de RSS 2.0
Ventajas e inconvenientes del formato RSS 2.0
MARC-XML
Estructura del formato MARC-XML
Ventajas e inconvenientes del formato MARC-XML

46
47
47

OPML

48
48
48
50
50

Estructura del formato OPML


Elementos de head
Extensibilidad de OPML
Ventajas e inconvenientes del formato OPML
GLOSARIO

51

CONCLUSIONES

52

REFERENCIAS

52

PGINA 3 DE 54

RESUMEN
El creciente volumen de informacin disponible en la Internet y el requerido desarrollo de
habilidades de lectura crtica en los estudiantes universitarios convierten al uso de agregadores,
tambin conocidos como Sindicacin de Contenidos (RSS) en un elemento digno de ser
considerado para el proceso de enseanza-aprendizaje. La tecnologa de Sindicacin de
Contenidos (RSS) surge con el propsito de facilitar el filtrado del creciente volumen de
informacin que da a da aparece en Internet.
La sindicacin es un mtodo fcil que permite a todos los usuarios suscribirse a los contenidos de
cuantas fuentes deseen, de tal forma que tengan en slo un lugar los datos actualizados que le
interesan para posteriormente mediante alguna herramienta lectora poder acceder a ellos. El
papel de la sindicacin de los contenidos cobra cada da mayor importancia debido al creciente
PGINA 4 DE 54

volumen de informacin que reside en Internet y a la necesidad de optimizar el tiempo dedicado a


la bsqueda, para concentrarse en la lectura y anlisis de la informacin.

INTRODUCCIN
El trmino "sindicacin" es un anglicismo que proviene de syndication, habitual en la terminologa
anglosajona de los medios comunicacin. Aunque se ha incorporado rpidamente a la jerga
tcnica con la popularizacin de los servicios de la web 2.0, se desaconseja su uso en espaol.
"Sindicacin de contenidos" o, en trminos lingsticos ms recomendables, redifusin de
contenidos, son conceptos aplicados al caso de los medios televisivos, radiofnicos, de prensa
escrita y, finalmente, al de los contenidos disponibles en la web. As, como concepto general, la
redifusin web consiste en el reenvo o reemisin de contenidos desde una fuente original, un
sitio web de origen -emisor-, hasta otro sitio web de destino -receptor- que, a su vez, se convierte
en emisor, puesto que pone a disposicin de sus usuarios los contenidos a los que en un principio
slo podan tener acceso los usuarios del sitio web de origen.
PGINA 5 DE 54

Sin embargo, la redifusin web (o, si se quiere, la sindicacin web) se ha concretado en el


servicio que un sitio web ofrece a usuarios individuales, consistente en mantenerlos
permanentemente actualizados sobre sus contenidos, informndoles sobre la renovacin de sus
titulares y de fragmentos de sus pginas web: por ejemplo, los nuevos titulares de las noticias de
un peridico digital, los nuevos artculos que se crean en un wiki o blog, o las intervenciones ms
recientes que han tenido lugar en un foro. A los usuarios receptores de este servicio se les
denomina suscriptores del sitio web original, ya que deben solicitarle de alguna manera dicho
servicio.
Este tipo de tecnologa resulta ser un paliativo dentro del ocano de informacin disponible en el
ciberespacio, sin embargo es menester valorar la percepcin del alumnado universitario con
respecto a su conocimiento y uso.

IDENTIFICACIN DEL PROBLEMA


La redifusin resulta en una forma de organizar la informacin que se encuentra en la web.
Hace posible el filtrado de las publicaciones de pginas que son de inters para cada usuario
(aquellas en las que se suscribe) y, mediante un software especfico, le pueden llegar las nuevas
noticias publicadas de su inters, evitando tener que visitar un nmero, en ocasiones, demasiado
extenso de pginas web para comprobar si se han producido actualizaciones.
Hasta la aparicin de la redifusin web, muchos usuarios deban mantener en su navegador web
una amplia lista de elementos favoritos, la lista con las direcciones web de los sitios de su mximo
inters, ya sean pginas web, wikis, blogs, etc. Adems, deban dedicar cierto tiempo a visitar y
PGINA 6 DE 54

comprobar si en estos sitios aparecan nuevas publicaciones con, por ejemplo, nuevos recursos
educativos, noticias de actualidad, ofertas de productos, etc. La redifusin viene a facilitar el
acceso a los nuevos contenidos y a reducir el tiempo que se dedica a examinarlos.
Un camino intermedio hacia la redifusin de contenidos web lo han constituido en los ltimos
tiempos los servicios de alerta de novedades mediante el correo electrnico que proporcionan
algunos sitios y buscadores web. Con estos, un usuario solicita mediante un formulario web (se
suscribe) a un sitio o a un buscador web, como Google, que le enven a su bandeja de correo
electrnico pequeos mensajes con las novedades que se han producido en tal sitio o en cual
ndice de bsqueda. Como veremos ms adelante, la redifusin web no implica el uso del correo
electrnico y parece ir ms all que un tradicional servicio de alertas.
Algunas de las ventajas de este servicio se pueden resumir en las siguientes:

Se pueden obtener las ltimas noticias respecto a temas de inters en cuanto la

informacin es actualizada.
Se produce un gran ahorro de tiempo, ya que es posible acceder rpidamente a todos

los contenidos nuevos publicados en varios sitios, sin tener que visitarlos uno por uno.
Se pueden recopilar titulares de distintos sitios desde un mismo lugar.
A diferencia de las notificaciones va correo electrnico, no existen direcciones

electrnicas involucradas; as se evita publicidad, spam, virus, etc.


Se puede cancelar las suscripcin a una fuente web sin necesidad de aviso.

Bases tecnolgicas de la sindicacin de contenidos


El siguiente trabajo de investigacin conlleva el conocimiento de sus bases tecnolgicas e
infraestructura. Tal infraestructura consiste en la familia de lenguajes XML que permiten
confeccionar los formatos de sindicacin, pero tambin su representacin, recuperacin y filtrado.
A continuacin se explican las funciones y caractersticas de los lenguajes de marcado basados
en XML para determinar finalmente que sus propiedades y caractersticas son las mismas que las
dispuestas por los formatos de sindicacin para el procesamiento y transmisin de informacin.

La familia de lenguajes XML


La sindicacin de contenidos est ligada al lenguaje de marcado XML. Pero su origen procede de
PGINA 7 DE 54

SGML Standard General Markup Language, lenguaje madre del cual se derivan todos los
lenguajes de marcado que actualmente se emplean en la red. SGML fue creado durante la
dcada de 1980 a 1990, a partir de las investigaciones que IBM Internacional Business Machines
vena desarrollando para conseguir un lenguaje capaz de estructurar y formatear contenidos. El
resultado de dicho esfuerzo se convirti en un estndar reconocido por la organizacin
internacional de normalizacin y estandarizacin ISO en 1986 (Gentle Introduction to SGML,
1994).
A partir de SGML, se fragu una importante familia de lenguajes de marcado derivados, de los
cuales John Berners-Lee fue el artfice principal. Se trata del actual HTML Hypertext Markup
Language (BERNERS-LEE, T. and Fischetti, M., 2000), empleado en la por aquel entonces
incipiente red Internet que permita la visualizacin de informacin en los primeros visores y
posteriormente navegadores web, y XML Extensible Markup Language, pensado para el
procesamiento y tratamiento de informacin de manera automatizada, para la que HTML no
estaba concebido. Tngase en cuenta que XML permite compartir informacin entre dispositivos y
resulta estndar en cualquier navegador, editor y sistema que se utilice, dada su sencillez.
En 1996 HTML queda estandarizado y dos aos despus en 1998 ser XML gracias al consorcio
W3C creado como respuesta a los problemas de programacin y codificacin de ambos
lenguajes y que el propio Berners-Lee puso en funcionamiento desde el Instituto tecnolgico de
Massachussets MIT.
XML es el acrnimo de Extensible Markup Language es decir, lenguaje de marcado ampliable o
extensible, que constituye por s slo uno de los pilares de la web. Tngase en cuenta que una
proporcin importante de toda la informacin representada en la red est recogida utilizando las
bases y fundamentos de este lenguaje. Tal aseveracin tiene su explicacin y repercusiones en el
continuo desarrollo que est sufriendo XML, desde su adopcin por el W3C para convertirse en
estndar de la construccin web a partir del 10 de febrero de 1998. Desde entonces hasta la
fecha, XML ha generado una completa familia de lenguajes cuya principal misin es servir de
soporte para representar la informacin, siendo descrita y organizada conforme a unas normas de
estructuracin, facilitando la recuperacin de la misma mediante mtodos de enrutamiento y de
filtracin y como aspecto fundamental de cualquier recurso o fuente de informacin, su
transmisin y difusin. Entendiendo que la finalidad de XML es la mejora de las posibilidades de
tratamiento o manipulacin de la informacin y documentacin electrnica, se hace necesario
establecer un mapa o diagrama que permita aclarar un patrn de estudio sobre sus principales
elementos y lenguajes derivados. Se debe recordar que an no existiendo una clasificacin que
organice las relaciones funciones y dependencias de cada uno de los lenguajes, se pueden
comprobar que existen las siguientes:

Tipologa funcional de la familia de lenguajes XML


1. Matriz XML: Lenguaje matriz o madre, en el que se basan todos sus complementos
incluyendo los lenguajes de sindicacin de contenidos.

PGINA 8 DE 54

2. Transformacin de documentos XML: Aquellos lenguajes destinados a generar un formato


que afecta a la presentacin y visualizacin de un documento XML que contiene
informacin. En la transformacin de los documentos, no hay que olvidar que se suceden
breves funciones de recuperacin de informacin, gestin de contenidos que permiten
como el propio nombre indica, transformar el documento original en un documento
secundario. Estos lenguajes son: XSL, XSLT y XSL-FO.
3. Descripcin y validacin de documentos XML: Contiene aquellos lenguajes empleados
para generar una descripcin del tipo de documento, su estructura e incluso el tipo de
informacin contenida. Estos esquemas programados permiten validar el documento XML,
considerndose en consecuencia un formato construido de acuerdo con las reglas de
normalizacin expresadas en el W3C (World Wide Web Consortium). Estos lenguajes son:
DTD y XSD Schema.
4. Enrutamiento y recuperacin de informacin: Todos aquellos lenguajes basados en XML
que permiten identificar las rutas de los elementos contenidos en un documento XML, ya
sea apuntando a una referencia, o bien a un identificador. Tambin se incluyen los
lenguajes de recuperacin basados en XML, ya que aprovechan todas las posibilidades de
referencia de los primeros para obtener una respuesta con resultados de cada consulta.
Estos lenguajes son: XPath, XLink, XPointer y XQuery.
5. Manipulacin de documentos XML: Implica la base de programacin en XML, extendiendo
las posibilidades de tratamiento y manipulacin a otras aplicaciones, aprovechando de esa
forma las descripciones del tipo de documento y de los lenguajes de enrutamiento. Estos
lenguajes son: XML-DOM y derivados.
6. Protocolos de comunicacin y servicios: Aquellos lenguajes dedicados a la transmisin de
informacin y a la descripcin de servicios telemticos que empleen protocolos en la web
para su funcionamiento. Estos lenguajes son: XML-RPC, SOAP y WSDL.
7. Lenguajes de descripcin ad-hoc: Son aquellos que han sido adoptados como
estndares web por el W3C (World Wide Web Consortium) y que sirven para describir
tipos de documentos muy especficos en entornos muy concretos. Estos lenguajes son:
SMIL, SVG y WAP.
8. Desarrollo de formularios: Lenguajes basados en XML para la descripcin y desarrollo de
formularios de cara a su implantacin en la web, siendo su principal finalidad, la entrada
de datos en un entorno previamente estructurado. Estos lenguajes son: XForms y
derivados.
En esta tipologa se advierten funciones especficas para cada lenguaje, lo cual no ha de llevar al
error de pensar que su funcionamiento es independiente. Todos los lenguajes, y en especial
aquellos destinados al enrutamiento y recuperacin de informacin, protocolos de comunicacin y
servicios, as como descripcin, validacin de documentos y transformacin estn ntimamente
relacionados. Se explicar y comprobar ms adelante que la sintaxis definida para unos
PGINA 9 DE 54

lenguajes tambin es vlida para otros y viceversa; que a efectos de posibles aplicaciones para la
documentacin y su uso en servicios bibliotecarios, son muy extensas y ampliables. Dicha
tipologa puede ser consultada en el esquema grfico de la familia de lenguajes XML,

XML
Tal y como lo define el W3C (World Wide Web Consortium), XML es: ...Lenguaje de Etiquetado
Extensible (eXtensible Markup Language). Es un lenguaje con una importante funcin en el
proceso de intercambio, estructuracin y envo de datos en la Web. Describe los datos de tal
manera que es posible estructurarlos utilizando para ello etiquetas, como lo hace HTML, pero que
no estn predefinidas, delimitando de esta manera los datos, a la vez que favoreciendo la
interoperabilidad de los mismos... (W3C de la A a la Z, 2009)
Para llevar a cabo el estudio del apartado de XML, tanto en sus aspectos formales como tcnicos,
se han tenido en cuenta fuentes de informacin especializadas. stas proceden del
fundamentalmente de las especificaciones oficiales del W3C Consortium (Extensible Markup
Language (XML) 1.0 (Fifth Edition), 2008) y en menor medida del W3Schools (XML Tutorial,
W3Schools, 2009). Se han seleccionado stas fuentes, por ser oficiales y de referencia en el
marco internacional de edicin y programacin web. Por otro lado pueden facilitar an ms si
cabe la introduccin y profundizacin en la investigacin del objeto de estudio.
Ciertamente XML est diseado para el soporte y descripcin de contenidos e informacin de
forma estructurada, mediante una serie de esquemas de elementos representados mediante
etiquetas o marcas para ser estructurados mediante anidamientos que generan estructuras y
relaciones de tipo jerrquico entre ellos. El paralelismo ms sencillo se puede establecer respecto
a los lenguajes documentales de tipo controlado como los tesauros, cuyas representaciones
permiten un orden jerrquico lgico y semntico de sus trminos. En XML es posible seguir el
mismo modelo, con la diferencia de que lo que se establecen son estructuras, etiquetas, marcas o
campos que describen la informacin que contendrn. Por ese motivo se explica que XML tiene
una funcin fundamental a la hora de estructurar datos y por extensin la informacin.
El lenguaje XML no utiliza un modelo de etiquetas predefinidas, lo que permite al documentalista
crear aquellas que necesite para describir un determinado documento. Esta propiedad es
especialmente til y verstil ya que posibilita desarrollar formatos especializados, para mejorar los
servicios bibliotecarios en particular.
En XML se requiere siempre de DTD o XSD Schema adjunto que permita la descripcin del tipo
de contenidos en las etiquetas utilizadas. Como se ha explicado anteriormente, tanto las DTD
como los XSD Schema son lenguajes especializados en la descripcin y validacin de los
documentos. Concretamente aportan una estructura vlida que el documento XML, que contiene
la informacin, ha de seguir y mantener para ser vlido y ser considerado por ende un formato de
descripcin.

PGINA 10 DE 54

En relacin a la validacin mencionada, el resultado de la construccin de documentos XML,


permite definirlos como bien formados y validados. Son bien formados cuando presentan una
sintaxis correcta conforme a las normas de construccin y edicin; son validados cuando existe
un documento DTD o Schema que conforme la estructura del modelo XML y determine el tipo de
datos que contiene en cada etiqueta, definiendo de esta manera la organizacin de las mismas y
sus caractersticas, aportando cules son los elementos permitidos.
Se emplea XML para la importacin y exportacin de contenidos, incluso entre sistemas
incompatibles, dada la simplicidad y definicin de su estructura y elementos expresados mediante
etiquetas (Ms adelante se comprender este asunto, al explicar el funcionamiento del protocolo
de transmisin de datos basado en XML, SOAP). Estas propiedades de compatibilidad permiten a
la postre facilitar la lectura, tratamiento, modificacin, gestin y visualizacin de los contenidos en
bases de datos distintas y diferentes aplicaciones.
Siendo XML un estndar independiente del hardware que una mquina determinada pueda
utilizar (ya que la interpretacin de XML es la misma en cualquier sistema operativo) es posible
incluir o agregar recursos de informacin comunes para ser utilizadas por diversos usuarios a la
vez, incluso mediante diferentes programas de tratamiento y edicin siendo considerados stos
como agentes y los recursos de informacin como fuentes de datos.
Otra caracterstica inherente a XML es que la informacin contenida en documentos
confeccionados con su codificacin normalizada puede ser visualizada y transformada mediante
las tcnicas de formateado con CSS o XSL , permitiendo una presentacin ms adaptada y
accesible para los usuarios. Esta caracterstica enlaza con los lenguajes de transformacin de
documentos que se explicaban en la tipologa funcional de la familia XML.
Como se vena apuntando, XML tambin se emplea frecuentemente en el desarrollo y creacin de
nuevos lenguajes especializados ad-hoc, como SMIL, SVG o WAP. Inscritos pero an no
presentes en este cuadro se incluiran los lenguajes de sindicacin de contenidos. Los principales
son RSS, RDF, ATOM-XML, OAI y OWL que sern debidamente tratados en sucesivos captulos,
una vez sean conocidas las propiedades de XML y su familia de lenguajes ms directos, ya que
como se reitera en diversas ocasiones, los lenguajes de sindicacin heredan todas las
propiedades, caractersticas y requisitos que cualquier formato desarrollado en XML.
XML puede ser empleado para generar islas de datos en las pginas web independientemente del
lenguaje con que estn programadas (HTML, PHP o ASP); para ello se incluye la referencia y el
identificador del contenido que se desea introducir.
La transformacin de un documento XML, as como su procesamiento, requiere de un sistema
parser, que es un programa que vara entre unas breves lneas de cdigo y extensas
instrucciones que permiten la lectura y tratamiento del documento XML destinado a un entorno
web. La tecnologa de principal uso en este aspecto es DOM, comn a todos los navegadores;
aunque este inicial punto en comn tiene diferentes interpretaciones dependiendo de la
plataforma de navegacin. Por ejemplo, Internet Explorer emplea cdigos Javascript, VBSscript y
ASP, difiriendo de otros navegadores basados en Mozilla por la manera de llamar o cargar el
PGINA 11 DE 54

documento XML, ya que emplean exclusivamente Javascript.


XML permite introducir scripts y otras lneas de cdigo programadas fuera de las reglas de un
DTD, Schema o DOM, mediante el empleo de notaciones especficas, <![CDATA[ ... ]]> que evitan
que un sistema parser evale dichos scripts o lneas de cdigo, permitiendo a su vez la ejecucin
de los mismos durante la visualizacin o representacin.
Como se ha descrito en estos prrafos, XML acta como plataforma fundamental para la
transferencia y estructuracin de la informacin en la web. Para ello cuenta con importantes
herramientas y lenguajes derivados que permiten su transformacin, cambio de formato,
descripcin, modularidad y empleo como repositorio de alta disponibilidad.

XSLT
XSL es un lenguaje que est compuesto de diferentes partes en su programacin; por un lado
XSLT se utiliza para la transformacin de documentos XML, XPath para establecer los elementos
de navegacin, y XSL-FO, que permite dar formato a los mismos. Adems pueden incluirse otros
lenguajes como XQuery, XLink y XPointer que se emplean para el enrutamiento y recuperacin de
los datos almacenados y estructurados en los documentos XML. Por lo que el funcionamiento de
todos los lenguajes de marcado extensibles est coordinado y relacionado de manera muy
precisa aunque la definicin que aporta el W3C (World Wide Web Consortium) sobre XSL no es
tan explcita:
...eXtensible Stylesheet Language es un lenguaje para crear hojas de estilo a travs de las
cuales ser posible mostrar el contenido estructurado de un documento con un formato
determinado. Consiste en dos partes: un lenguaje de transformacin de documentos XML y un
vocabulario XML para especificar semnticas para el formato (objetos de formato)... (W3C de la
A a la Z, 2009)
Para estudiar XSLT, ha sido necesario el empleo de dos fuentes electrnicas fundamentales, por
un lado las especificaciones del propias del W3C Consortium (XSL Transformations XSLT Version
2.0, 2007) y documentacin de referencia del W3School (XSLT Tutoria, W3Schools, 2009) para
abordar los aspectos ms prcticos.
Siendo XSLT un lenguaje que permite la transformacin de los documentos XML en documentos
XHTML, o en otros documentos XML, con diferentes contenidos. De hecho es posible elegir qu
elementos se desean agregar y eliminar en las visualizaciones o presentaciones de informacin,
evitando que la representacin de la informacin de un documento XML, sea un rbol jerrquico
por defecto, tal y como se puede comprobar en cualquier navegador con el documento XML por
defecto.

PGINA 12 DE 54

DTD
Como se ha explicado anteriormente, para validar el formato de un documento XML y por
extensin generar un formato de sindicacin es necesario que los elementos, nodos y atributos
del documento estn conformados de acuerdo a unas normas de definicin del tipo de datos y
organizacin (W3C QA Recommended list of DTDs. W3C World Wide Web Consortium, 2009).
Para estos efectos existen dos opciones posibles: Los documentos DTD, (Document Type
Definition) que tienen ventajas en cuanto a su simplicidad de edicin y declaracin pero
problemas de adaptacin al protocolo de transmisin de datos SOAP (fundamental para la
elaboracin de sistemas y formatos de sindicacin); y XSD Schema, que se emplea con las
mismas intenciones y finalidades que DTD, con la ventaja de ser compatible con SOAP, pero
complicado en cuanto a la declaracin y sintaxis que emplea para la definicin de los elementos
de un documento XML. Sin lugar a dudas ya se puede observar que la sindicacin es una
tecnologa que no slo emplea un tipo de estructura, un formato o un documento para la
declaracin y validacin de los contenidos, sino que requiere de otros elementos como protocolos
de comunicacin basados en la red como SOAP, y otros mdulos que permiten mejorar y
perfeccionar la definicin del lenguaje que de sindicacin que se pretenda desarrollar o utilizar.
En torno a la descripcin del tipo de documento es necesario basarse en fuentes electrnicas
especializadas procedentes del W3C Consortium. Concretamente en las especificaciones
oficiales de la DTD (RAGGET, D. et al., 1999) y en el manual de referencia del W3School (DTD
Tutorial, W3Schools, 2009) del cual se han tomado ejemplos que posteriormente han sido
adaptados al presente estudio.
Una definicin del tipo de documento, DTD, permite determinar la arquitectura de los elementos y
datos que contiene un documento XML. Define la estructura del documento con una lista de
elementos y atributos vlidos. Un archivo DTD, puede ser declarado en lnea, dentro de un
documento XML, o como una referencia externa, siendo sta la forma ms recomendable. Con un
archivo DTD, cada documento XML, incluye una descripcin de su propio formato. Con un archivo
DTD independiente o distribuido, se genera un formato de descripcin de contenidos que puede
ser compartido por diversos grupos de usuarios, que permite verificar los datos que se reciben y
envan.

XSD Schema
XSD (Schema Definition) es una alternativa al empleo de DTD para describir la estructura y datos
contenidos en un documento XML. El propsito de Schema es definir los elementos, atributos,
relaciones jerrquicas entre elementos, nmero y orden de elementos, condicin y tipo de
contenido de los elementos, tipo de datos para los elementos y sus atributos, definir valores por
PGINA 13 DE 54

defecto y fijados para los elementos y sus atributos; casusticas que pueden aparecer en un
documento. XSD Schema est concebido como el lenguaje sucesor de DTD; esto se debe a
varias razones como la flexibilidad a la hora de modificar y ampliar las estructuras del documento.
Schema es un lenguaje enteramente basado en XML, lo que le brinda una mayor versatilidad,
soportando ms tipos de datos que DTD, por lo que se definen mejor los contenidos del
documento XML (XML Schema Part 1: Structures Second Edition, 2004). Schema permite el
empleo de etiquetas para definir las estructuras. Una de las grandes ventajas de XML es que
admite ms variedad de tipos de datos. Permite describir cualquier contenido a lo largo del
documento XML, permite la correcta validacin de los datos, sin necesidad de disponer de un
parser ad-hoc para determinar errores de descripcin, permite trabajar con datos directamente
desde la base de datos, define facetas de datos o restricciones en los datos, permite definir
patrones de datos (es decir formatos de datos), permite convertir datos entre diferentes tipos de
datos. XSD Schema utiliza sintaxis xml, siendo sta otra de las ventajas sobre los documentos
DTD. Esto se traduce en, que es posible utilizar el mismo programa parser empleado en DTD,
para analizar los schemas; la posibilidad de manipular el Schema con tcnicas de XML DOM, as
como transformar el Schema mediante tcnica y lenguajes XSL-T. XSD Schema adems asegura
una comunicacin segura de los datos, permitiendo el envo y recepcin de los mismos. Con
Schema el emisor puede describir los datos de una manera que el receptor pueda entenderlo y
obtener de dicha forma la confirmacin de su recepcin. Esto supone una normalizacin en
algunos tipos de datos, lo que permite que sean interpretables por cualquier usuario. Los XSD
Schemas son extensibles o ampliables ya que estn escritos en xml.

XPath
XPath es el lenguaje que permite la navegacin en documentos XML, permitiendo el acceso a
determinadas partes como pueden ser sus atributos o documentos. Para ello utiliza una sintaxis
para definir las partes de un documento, considerndose un elemento fundamental de XSLT.
XPath utiliza expresiones para seleccionar nodos en un documento xml. Por ello las expresiones
empleadas son las rutas de acceso a los nodos y elementos del documento. XPath incluye
funciones estndar embebidas en el propio lenguaje. Varan desde cadenas de texto, valores
numricos, operadores de fecha, comparacin, manipulacin de secuencias, funciones y valores
bolanos, entre otros.

XLink
XLink define el estndar para la creacin de hipervnculos en los documentos xml. XLink est
directamente relacionado con XPointer que es el lenguaje responsable de apuntar a partes
especficas de un documento xml. Por ello existe una relacin directa en la sintaxis que emplea
XPointer y XPath (XLink and Xpointer Tutorial, W3School., 2009).
PGINA 14 DE 54

XLink es similar a los enlaces de html, aunque con diferencias sustanciales que lo hacen ms
completo. Cualquier elemento en un documento xml, puede llegar a convertirse en un elemento
de XLink. XLink soporta enlaces simples como los utilizados en html, o enlaces extendidos, que
pueden enlazar a mltiples recursos a la vez unidos en un mismo hipervnculo. Con XLink los
hipervnculos pueden ser definidos fuera de los archivos enlazados.
La relacin de XLink con XPointer se basa en los siguientes aspectos; Al utilizar XPath, permite
apuntar a determinadas partes de un documento xml y navegar a travs de l. XLink emplea el
sistema de enrutamiento determinado por XPointer y basado ntegramente en XPath.

XPointer
Conocida la interrelacin entre XLink y XPointer, se debe concretar que XPointer utiliza los
fundamentos de XPath para apuntar a un determinado lugar o localizacin del documento XML.
Para ello emplea atributos id que permiten identificar un determinado punto o elemento en el
documento. A su vez XPath acta para determinar la posicin y nivel jerrquico de los elementos.

La sindicacin de contenidos
La palabra sindicacin en su acepcin ms comn, tiene su origen en el vocablo griego
(con Justicia) y del latn syndicus que en castellano se denomina sndico; entendiendo por sndico
aquel hombre elegido por una comunidad o corporacin para cuidar de sus intereses. De sndico
proviene el verbo transitivo sindicar de entre cuyas acepciones se entiende ligar varias personas
de una misma profesin, o de intereses comunes, para formar un sindicato y entendido como
verbo pronominal el entrar a formar parte de un sindicato. Del verbo sindicar se obtiene el
sustantivo sindicacin como la accin o efecto de sindicar o sindicarse. Por tanto puede extraerse
una connotacin de afiliacin o pertenencia a una entidad.
Pero la sindicacin empleada en el contexto de esta investigacin y ms particularmente en el
entorno web, adquiere una significacin diferente, ya que es tomada del ingls. Esto es debido a
que precisamente los pioneros e investigadores de dicha tcnica y proceso son autores
anglosajones. Teniendo en cuenta este aspecto se viene utilizando sindicacin a modo de
anglicismo de syndication; siendo ste un vocablo ambiguo en cuanto a su significado, puesto que
es empleado para definir la transmisin de derechos de emisin en televisin, las licencias de
impresin en prensa, as como las propias para la radiodifusin. Estos usos demuestran que su
empleo tradicional viene de la mano de los medios de comunicacin y ms concretamente
vinculados a la gestin de los derechos de propiedad intelectual de los contenidos.
Syndication tiene sus races a su vez, en el sustantivo syndicate o sindicato, tomando su
connotacin de afiliacin o pertenencia a una entidad. De hecho se establece un paralelismo en
PGINA 15 DE 54

referencia al vnculo existente entre el trabajador y el sindicato al que est afiliado, al igual que lo
hace un medio de comunicacin respecto de la fuente de informacin por la que se nutre
habitualmente, para difundir una serie de contenidos.
En este sentido en los pases anglosajones han utilizado este trmino desde las primeras
ediciones escritas de los medios de comunicacin modernos, adecundose a los nuevos formatos
con el transcurso del tiempo, hasta la llegada del medio fundamental de la sociedad de la
informacin, la web. As pues syndication en el presente trabajo, se aplica a la difusin de
contenidos en la web a partir de una fuente determinada, a la cual el destinatario est afiliado o
suscrito.

Orgenes de la sindicacin
El origen de la sindicacin de contenidos resulta complejo de analizar, dado que ha dependido en
gran medida del desarrollo tecnolgico de los lenguajes de marcado y de la generalizacin de su
uso para transmitir informacin. Por tanto no se puede atribuir a un nico autor la autora de la
sindicacin de contenidos, puesto que han sido mltiples investigadores y desarrolladores los que
confluyendo sus conocimientos han logrado crear esta tcnica y proceso. La historia y evolucin
de la sindicacin de contenidos puede resumirse en la implantacin y mejora de los formatos de
sindicacin. Por ello sus orgenes hay que buscarlos en las investigaciones del primer lenguaje de
marcado SGML (Standard Generalized Markup Language) y su mtodo de estructuracin de
datos que, desemboc en el lenguaje XML, conocido como eXtensible Markup Language. La
sindicacin est soportada pues, por XML o lo que es lo mismo, los lenguajes extensibles de
marcado, para estructurar, organizar y difundir la informacin va web. Esto significa que la
sindicacin de contenidos es consustancial al desarrollo tcnico de sus derivados como por
ejemplo XSLT, XSD o XPath. Algunos de los responsables directos del desarrollo de la sindicacin
de contenidos son los investigadores Dave Winer, Ramanathan V. Guha, Dan Libby, Tim Bray,
Dan Brickley o Sam Ruby considerados pioneros y padres de esta tcnica. A Tim Bray se le
atribuye una aportacin esencial en el desarrollo de SGML desde 1987, destinada a la creacin
del lenguaje XML, considerado la base de cualquier formato de sindicacin. Ramanathan V. Guha
destaca por su investigacin sobre los meta-contenidos MCF (Meta Content Framework) entre
1995 y 1997 (GUHA, R.V. and Bray, T., 1997) que dar lugar ms tarde al conocido formato RDF
Resource Description Frammework en 1999 (BRICKLEY, D. and Guha, R.V., 1999), o marco de
descripcin de recursos, que supone el punto de partida para el desarrollo del formato de
sindicacin RSS1.0. Por su parte Dave Winer es el primer autor que logra poner en prctica las
tcnicas de sindicacin de contenidos, elaborando su propio formato de datos XML para su sitio
web Scripting News en 1997 (WINER, D., 2001). Este logro fue el resultado de aplicar todos los
conocimientos citados sobre los primeros metalenguajes. Tambin se tiene constancia de que el
primer navegador web en aplicar sistemticamente las tcnicas de sindicacin de contenidos fue
Netscape con el formato de sindicacin RSS 0.91. Esto se debe al trabajo de Dan Libby y
Ramanathan V. Guha autores de la versin de pruebas de dicho formato, denominada RSS 0.90
(JOHNSON, D., 2006) pp57 creada en 1999 hasta su posterior actualizacin a la versin RSS
0.91 (CADENHEAD, R., 2008) tambin publicada el mismo ao. Por otro lado Dave Winer
desarrolla en el ao 2000 una segunda variante denominada RSS 0.92 (WINER, D., 2003), con
PGINA 16 DE 54

nuevos elementos que amplan las capacidades originales del formato para la descripcin de
recursos y contenidos informativos. De hecho la sindicacin se emplea para compartir tales
contenidos, generados por los medios de comunicacin, siendo estos los primeros en aprovechar
las ventajas de esta tcnica para transmitir y difundir en mayor medida su informacin. En la
consecucin de ese objetivo se fue haciendo necesaria la creacin de programas capaces de
codificar la informacin en los formatos recientemente creados, as como su correcta publicacin
de forma tal, que pudieran ser admitidos por Netscape. Este problema es solucionado en 1997
con la aparicin del programa Manila (USERLAND, 2009), el primer sistema de publicacin de
contenidos va web con sindicacin activa, desarrollado por UserLand, la primera empresa
especializada en este tipo de software, con Dave Winer a la cabeza de su direccin. De esta
forma se logra materializar la difusin de noticias en los peridicos como el New York Times (New
York Times News Service Syndicate, 2009), el Washington Post (Washington Post RSS news feed
topics, 2009), as como en portales de noticias como Yahoo News (YAHOO NEWS, 2009). Esta
primera revolucin de la sindicacin tiene lugar entre 1999 y 2002, fechas en las que an resulta
muy novedosa y poco extendida. Seguidamente se presenta un periodo de maduracin que
abarca desde el ao 2002 hasta el 2004, segn las fuentes consultadas (FESTA, P., 2003),
periodo en el que se produce un perfeccionamiento de las tcnicas, formatos y programas que
utilizan la sindicacin de contenidos. Dave Winer es considerado en este sentido, el responsable
de gran parte de los avances de ese periodo de perfeccionamiento, puesto que materializa una de
las primeras aplicaciones Weblog derivada del programa Manila y extiende su utilizacin no slo a
los medios de comunicacin, sino al entorno acadmico, concretamente en la Universidad de
Harvard, tal como queda reflejado en el diario CNET News (FESTA, P., 2003), en el que se pone
de manifiesto la iniciativa llevada a cabo para la gestin y publicacin de contenidos informativos
y acadmico-formativos. De esta forma Winer se adelanta a la gran explosin demogrfica del
fenmeno blog (BLOOD, R., 2000). El resultado de estas experiencias fue la ampliacin y
actualizacin paulatina del formato RSS a las versiones 0.93 y 0.94 respectivamente, que darn
como resultado definitivo el actual formato RSS 2.0 en el ao 2003 (USERLAND; BERKMAN
CENTER, 2003). En esa misma fecha comenzara el desarrollo de un formato de sindicacin
alternativo a RSS2.0, el formato Atom y su protocolo. La idea fue propuesta por Sam Ruby y
pronto obtuvo los apoyos necesarios de otros desarrolladores como Mark Pilgrim, Aaron Swartz o
el propio Dave Winer, junto con mltiples empresas y comunidades de desarrolladores (RUBY, S.
and Hopkins, D., 2007). El objetivo del formato Atom era lograr una distribucin neutral del mismo
en los navegadores web, evitando problemas de monopolio, permitiendo que fuera implementado
por cualquier usuario, dotndolo de extensibilidad y de una estructura limpia y ordenada. Como
resultado de estas pautas se obtuvo una primera versin de pruebas Atom 0.2 y una versin
definitiva Atom 0.3 que fue adoptada por Google para equipar sus principales servicios web como
Blogger (Atom API Documentation for Blogger, 2006), Gmail o Google News (GData JavaScript
Client 2.0 Class Hierarchy, 2009). Pero el formato Atom continuara su desarrollo, dirigido por Tim
Bray y Paul Hoffman, hacia una mayor normalizacin elaborndose la versin Atom 1.0 que
actualmente es reconocida por el W3C Consortium y el IETF (Internet Engineering Task Force).
Como se desprende de este recorrido, la sindicacin de contenidos es una tcnica que ha tenido
un desarrollo catico e imperfecto, a tenor de la gran cantidad de formatos elaborados. Tambin
se advierte un continuo proceso de reinvencin, lo que demuestra una importante componente
PGINA 17 DE 54

tecnolgica inherente a los lenguajes extensibles de marcado para los que la sindicacin cumple
su principal objetivo, transportar y transmitir informacin estructurada. A tal consideracin se une
el modo de empleo y utilizacin que de la sindicacin se ha hecho a partir de los contenidos web y
de forma ms especializada, como los contenidos informativos, acadmicos, audiovisuales y
documentales, todos ellos aspectos a considerar en una posible definicin del trmino.

Definicin del trmino


La sindicacin de contenidos es un concepto relativamente novedoso si se tiene en cuenta que su
generalizacin no lleg hasta la popularizacin de los sistemas de publicacin web. Por otro lado
el concepto sindicacin de contenidos ha sido confundido con el de formato de sindicacin,
implicando a menudo definiciones parciales o explicaciones sobre el funcionamiento de un
determinado formato, omitiendo una abstraccin superior y reflexin de la sindicacin como un
proceso documental que se sirve de tales formatos, tcnicas y tecnologas.
Tambin resulta significativa la madurez tecnolgica que se ha logrado alcanzar y el poco
aprovechamiento logrado. Esto se debe a un mbito de aplicacin centrado en la redifusin de
contenidos, variando nicamente el tipo documental y el sujeto productor de la informacin. Esta
praxis tiene su eco en las definiciones de sindicacin de contenidos, limitando con ello nuevos
usos y mbitos de aplicacin. En consecuencia no se advierten un gran nmero de definiciones
del concepto sindicacin de contenidos emitidas desde las fuentes formales de informacin
cientfica. Fuera de estos canales es posible encontrar gran cantidad de definiciones de todo tipo,
faltas de revisin, exhaustividad y control, intoxicando la web de informacin poco fiable y carente
de contraste en cuanto al objeto de estudio. Por ello, se ha procurado una consulta basada en
documentacin especializada, autores e investigadores de la sindicacin, artculos y
presentaciones del mbito acadmico y cientfico.
Segn (TARANKO, S., 2002) sindicacin es la transmisin de activos informativos y
documentales para su reutilizacin e integracin en terceros recursos por medio de una relacin
canal-suscriptor, que hace que tales contenidos sean sindicados, a mltiples suscriptores. Desde
el punto de vista formal, la definicin abarca los principales actores que intervienen en el proceso
de sindicacin, incidiendo en el tipo de relacin que se produce entre la informacin que es
transmitida por medio del canal, tambin denominada activo informativo. Resulta muy vlida esta
consideracin, puesto que un activo informacional representa informacin original que mana de
una fuente o recurso. Si bien este extremo tambin resulta aceptable, no se precisa si dicha
fuente puede ser a su vez un recurso primario o secundario. Como se precisar en sucesivos
captulos, la sindicacin puede nutrirse, en efecto, tanto de fuentes primarias, como secundarias y
terciarias. En consecuencia, aunque la condicin de originalidad del contenido suele ser la ms
extendida, no siempre es as. Es muy frecuente la reproduccin de terceros contenidos, citas,
copias y sindicacin de terceros canales sindicados. Por ltimo transmite correctamente la
caracterstica de mltiple suscripcin, que posibilita compartir la informacin sindicada con los
usuarios.
PGINA 18 DE 54

Segn (HAMMERSLEY, B., 2003) La sindicacin de contenidos hace que una parte o la totalidad
del contenido de un sitio web est disponible para su ulterior utilizacin en terceros servicios. El
contenido sindicado puede ser la informacin propia del sitio o sencillamente sus metadatos... Un
feed de sindicacin puede ser cualquier contenido, titulares, enlaces a terceros contenidos, el
cuerpo informativo del sitio, despojados de su formato visual, y de sus metadatos libremente
aplicados... La sindicacin de contenidos permite al usuario examinar toda la informacin de un
sitio web y recibir la notificacin de sus actualizaciones. sta puede variar desde una simple lista
de enlaces de un sitio web a otro, hasta los fundamentos de interrelacin de la web semntica. Si
bien Ben Hammersley defini sindicacin en el contexto de un formato de sindicacin muy
concreto, RSS, tambin es verdad que su definicin aporta una connotacin de metalenguaje,
siendo la sindicacin capaz de incorporar meta-contenidos. Esto es muy significativo para los
procesos de actualizacin y notificacin de novedades en las fuentes de sindicacin, que
denomina feeds. Otro aspecto destacable de la definicin es una de sus ltimas reflexiones en
relacin a las posibilidades de servicio de dichas fuentes de sindicacin, variando desde simples
listas de enlaces hasta complejas relaciones propias de la web semntica. Esta afirmacin viene a
vislumbrar que la tecnologa de sindicacin y de la web semntica parte de los mismos
fundamentos tcnicos, dando a entender que es posible su desarrollo desde la sindicacin de
contenidos y lo difusas que son las barreras que separan todas las tcnicas que emplean
lenguajes extensibles de marcado basados en XML.
Segn (AYERS, D. and Watt, A., 2005) es La distribucin de contenidos a mltiples usuarios. A
menudo se utiliza para referirse a la utilizacin de contenidos en mltiples sitios web La definicin
se centra en el proceso de difusin de contenidos sin especificar su tipologa, alcance, entorno de
aplicacin o actores que participan en el proceso de sindicacin. S queda patente la afirmacin
de emplear la sindicacin como mtodo para embeber contenidos en diversos sitios web, en clara
alusin a los agregadores y lectores de canales de sindicacin.
Segn (FRANGANILLO, J. and Cataln, M.A., 2005) en su trabajo bitcoras y sindicacin de
contenidos: dos herramientas para difundir informacin, explican que la sindicacin hace posible
tener constancia de la actualizacin de una gran cantidad de fuentes de informacin sin recurrir a
la navegacin, dando a entender una de sus principales caractersticas. A continuacin exponen
una definicin elaborada por el Termcat, Centro de Normalizacin Terminolgica de Catalua que
define sindicacin como un Proceso por el cual un productor o distribuidor de contenidos en
internet proporciona informacin en formato digital a uno o varios suscriptores, generalmente para
que la integren en sus sitios web. (TERMCAT, Centre de Terminologia, 2009). En la misma lnea
se encuentra la definicin de (RODRGUEZ GAIRN, J.M. et al., 2006), al modificar levemente
dicha definicin. La sindicacin es el proceso mediante el cual un productor o un distribuidor de
contenidos en internet los proporciona a un suscriptor, o a una red de suscriptores. stos pueden
utilizar un agregador de noticias (lector de fuentes de sindicacin) para suscribirse a diversos
canales y recibir notificaciones del mbito que les interese. Ambas definiciones son correctas y
concordantes en gran medida, al coincidir en los actores fundamentales del proceso de
sindicacin; el sujeto productor, la disposicin de contenidos, su publicacin y la transferencia a
un pblico objetivo que suscrito al canal de noticias puede recibir cualquier actualizacin de la
informacin demandada de una manera ms personalizada. No obstante podra precisarse mejor
PGINA 19 DE 54

el principal medio de representacin de los canales de sindicacin, el navegador web, as como


especificar los aspectos que hacen clave que un formato XML, sea denominado, de sindicacin,
implicando una reflexin adems de documental, tcnica.
Segn (JOHNSON, D., 2006) es Proporcionar una representacin XML de noticias o titulares, de
actualizacin constante en blogs, wikis o con cualquier otro tipo de dato que pueda ser distribuido
como una coleccin de elementos discretos La definicin de Johnson est orientada en un primer
momento a la difusin de informacin peridica y por tanto al entorno de los medios de
comunicacin. No obstante vuelve a recalcar algunos aspectos ya sealados anteriormente, como
la actualizacin de los contenidos, los sistemas de publicacin web sobre los que se aplica ms
frecuentemente la sindicacin ya sean blogs, wikis o CMS. A pesar de que resultan elementos
sencillos de la sindicacin, tambin aporta un rasgo no declarado hasta el momento que es la
disposicin de una coleccin de elementos discretos. Con ello determina la disposicin de dos
partes inseparables que permiten hablar de un feed y por tanto de sindicacin de contenidos. Se
trata del canal y los tems, o lo que es lo mismo aquellos elementos organizados que constituyen
una coleccin, sin definir por ello la naturaleza de los datos.
Segn las especificaciones del formato RSS1.0 (BEGED DOV, G. et al., 2008) Sindicacin es la
toma de datos disponibles en lnea para la recuperacin y posterior transmisin o agregacin de
la publicacin en la red. Aunque la ltima fecha de actualizacin de las especificaciones de
RSS1.0 data del ao 2008, se tiene constancia de la presente definicin en la primera versin de
dicho documento en el ao 2000. Resulta muy clarificadora la identificacin de la sindicacin con
la transmisin y recuperacin de la informacin y su relacin con la publicacin en la red. De
hecho supone concebir los formatos de sindicacin como meros medios de comunicacin,
considerando la sindicacin de contenidos como aquel proceso que permite la transaccin de
datos e informacin con distintos propsitos ya sea su bsqueda, consulta, recopilacin o republicacin.
Segn (ICSC, 2008) La sindicacin es una estructura de negocios de gran alcance que facilita la
distribucin de contenidos, productos e informacin en la red. sta supera el problema de la
fragmentacin del mercado, permitiendo presentar un mismo contenido en mltiples sitios web
con el objetivo de aumentar la capacidad de los usuarios para encontrarlo. Mediante el mtodo de
suscripcin y agregacin, se logran importantes beneficios en los cuatro componentes de la
industria de los medios de comunicacin: los creadores de contenidos, editores, anunciantes y
usuarios... Sindicacin es el posicionamiento controlado de un mismo contenido en mltiples
destinos de la web La visin ofrecida por el Internet Content Syndication Council en esta
definicin resulta novedosa y a la vez particular; Se entiende la sindicacin como parte del
mecanismo de negocio de los medios de comunicacin de masas en su estrategia de informacin
global a travs de la red. Tal aspecto resulta de inters para compaas dedicadas a la
informacin, nuevas tecnologas y el desarrollo web como Google, AT&T, Reuter, NBC o CBS, que
han respaldado el desarrollo de esta institucin. En la definicin tambin es destacable la
concepcin de la sindicacin como un mtodo de posicionamiento de noticias, que en s mismo
no deja de ser un hecho banal e implcito, si no fuera por la capacidad de controlar el contenido
para ser posicionado en terceros recursos web. Esta enunciacin significa que pueden llegar a
controlarse los contenidos producidos a travs de mtodos de post-edicin, pero tambin que la
PGINA 20 DE 54

sindicacin puede ser utilizada con propsitos SEO Search Engine Optimization. Comprendida la
dimensin comercial de la sindicacin, la definicin carece de
un enfoque documental, tendiendo a relatar elementos ms relacionados con el periodismo y el
marketing.
De todas las definiciones analizadas existe una serie de afirmaciones claras en relacin a la
sindicacin de contenidos; 1) La sindicacin es un proceso de comunicacin que permite
transmitir un contenido de un productor a mltiples usuarios. 2) La sindicacin es un conjunto de
elementos que conforman una coleccin o canal de sindicacin. 3) La sindicacin est basada en
XML. 4) La sindicacin permite integrar contenidos en mltiples sitios web para su
aprovechamiento. 5) Los contenidos que se transmiten mediante sindicacin son actualizados de
forma constante o peridica. 6) La naturaleza de los contenidos sindicados es variada, pudiendo
ser cualquier tipo de dato o informacin. 7) Existe una clara relacin entre los sistemas de
publicacin y la sindicacin como su herramienta de difusin. 8) Existen herramientas que facilitan
la lectura de ordenacin de la informacin transmitida mediante sindicacin, haciendo alusin a
lectores y agregadores especializados en canales de sindicacin.
Teniendo en cuenta lo dicho, sindicacin de contenidos es el proceso de redifusin de informacin
que permite la suscripcin a una fuente de informacin alimentada por sujetos productores de
contenidos informativos, documentales o procedimentales en el corpus de un canal y un formato
de datos que lo estructura para su intercambio, servicio, recopilacin, lectura y gestin por parte
de administradores, editores y usuarios.
La sindicacin tambin puede ser entendida como tcnica de transmisin de datos a partir de
archivos XML configurados como canales de informacin de actualizacin peridica, que
posibilitan el intercambio de contenidos publicados o no en el entorno web, posibilitando su alerta,
conocimiento, gestin, almacenamiento y tratamiento.
Desde el punto de vista tcnico, la sindicacin emplea una serie de elementos muy concretos, a
saber; 1) el formato de sindicacin propiamente dicho basado siempre en XML, 2) el archivo XML
debe estar bien formado y validado, 3) La disposicin de un canal o coleccin de tems o
elementos jerrquicamente embebidos dentro del mismo, 4) los esquemas de descripcin de
contenidos denominados SCHEMAS o DTD que lo definen, 5) las hojas de formato y estilo
adaptadas y desarrolladas en XSL o CSS, para su correspondiente visualizacin, 6) y la
utilizacin del protocolo bsico de comunicacin web HTTP para la transmisin de datos o el
empleo de protocolos especficos de comunicacin como SOAP o XML-RPC que permiten la
recepcin de una fuente de informacin determinada por parte del usuario es decir su
transferencia.
Atendiendo a un enfoque ms documental, la sindicacin es el proceso de transmisin de
informacin que haciendo uso de tcnicas de redifusin estructurada de los contenidos es capaz
de representar una o diversas fuentes de informacin, tambin denominadas Feeds, para el
intercambio y distribucin de la documentacin entre mltiples usuarios y terceros medios de
comunicacin, utilizando para ello un entorno web hipertextual e interactivo, que permite definir en
PGINA 21 DE 54

todo momento, el origen, la fuente, la autora y las dataciones cronolgicas del ciclo vital del
documento representado. Por ello la sindicacin implica una cadena documental desde el
momento en que se genera el contenido o el documento, procesado y editado hasta su insercin
en el canal o fuente de informacin del sujeto productor, mediante diversos medios de publicacin
web como bitcoras, wikis, portales de contenidos, buscadores, directorios de noticias y
agregadores.

Propiedades y caractersticas de la sindicacin


Estructuracin de los datos: Al emplear formatos extensibles basados en XML, la sindicacin
permite la transmisin de informacin estructurada. Ello depende de la sintaxis o arquitectura con
la que se definen los formatos de sindicacin o los lenguajes que se emplean para sindicar los
contenidos. En el caso de los formatos tradicionales de sindicacin como RSS o Atom stos estn
preparados para la descripcin de diversos tipos de recursos web, distinguiendo sus elementos
bsicos en el propio lenguaje. Por ejemplo en la descripcin de un elemento se utilizan etiquetas
para contener el ttulo, el nombre y datos de filiacin del autor, el contenido o descripcin del
mismo, el enlace al documento original, su identificador universal URI, entre otros. La posibilidad
de estructurar la informacin de un documento y conocer de qu partes consta, as como qu
funcin desempean en el conjunto, hacen que la sindicacin sea un medio ideal para transmitir
cualquier tipo de documentacin o informacin, siempre que se emplee el lenguaje adecuado. A la
postre esta estructuracin de la informacin es la que permite que las aplicaciones de sindicacin
encargadas de la actualizacin continua de los contenidos o la lectura de los canales, sean
capaces de reconocer las estructuras de cada formato. De esta forma, un lector de canales de
sindicacin especializado en RSS, puede que no sea capaz de captar otros formatos de
sindicacin como RDF o Atom. A raz de esto, se vislumbra tambin un problema de armonizacin
de los formatos de sindicacin, dada su amplia variedad y desarrollo, que se ha tratado de
solucionar con aplicaciones parser de reconocimiento de formatos y lectura especializada. El
ejemplo ms claro de ello es el UniversalFeedParser (PILGRIM, M., 2006) desarrollado por Mark
Pilgrim, que logra el anlisis y reconocimiento de canales de sindicacin en los formatos RSS1.0,
RSS2.0 y Atom. No obstante no siempre existe una herramienta universal, teniendo en cuenta
que los anteriores formatos son los ms comunes. Esto ocurre cuando un parser tiene que
enfrentarse a un formato para el que no est diseado. El ejemplo ms claro es el formato MARCXML especializado en la descripcin catalogrfica de los documentos y en la consecucin de
registros bibliogrficos, que consta de las mismas caractersticas de estructuracin que los
formatos de sindicacin clsicos, pero sin el mismo soporte tecnolgico. Por lo tanto puede
concluirse que la estructuracin de la informacin facilita la descripcin de cualquier tipo de
documento, identificando todos sus apartados correctamente mediante sus etiquetas y sintaxis. Si
bien la eleccin de un formato u otro puede determinar la correcta descripcin de un documento,
no siempre posibilita su anlisis en aplicaciones parser de lectura y aprovechamiento de los
contenidos, lo que hace condicionar en gran medida el empleo de formatos poco adecuados para
lograr una mayor difusin o alcance, como podra desprenderse del ejemplo de MARC-XML. Tal
PGINA 22 DE 54

problema es resuelto en esta investigacin, dado que MARC-XML es el principal formato elegido
para elaborar los servicios de gestin catalogrfica mediante sindicacin.
Extensibilidad: La sindicacin hereda la propiedad de extensibilidad propia de los lenguajes de
marcado derivados de XML. Esto significa que la estructura original de un canal de sindicacin
puede ser ampliada segn las necesidades de descripcin, permitiendo la combinacin de
diversos formatos y una mayor polivalencia.
Modularidad y transformacin de la informacin: La informacin estructurada puede
representarse de forma modular, sin necesidad de someterse a un esquema fijo predeterminado.
Esto se consigue mediante el empleo de hojas de estilo para la transformacin de los contenidos
del canal de sindicacin, tambin denominadas hojas XSLT. Posibilitan la transformacin, filtrado,
ordenacin y ejecucin de operaciones de bsqueda y comparacin relativamente sencillas, lo
que a la postre permite transformar y tratar la informacin original. La modularidad de la
informacin estructurada es esencial para llevar a cabo la visualizacin y representacin de los
datos y contenidos que sean precisos en cada momento, facilitando su correcta representacin.
Esto es posible ya que cada elemento puede ser referenciado de manera particular e
independiente, pudiendo ser recuperado conforme a los criterios que el documentalista
establezca.
Capacidad de descripcin del tipo de datos: El empleo de tcnicas de sindicacin supone que
aparte de estructurar los datos, existen documentos que validan los tipos de datos que contiene la
fuente de sindicacin o de datos. Es decir, resulta posible definir qu tipo de datos han de recoger
cada uno de los elementos que conforman la estructura o formato de un documento sindicado.
Por ejemplo es posible definir cadenas de caracteres, campos numricos, hipervnculos, entre
otros. Esto permite un mejor control y normalizacin de los contenidos y en general del conjunto
de elementos sindicados. Estas formulaciones del formato constituyen el denominado schema
XSD o DTD, que permite su validacin.
Actualizacin de alta capacidad: La sindicacin tiene la propiedad de permitir una alta
capacidad de actualizacin, en todos los suscriptores que acogen el canal original. Esto se debe
al empleo de protocolos de transmisin de datos que facilitan la gestin de las peticiones de datos
que se realizan desde los clientes suscritos, que reciben respuestas con las ltimas publicaciones
actualizadas de manera instantnea.
Compatibilidad de estndares: Cualquier formato de sindicacin tiene una alta compatibilidad y
est desarrollado de acuerdo con el estndar XML. Esto permite que puedan ser interpretados en
cualquier equipo con acceso a la red, ya que su medio de difusin es la propia web, utilizando los
mismos protocolos que marcan el funcionamiento de Internet, concretamente http.
Flexibilidad de aplicacin: La sindicacin es flexible, tanto en cuanto puede tener diversos usos.
Se emplea principalmente como sistema de difusin de noticias, pero pueden generarse
autnticos sistemas de informacin a partir de las fuentes de sindicacin de otros medios de
informacin primarios. Por lo tanto se puede apreciar que al igual que ocurre en la teora de la
documentacin (LPEZ YEPES, J. and Desantes Guanter, J.M., 1978), en la que el documento
PGINA 23 DE 54

primario era tratado y representado generando documentos secundarios, con la sindicacin se


puede llegar a conseguir los mismos efectos, pero en un cambio de escenario fsico a otro virtual
y electrnico. Se conocen ms aplicaciones que demuestran la flexibilidad de la sindicacin. Una
de las ms importantes es la agregacin y los lectores de fuentes de sindicacin, para las que la
sindicacin se convierte en un recurso para la concentracin de un objeto de estudio,
investigacin o temtica especializada que pueda interesar a un determinado investigador.
Redifusin y agregacin: Como se ha apuntado en el prrafo anterior, la sindicacin se
caracteriza principalmente por las propiedades de difusin universal desde la red de un
determinado sitio web, a todos los usuarios y clientes de Internet, mediante su divulgacin
mediante motores de recuperacin o buscadores y directorios de canales de sindicacin. La otra
propiedad fundamental es la agregacin o la capacidad de ser recopilados tantos canales, como
fuentes de datos y editores se encuentren bajo un determinado rea del conocimiento.

Funcionamiento de la sindicacin
El funcionamiento de la sindicacin de contenidos puede observarse a
documental y comunicativa donde se suceden una serie de procesos
caracterizados por las propiedades de la estructuracin de los datos,
modularidad y transformacin de la informacin, descripcin del tipo de datos,
la informacin, su redifusin y agregacin.

modo de cadena
bien definidos y
la extensibilidad,
la actualizacin de

Con la finalidad de desarrollar una idea del funcionamiento de la sindicacin de contenidos, con
respecto a la transmisin y desarrollo de los contenidos desde su inicio y gestacin hasta su
recepcin por parte de los destinatarios y usuarios de las correspondientes fuentes de datos, se
determina el modo de funcionamiento de la sindicacin de contenidos en el entorno de red,
explicando su entramado, gestin y tratamiento. La teora y modo de funcionamiento de la
sindicacin de contenidos es la comunicacin que se produce en el entorno de una red telemtica
global o local en la que los contenidos informativos, documentales, textuales y audiovisuales
confeccionados por determinados editores, son emitidos, publicados y difundidos mediante un
canal de transmisin de datos para ser recibidos y analizados por iguales, lectores, distribuidores
y centros de informacin y documentacin. Si bien la definicin aportada resulta amplia y general,
permite circunscribir mejor el entorno, los elementos y partes emisoras y receptoras de un
determinado tipo de contenidos, que es publicado para su difusin, redifusin, anlisis y lectura.
(Vase modo de funcionamiento en el entorno de red, en la figura 4). La trama de la teora de la
sindicacin de contenidos es adems en s misma la descripcin de su funcionamiento, por el cual
los responsables de los contenidos, editores, autores de divulgacin temtica, profesional y
cientfica e incluso instituciones, generan una produccin documental con un grado de validez,
calidad y representatividad de un rea del conocimiento, que puede variar, segn su disposicin,
profundidad en la que se analiza el objeto de estudio y referenciacin bibliogrfica, o aparato
crtico para la corroboracin y prueba de la veracidad de lo aportado. En este estadio, los
principales responsables de los contenidos, publican la informacin producen y generan
documentacin cuyo objetivo particular es su novedad y aportacin tcnica, terica, documental y
PGINA 24 DE 54

cientfica, para ser publicada y difundida mediante sistemas de publicacin que incorporan en s
mismos el soporte de representacin de los contenidos. Es decir, sistemas como los portales de
contenidos participativos wikis, los sistemas de gestin del conocimiento CMS y las bitcoras o
blogs, incluyen en s mismos la representacin visual y el espacio de publicacin en la red
Internet, por tanto en este caso global, en forma de sitio web, portal de noticias e incluso revistas
electrnicas. No ha de pensarse que slo se est restringido a esta tipologa de recursos
electrnicos, pero s constituyen los ms significativos que ostentan la mayor parte de los
contenidos en la red. Adems tanto el sistema de publicacin como el soporte en muchos casos
aade la funcin de sindicacin automtica de los contenidos, generando los correspondientes
canales o fuentes de sindicacin, en los formatos o lenguajes de sindicacin RSS, RDF y Atom,
que permiten la estructuracin de la informacin publicada para su correspondiente difusin a
travs del citado canal o fuente creada. Llegados a este trmino la sindicacin cumple ya su
objetivo fundamental que es poner en representacin global una fuente de datos o canal de
sindicacin que engloba todos los contenidos de un determinado autor, editor o institucin. Pero la
evolucin de la cadena de sindicacin de contenidos ha permitido ciertos controles en la
manipulacin de las fuentes o canales de sindicacin. Esto se consigue mediante programas de
sindicacin, capaces de realizar la lectura de las fuentes originales. Desarrollados originalmente
en el mbito anglosajn y por ello denominndose FeedReaders, permiten captar y agrupar
diversas fuentes para el seguimiento alerta y lectura de los contenidos sin necesidad de acceder a
la pgina web original o soporte de representacin. Estos sistemas son empleados por los
usuarios de la red, consumidores de contenidos de las fuentes de sindicacin de un determinado
autor, editor o entidad, por lo que les permite tener en conocimiento instantneo todas las
novedades documentales de aquellos recursos que ellos mismos han seleccionado. De esta
manera el usuario se convierte en un recolector de recursos y fuentes de forma directa, mediante
las tcnicas de sindicacin. No obstante existen otros caminos para acceder al mismo resultado o
al mismo receptor de la informacin y de los contenidos. Existen entornos en la red considerados
de redifusin de los contenidos, conformados por los agregadores y portales redistribuidores de
contenidos y fuentes de sindicacin. En estos casos las fuentes de sindicacin requieren de un
tratamiento diferente al empleado por los lectores de fuentes al uso que un usuario determinado
puede utilizar de manera local. En este sentido son terceros soportes de representacin de
contenidos que adaptando programas parser para el tratamiento de las fuentes de sindicacin,
son capaces de analizar los contenidos originales, y extraerlos para diversos usos de valor
aadido ya sea por recuperacin, agrupacin de contenidos o mejor representacin de la
informacin que en el sitio web original. En virtud a estos aspectos, se han desarrollado sistemas
de anlisis de fuentes de sindicacin, parsers especializados en la lectura, la transformacin y la
recuperacin de la informacin sita en las fuentes. De esta manera terceros medios de redifusin
son capaces de adaptar los contenidos a formatos de representacin nuevos, organizar y agrupar
fuentes o canales de sindicacin para su organizacin temtica y clasificacin, que constituyen
una segunda va de alimentacin para los usuarios de la red, consumidores de determinados tipos
de contenidos. Tambin se desprende de la teora de la sindicacin de contenidos, que existe una
transformacin de los documentos al igual que el fenmeno producido en las bibliotecas y centros
de informacin y documentacin, que desarrollan catlogos y productos bibliogrficos para
difundir y acceder a la informacin. En la sindicacin de contenidos ocurre lo mismo si se otorga
el tratamiento de documento a los contenidos producidos por una serie de autores, siendo
PGINA 25 DE 54

documentos primarios, que mediante el canal o fuente de sindicacin, son manipulados para su
organizacin, distribucin y descripcin, generndose a la postre una documentacin secundaria,
referencial de los primeros.

Los formatos de sindicacin


Los formatos de sindicacin son lenguajes de marcado basados en XML con los que se conforma
la estructura de un canal de sindicacin y sus elementos. El objetivo de un formato de sindicacin
es representar un contenido de la mejor forma posible para ser transmitido y difundido. A este
objetivo hay que aadir que los formatos de sindicacin tradicionales como RSS1.0, RSS2.0 y
Atom constan de estructuras jerrquicas sencillas puesto que fueron diseados para transmitir
noticias, artculos y contenidos publicados en la web. Para estos efectos inicialmente no eran
necesarias etiquetas especializadas para distinguir datos especiales. Pero esta tendencia empez
a cambiar conforme se fue ampliando la complejidad de los tipos de documentales publicados y
su entorno de aplicacin. Un ejemplo claro de este cambio lo suponen las revistas electrnicas y
la necesidad de controlar parmetros como la periodicidad de la publicacin, las pginas en las
que se encuentra un determinado artculo, los nmeros de identificacin de publicaciones
seriadas, el volumen, nmero o ejemplar de la revista, su fecha de publicacin, etc. Todos ellos
constituan elementos que no haban sido tenidos en cuenta en tales formatos de sindicacin y tal
caso demostraba que conforme a la disposicin de un tipo documental como el artculo cientfico,
los formatos de sindicacin no estaban preparados para su completa estructuracin, evitando
PGINA 26 DE 54

prdidas de datos.
Si bien los formatos de sindicacin por s solos atendiendo a su estructura bsica no eran
capaces de representar toda la informacin, utilizaron una de las propiedades fundamentales de
la sindicacin basada en XML, la propiedad de extensibilidad, para solucionar dichos problemas.
De hecho la extensibilidad de los formatos de sindicacin de contenidos permite el empleo de
terceros formatos de sindicacin o mdulos debidamente validados a travs de la declaracin de
su namespace o espacio de nombres en el que se encuentra su schema XSD o lo que es lo
mismo las reglas de construccin de dicho lenguaje, sus etiquetas, atributos y caractersticas
propias.
Esta capacidad propia de los lenguajes de marcado derivados de XML ha sido ampliamente
aprovechada por los formatos de sindicacin que pueden emplear mdulos especializados para
resolver por ejemplo el problema de la descripcin de artculos de revistas cientficas.
Conforme a lo explicado, los formatos de sindicacin originalmente no fueron concebidos para
describir tipos documentales especializados, sino ms bien una generalidad de tipos
documentales enmarcados en la publicacin web, lo cual ha supuesto mltiples cambios, mejoras
y avances conforme a los formatos originales. Un ejemplo claro de ello es el formato RSS que en
total ha sumado ocho versiones distintas desde su creacin en 1999 hasta el ao 2003. Todos
estos cambios de versin han propiciado un continuo proceso de adaptacin por parte de los
navegadores web que soportaban la sindicacin como mtodo de redifusin de la web, implicando
constantes cambios en los mecanismos parser de interpretacin, lectura y agregacin de
contenidos.

Atom
El formato Atom fue desarrollado a partir del ao 2003 como resultado de una propuesta de Sam
Ruby, por crear un formato de sindicacin que mejorara la experiencia de descripcin de los
contenidos web. Es importante sealar que la iniciativa fue propiciada por la disconformidad con
el formato RSS, que resultaba en muchos casos demasiado sencillo e ineficaz para representar
contenidos publicados en una web cada vez ms dinmica (RUBY, S., 2003), por ejemplo la
posibilidad de incluir comentarios, las fuentes de origen, autores, colaboradores de los
contenidos, etc. Esta idea fue expuesta en el portal Intertwingly del propio Sam Ruby, obteniendo
una gran cantidad de adhesiones de desarrolladores para trabajar en el desarrollo de dicho
formato. Se tiene constancia de la participacin activa de algunos de los autores del formato de
sindicacin RSS1.0 y RSS2.0 como Aaron Swartz, Mark Pilgrim, Tim Bray o incluso el propio
Dave Winer creando en conjunto como grupo de trabajo APE(Atom/Pie/Echo), la primera hoja de
ruta para desarrollar el formato Atom (RUBY, S. and Hopkins, D., 2007). En este documento se
expresan algunas de las directrices distintivas del nuevo formato:
1) Neutralidad de desarrollo con independencia de las compaas que suministren y proporcionen
soporte al formato.
2) libre utilizacin del formato por todo el mundo.
3) Libre extensibilidad del formato por cualquier con cualquier otro formato o mdulo.
4) Constituido por un lenguaje limpio y bien formado.
PGINA 27 DE 54

El grupo de trabajo APE, as denominado por las distintas lneas de desarrollo y concepcin del
formato (Atom, Pie, Echo), desemboc en el desarrollo de la versin 0.2 de prueba del formato
Atom, todava en un estado muy primario, carente de DTD, validacin y estructuracin clara a
tenor de lo analizado en sus especificaciones (APE(ATOM/PIE/ECHO) WORKING GROUP, 2003).
Este primer resultado no dispona de protocolos y herramientas de edicin o actualizacin del
canal de sindicacin, tal y como fue delimitado en la hoja de ruta. Estos avances se conseguirn
con una versin ms normalizada, Atom0.3, cuyas especificaciones quedan perfectamente
aclaradas (APE(ATOM/PIE/ECHO) WORKING GROUP, 2003). A partir de entonces Atom empez
a ganar importancia al ser adoptado como principal formato de sindicacin adoptado por Google
para la representacin de los contenidos publicados en su divisin de blogs Blogger (Atom API
Documentation for Blogger, 2006), extendindose su uso a terceras aplicaciones de importancia
como Google News o incluso el propio Gmail, posibilitando la sindicacin de noticias y correos
electrnicos mediante canales en formato Atom.
A pesar de todo, Atom0.3 no era reconocido como lenguaje normalizado, por lo que se transfiri
su desarrollo al IETF Atom Pub Working Group, constituido por los mismos miembros del equipo
de trabajo anterior, dirigidos por Tim Bray y Paul Hoffman. Los objetivos esenciales de este nuevo
equipo era la creacin de un espacio de nombres propio sobre el asentar un formato de
sindicacin ms maduro y completo. Ello se logr en el ao 2005 con Atom1.0 logrando el
reconocimiento del Internet Engineering Task Force y el W3C Consortium como un estndar de
sindicacin de contenidos (IETF ATOMPUB WORKING GROUP, 2005).

Estructura del formato Atom


Atom es un formato basado en XML para la descripcin general de contenido web que a partir del
protocolo HTTP y sus mtodos POST y GET permite la actualizacin de los contenidos publicados
en el canal. Atom tambin cumple con las condiciones de cualquier formato de sindicacin en
relacin a constituir un canal de sindicacin con un archivo XML bien formado y validado.
Apertura y cierre del formato
El formato Atom como cualquier XML, siempre comienza con una primera lnea de declaracin del
lenguaje XML <?xml version="1.0" encoding="UTF-8"?> necesaria para identificar que el archivo
utiliza las reglas de marcado de XML, as como el set de caracteres empleado. Aunque resulte
una instruccin banal, como se explicar en sucesivos captulos, esta declaracin es necesaria
para considerar un documento XML bien formado y validado, adems de contener informacin
esencial del set de caracteres que juega un papel fundamental para la correcta visualizacin de
los contenidos y su posterior tratamiento.
A continuacin se conforma la estructura del formato Atom propiamente dicho, compuesto por dos
partes fundamentales; el feed o canal y el entry o tem. El feed es el primer elemento del formato
y acoge como descendientes a los elementos entry que componen los contenidos que se
sindican. Se trata de una etiqueta de apertura y cierre <feed></feed> por lo que encabeza y
finaliza el formato. Las entradas del canal de sindicacin tambin emplean una solucin de
apertura y cierre <entry></entry> que embeben a su vez el contenido, configurndose cuantas
sean necesarias.

<?xmlversion="1.0"encoding="UTF8"?><feed
PGINA 28 DE 54

xmlns="http://www.w3.org/2005/Atom">
...<entry>
...
</entry>...
</feed>

El elemento feed es por tanto el elemento padre del que dependen todos los dems y tiene como
objetivo contener tanto la informacin propia del canal de sindicacin como las entradas o tems
que constituyen los contenidos. Tambin consta de un atributo obligatorio concretamente, el
namespace o espacio de nombres correspondiente al formato Atom, que resulta obligatorio para
la identificacin de la estructura para el protocolo Atom o para cualquier parser de canales de
sindicacin, <feed xmlns="http://www.w3.org/2005/Atom">.
Definidos estos aspectos se consideran etiquetas del elemento feed aquellas que definen la
informacin bsica del canal de sindicacin como su ttulo, descripcin, autor, fecha de
publicacin o enlace, configurndose los siguientes elementos:

Elementos de descripcin del canal

Identificador <id></id>. El elemento id permite identificar de forma unvoca el sitio web


del canal de sindicacin que acta a modo de fuente de informacin, para ello suele
emplearse su URI (Universal Resource Identifier), por constituir un vnculo permanente de
acceso directo.

Ttulo <title></title>. Title es el ttulo completo propiamente dicho del canal.

Fecha de actualizacin <updated></updated>. El elemento updated configura la fecha


de actualizacin del canal, por lo que su valor vara segn la regeneracin de la fuente de
informacin. Su formato es el establecido por la norma RFC3339 anteriormente referido.

Autor <author></author>. El elemento author est pensado para contener la


informacin correspondiente a una autoridad personal responsable del canal de
sindicacin. Por ello, consta a su vez de una serie de elementos anidados para su
descripcin, a saber:
o

Nombre <name></name>. forma completa del nombre de la persona.

Correo <email></email>. Correo electrnico de la persona.

Identificador <uri></uri>. identificador universal de la persona, su nmero de


PGINA 29 DE 54

autoridad o ms comnmente la url de su sitio web. (Tales elementos son comunes


para cualquier otro elemento que implique persona o autoridad como puede ser el
elemento colaborador <contributor></contributor>)

Enlace <link rel="" href="" type="" hreflang="" title="" length=""/>. El elemento link
lo constituye una sola etiqueta de apertura y cierre y su papel es fundamental en el canal
ya que identifica la url completa al archivo XML del canal de sindicacin y el tipo de
relacin del enlace con el propio canal. Estos aspectos se definen en sus atributos de la
siguiente forma:
o

Relacin rel="". El atributo rel determina el tipo de relacin que existe entre el
enlace y el canal de sindicacin. Por tanto si contiene una URL o enlace al canal de
sindicacin tomar el valor self, puesto que se identifica a s mismo. El empleo del
atributo rel es opcional pero importante en combinacin con href.

Direccin URL href="". El atributo href se emplea para definir el enlace o URL
correspondiente al canal de sindicacin Atom. Debe asegurarse que el contenido
enlazado es el propio archivo XML empleado para la sindicacin del contenido. La
utilizacin del atributo href es obligatoria para definir el enlace.

Tipo type="". El atributo type define el tipo de informacin que contiene el enlace
href, pudiendo definir tipos MIME, en el caso de definir el propio canal de
sindicacin type toma el valor application/atom+xml, tal y como aclaran las
especificaciones. Su empleo es

Idioma hreflang="". Permite definir en qu idioma se encuentra el contenido


enlazado por la URL. Por regla general suele emplearse la norma ISO 639-1 de
cdigos de idioma que los define con dos caracteres.

Ttulo title="". El atributo title define el ttulo del enlace, facilitando su


comprensin de cara a su representacin y lectura.

Tamao length="". El atributo length define el tamao o extensin del


contenido enlazado por la URL en bytes. Por tanto su informacin es de tipo
numrico.

Temtica <category term="" scheme="" label=""/>. Al igual que el elemento link,


category est formado por una sola etiqueta que contiene los atributos necesarios para
definir la temtica del canal.

Trmino term="". Contiene el identificador o identificadores temticos que permiten


clasificar el canal de sindicacin. Normalmente lo constituye un descriptor temtico o las
palabras clave. Es un atributo de uso obligado si se emplea el elemento category.

Esquema scheme="". Define la URI del esquema de categoras del que se ha tomado
el identificador temtico. Suele emplearse cuando existen lenguajes controlados como
ontologas o tesauros basados en XML. El empleo de este atributo es opcional.
PGINA 30 DE 54

Etiqueta label="". Define una etiqueta que o bien describe el trmino empleado para
clasificar el canal o bien sirve como trmino legible y representable. Esto sucede cuando el
atributo term, en vez de contener un texto como un descriptor, alberga un cdigo de
identificacin numrico o alfanumrico correspondiente a tal trmino. El empleo de este
atributo al igual que scheme, tambin es opcional. Colaborador
<contributor></contributor>. El elemento contributor identifica a los colaboradores del
canal de sindicacin. Al igual que el elemento author, dispone de una estructura de
subelementos para definir el nombre completo, el correo electrnico y la URI
correspondiente al identificador de la persona en una lista de autoridades o de su sitio
web.

Nombre <name></name>. forma completa del nombre de la persona.

Correo <email></email>. Correo electrnico de la persona. Identificador


<uri></uri>. identificador universal de la persona, su nmero de autoridad o ms
comnmente la url de su sitio web. Generador <generator uri=" "
version=""></generator>. El elemento generator identifica el nombre del programa que
gener el canal de sindicacin. Normalmente este suele coincidir con los sistemas de
publicacin web que incorporar sus propios procesos de edicin y publicacin de canales
de sindicacin. Adems como atributos opcionales permite declarar la URI o URL del
programa generador del canal y su versin.

Identificador uri="". Atributo que contiene el enlace identificador universal del programa
generador de canales Atom.

Versin version="". Versin del programa empleado para generar el canal.

Icono <icon></icon>. Permite identificar un icono que se utiliza a modo de favicon del
propio canal de sindicacin. Esto se efecta introduciendo la URL correspondiente a la
imagen que configura el icono en formato .ico .png.

Logotipo <logo></logo>. El elemento logo contiene la URL a una imagen que acta
como logotipo identificador del canal, de forma que sea visible en los lectores de canales
de sindicacin

Derechos <rights></rights>. Contiene los derechos de autor o consideraciones de


propiedad intelectual sobre los contenidos del canal de sindicacin, de forma que permite
definir una norma en el tratamiento de los contenidos por terceros.

Subttulo <subtitle></subtitle>. El elemento subtitle no solo hace referencia al empleo


de subttulos, ya que tambin permite descripciones del canal de sindicacin. Esta
caracterstica plasmada en las especificaciones del formato hace que resulte
especialmente ambiguo su empleo, constituyendo un fallo importante en el diseo del
formato. Por este motivo sigue siendo ms aconsejable la introduccin nicamente del
subttulo. Elementos de entry Una vez definido un canal con los elementos propios de
feed, se suceden consecutivamente las entradas o contenidos propiamente dichos. stos
estn anidados en la estructura <feed></feed> conformando el cuerpo del canal de
PGINA 31 DE 54

sindicacin con los siguientes subelementos:

Identificador <id></id>. El elemento id enmarcado en una entrada es el identificador


universal de la misma. Normalmente se utiliza la URL absoluta del contenido que se est
representando.

Ttulo <title></title>. Contiene el ttulo completo de la entrada o contenido.

Fecha de actualizacin <updated></updated>. El elemento updated al igual que en el


canal representa la fecha de actualizacin de la entrada, que hay que diferenciar de la
fecha de publicacin de la misma. En todos los casos el formato de datos aceptado para
estos elementos es el que viene establecido por la norma RFC3339.

Autor <author></author>. Contiene la autoridad personal responsable del contenido


descrito en la entrada. Tal y como se ha especificado anteriormente el elemento consta de
subelementos para definir el nombre completo, el correo electrnico y su uri de
identificacin como autoridad normalizada o la url correspondiente a su sitio web particular.

Contenido <content type="" src=""></content>. El elemento content permite


introducir todo o parte del contenido que ha sido referenciado por la entrada. Resulta
habitual definir un atributo type opcional que determina el tipo de codificacin del
contenido.

Tipo type="". El atributo type es opcional pero recomendado si el texto


contenido est codificado, permitiendo su correcta visualizacin e interpretacin
por cualquier parser. Permite definir la codificacin del contenido como text, html y
xhtml.

Direccin URL src="". Atributo opcional que posibilita la introduccin de una


URL absoluta a modo de URI que representa la fuente original en la que fue
encontrado el contenido. Si se emplea el atributo src junto con type el significado
de type vara por el de tipo MIME del contenido del enlace.

Enlace <link rel="" href="" type="" hreflang="" title="" length=""/>. El elemento link
lo constituye una sla etiqueta de apertura y cierre y contiene la url relativa de la entrada,
pudiendo ser una pgina web nica propia del contenido o relacionada. De hecho puede
emplearse tantos elementos links como sean necesarios para describir los enlaces del
contenido. En relacin a sus atributos operan de la misma forma que en el caso del feed.
El atributo rel define el tipo de relacin del contenido con el enlace, adquiriendo distintos
valores predeterminados como alternate, enclosure, related, self y via. El valor alternate
define que el contenido enlazado es una representacin alternativa de la entrada; El valor
enclosure define que el enlace es un contenido de gran tamao y extensin,
fundamentalmente un archivo de audio o video, lo que implica un canal de broadcasting o
podcasting, afectando al atributo type en el que se tendr que definir obligatoriamente su
tipo MIME; El valor related implica que el contenido enlazado est relacionado con la
entrada; El valor self indicara que el contenido enlazado es la propia entrada; El valor via
indicara la fuente original del contenido de la entrada. En relacin al resto de atributos no
PGINA 32 DE 54

constan de mayor complejidad pues el atributo type mantiene su objetivo de establecer el


tipo MIME, hreflang el cdigo de idioma del contenido enlazado, title el ttulo de la pgina o
contenido enlazado y length la extensin o tamao de la pgina, archivo o contenido
enlazado, siendo de especial utilidad en el caso de archivos audiovisuales.

Sumario <summary></summary>. El elemento summary puede contener diversos


tipos de contenido, considerndose polivalente para definir tanto un sumario o relacin de
contenidos, un resumen o incluso un prlogo del contenido de la entrada. Al igual que
ocurre con otros elementos del formato Atom como el caso del elemento subtitle su
utilizacin resulta ambigua.

Temtica <category term="" scheme="" label=""/>. El elemento category est


formado por una sola etiqueta que contiene los atributos necesarios para definir la
temtica de la entrada. Al igual que su modo de empleo con el elemento feed, el atributo
term define el trmino o descriptor propiamente dicho que clasifica la entrada; el atributo
scheme define un enlace URI al lenguaje de clasificacin si lo hubiera y finalmente label se
emplea como etiqueta o descripcin visible en relacin al valor definido en term.

Colaborador <contributor></contributor>. El elemento contributor opera de la misma


forma que se ha definido anteriormente con feed. Se refiere al colaborador del contenido
de la entrada para el que se definen los mismos subelementos para identificar su nombre
completo, correo electrnico e identificador URI como autoridad o URL de su sitio web
personal.

Fecha de publicacin <published></published>. El elemento published define la


fecha de publicacin del contenido, con el formato definido por la norma RFC3339.

Fuente <source></source>. Constituye un elemento importante desde el punto de vista


documental por permitir definir e identificar con mayor precisin la fuente original de la que
se ha tomado un determinado contenido que forma parte del canal de sindicacin en la
entrada correspondiente. Para ello se articulan los siguientes elementos anidados:

Identificador <id></id>. Url absoluta a modo de URI de la fuente primaria del


contenido de la entrada.

Ttulo <title></title>. Ttulo de la fuente original.

Fecha de actualizacin <updated></updated>. Fecha de actualizacin de la


fuente original en formato RFC3339.

Derechos <rights></rights>. Derechos de autor o propiedad intelectual que


definen los usos de la fuente original del contenido.

Derechos <rights></rights>. El elemento rights define los derechos de autor o


propiedad intelectual que rigen el uso de los contenidos de la entrada.

PGINA 33 DE 54

Extensibilidad de Atom
Al igual que sucede con el resto de formatos de sindicacin, el formato Atom es extensible por
estar definido como un lenguaje basado en XML. La propiedad de extensibilidad lo habilita para
introducir elementos y etiquetas con nombres de espacio propio. Esto se consigue mediante la
declaracin del namespace en la etiqueta feed como un atributo xmlns aadido a los ya
existentes. De esta forma pueden emplearse terceros formatos basados en XML que sirvan para
ampliar la capacidad de descripcin de Atom.

Ventajas e inconvenientes del formato Atom


El formato Atom tal y como es definido por sus propias especificaciones est diseado para la
descripcin de recursos y contenidos web. Esto significa que su aplicacin universal a cualquier
tipo documental viene limitada por una estructura sencilla pensada para servir de soporte de
contenidos con una descripcin bsica. Teniendo en cuenta este aspecto, desde el punto de vista
documental existen elementos ventajosos en el empleo de Atom en la descripcin de
documentos. Fundamentalmente estos residen en la distincin entre la fecha de publicacin y la
fecha de actualizacin del canal de sindicacin y su diferenciacin con respecto al contenido, lo
que permite determinar fechas precisas en relacin a la edicin de la informacin. Est bien
pensado el empleo de elementos como source ya que permiten citar y referenciar los documentos
originales y su localizacin absoluta, facilitando un orden y precedencia lgica de la informacin,
su evolucin cronolgica e incluso su seguimiento hasta las fuentes primarias. Finalmente es
destacable el intento por dotar de una estructura de autoridades a los autores y colaboradores
tanto del canal de sindicacin como de los contenidos. Si bien esta intencionalidad es clara por
constituir una estructura comn es insuficiente para ordenar y definir suficientemente una
autoridad personal, por lo que su modo de empleo resulta muy laxo. En cuanto a los
inconvenientes y factores negativos del formato se encuentran algunos elementos demasiado
ambiguos que pueden dificultar la normalizacin de la informacin siendo ste el caso de subtitle
y summary. En el primer caso subtitle permite la introduccin indistinta o bien del subttulo o bien
de la descripcin del canal de sindicacin, lo que en trminos documentales resulta radicalmente
diferente. Por otro lado summary permite la introduccin indistinta de un sumario de contenidos o
resumen que tambin resultan dos conceptos diferentes que habra que diferenciar en el formato.
Este tipo de elementos ambivalentes bien intencionados originalmente para obtener la mxima
flexibilidad y sencillez del formato dificultan la correcta identificacin de la informacin de un
documento. En cuanto a los identificadores URI de una fuente original, las especificaciones dan
pie a una posible duplicacin de informacin, al permitir definirla con el atributo href del elemento
content con respecto al elemento source. Si bien no suele ser definida desde el elemento content
la URL absoluta de las fuentes debera ser nicamente declarable desde el elemento diseado
especficamente para ese propsito.

RSS 1.0 RDF


El format RSS1.0 se crea en el 6 de diciembre de 2000 como resultado de los trabajos del RSSPGINA 34 DE 54

DEV Working Group (BEGED DOV, G. et al., 2008). Este grupo de trabajo continu la lnea de
desarrollo original del formato RSS0.90 y RSS0.91 (NETSCAPE, 2001), primer formato de
sindicacin reconocido y utilizado, creado por Dan Libby y Ramanathan V. Guha para el
navegador Netscape y su portal de noticias (KING, A., 2003). RSS1.0 aportara la primera
estructura modular, pensada para las propiedades extensibles de XML. A parte de esta
caracterstica RSS1.0 se diferenciar del resto de versiones de RSS por basarse en un nuevo
modelo de lenguaje basado en XML, se trata de RDF (Resource Description Framework), que
permite la descripcin y estructuracin de la informacin de los recursos de la web. Esta
particularidad se debe a su capacidad para definir vocabularios de descripcin, as como
determinar relaciones semnticas de los contenidos mediante el empleo de relaciones sintcticas
entre distintos objetos de descripcin que hacen las veces de 1) sujetos, 2) predicados y 3)
objetos, tambin denominadas como relaciones triples. El nuevo formato requera el empleo real
de un DTD y posteriormente Schema XSD, por lo que se desarroll uno compatible con los
elementos bsicos del formato y las propiedades de RDF (RDF/XML Syntax Specification
(Revised), 2004). Aunque la propiedad de extensibilidad es comn a cualquier formato de
sindicacin basado en XML, RSS1.0 ser el primero en apostar por la introduccin de mdulos
que completaran el formato original para ser capaz de describir mejor, segn el caso cualquier
tipo de recurso web. Esta concepcin llev al desarrollo de mdulos especficamente diseados
para el formato RSS1.0, formando parte de las especificaciones originales. Segn la ltima fecha
de actualizacin de las especificaciones RSS1.0 reconocen tres mdulos completamente
reconocidos como parte del estndar en uso siendo el mdulo content, syndication y dublin core.
No obstante se desarrollaron otros muchos mdulos que o bien se encuentran en desuso y
desactualizacin o bien por motivos de desarrollo an no son considerados estndar de uso junto
con RSS1.0; es el caso de mdulos como prism, admin, aggregation, annotation, audio, cc,
changedpage, company, context, email, event, link, richequiv, rss091, search, servicestatus, slash,
streaming, subscription, taxonomy o threading (BEGED DOV, G. et al., 2002).

Estructura del formato RSS1.0 RDF


RSS1.0 consta de una estructura modular pensada para la extensibilidad con terceros formatos y
mdulos. Al igual que Atom, para operar como formato de sindicacin el archivo correspondiente
al canal debe estar bien formado y validado. Para estos efectos dispone de un Schema XSD real
correspondiente a su modularidad RDF http://www.w3.org/1999/02/22-rdf- syntax-ns# y un
namespace sencillo que alude a la estructura bsica de RSS heredada en gran medida de la
versin 0.90 original, http://purl.org/rss/1.0/ que constituye el manual de referencia y
especificaciones del formato de sindicacin al igual que ocurre con Atom. Dicho de otra forma,
RSS1.0 no requiere de DTD.
Otras caractersticas reseables que determinan la estructura del formato RSS1.0 es la
disposicin de un esquema de descripcin ms sencillo y menos controvertido de cuantos
formatos de sindicacin existen, permitiendo una total libertad para la introduccin de formatos no
consensuados pero validados por mtodo de extensibilidad y declaracin de espacio de nombres.
Tal y como reza la especificacin, est pensado para no reescribir el ncleo de elementos que
componen el formato, no requiere consenso alguno la utilizacin de los elementos, dado que
resulta la ms sencilla y comn a la prctica totalidad de los formatos de sindicacin, como por
ejemplo RSS2.0 o Atom. Tambin destaca la alta compatibilidad con cualquier mdulo puesto que
no entra en conflicto por constar de elementos suficientemente bsicos y finalmente se destaca la
libertad de aplicacin para describir cualquier tipo de documento, es decir una mayor flexibilidad
de aplicacin.
PGINA 35 DE 54

Apertura y cierre del formato


El formato RSS1.0 al igual que cualquier documento XML comienza con una primera lnea de
declaracin del lenguaje XML <?xml version="1.0" encoding="UTF-8"?> necesaria para identificar
que el archivo utiliza las reglas de marcado de XML, as como el set de caracteres empleado. En
las especificaciones se recomienda el empleo del set de caracteres UTF-8 como valor preferente
del atributo encoding de la declaracin. Ello conlleva una mayor normalizacin de los caracteres y
smbolos que pueden emplearse en un momento dado entre los tems del canal de sindicacin.
Por otro lado la declaracin de archivo XML es necesaria para considerar un documento XML bien
formado y validado.
A continuacin se conforma la estructura del formato RSS1.0 propiamente dicho, compuesto por
un elemento raz, <rdf:RDF></rdf:RDF>. Se trata de una etiqueta de apertura y cierre que articula
y engloba todo el canal incluyendo sus dos partes esenciales, el <channel></channel> y los
contenidos <item></item>. La etiqueta rdf:RDF est asociada de manera directa al espacio de
nombres definido por defecto para este formato http://www.w3.org/1999/02/22-rdf-syntax-ns#,
convirtiendo el canal de sindicacin completo a todos los efectos en un objeto ms de la web
semntica.
<?xmlversion="1.0"encoding="UTF8"?><rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22rdfsyntaxns#"
xmlns="http://purl.org/rss/1.0/"><channelrdf:about="">...</channel>
<item>...</item>
</rdf:RDF>
En relacin a la etiqueta channel contiene todas las etiquetas de descripcin del canal de
sindicacin. Por otro lado la etiqueta item contiene etiquetas de descripcin de las entradas que
conforman el contenido del canal. Los tems son repetibles y pueden configurarse cuantos sean
necesarios.

Elementos de descripcin del canal, <channel></channel>


El elemento channel como se acaba de indicar contiene elementos que actan como metadescriptores del propio canal, definindolo y enlazndolo oportunamente. A parte de ello, la
etiqueta channel requiere un atributo rdf:about que sirve para definir la URL absoluta o URI del
propio canal de sindicacin, es decir la ruta absoluta al archivo XML que contiene el canal. Si no
se satisface esta declaracin el formato RSS1.0 no estar bien formado y por ende validado. En
cuanto a los elementos que componen channel, lo constituyen title, link, description, image, items
y textinput.

Ttulo <title></title>. Contiene un ttulo descriptivo del canal de sindicacin.

Enlace <link></link>. Contiene la URL absoluta de la pgina web que contenga una
representacin HTML del canal de sindicacin. Tambin resulta frecuente utilizar la URL
PGINA 36 DE 54

del sitio web del canal de sindicacin.

Descripcin <description></description>. Contiene una descripcin del contenido del


canal, su funcin o fuentes que utiliza para nutrirse de informacin.

Recurso de imagen <image rdf:resource=""/>. El elemento image es opcional, no


requiere de etiqueta de cierre y permite realizar una asociacin RDF entre una imagen y el
propio canal de sindicacin. Esta asociacin se efecta mediante el empleo de un atributo
rdf:resource que toma el valor de la URL absoluta del archivo de imagen asociado. Dado
que la etiqueta image acompaada del atributo rdf:resource es una declaracin de
asociacin, en RDF es necesario identificar o declarar el objeto de dicha relacin,
implicando otro elemento image situado en un nivel jerrquico superior, considerado
hermano de channel pero con una estructura diferente:
- Descripcin de imagen <image rdf:about=""> <title></title> <link></link>
<url></url> </image>. Esta estructura responde a la declaracin de un objeto,
concretamente una imagen. Para ello la etiqueta image consta de un atributo
rdf:about que permite establecer una relacin de identificacin con respecto al
recurso definido anteriormente <image rdf:resource=""/>. La descripcin de este
objeto conlleva definir la misma URL absoluta o URI de la imagen definida
anteriormente como valor del atributo rdf:about. Por otro lado supone la descripcin
del ttulo de la imagen mediante el subelemento title, la introduccin del vnculo que
representa la imagen mediante link y la URL absoluta correspondiente a dicha
imagen mediante url, que coincide normalmente con la URI del recurso u objeto
que se describe.
Lista de elementos <items></items>. El elemento items es de inters para la
organizacin de los contenidos del canal de sindicacin, puesto que acta a modo de
ndice o tabla de contenidos, permitiendo relacionar cada elemento item por medio de su
URL absoluta o URI, principal identificador de cada apartado. Para ello items est
compuesto
por
la
siguiente
estructura
anidada:
<rdf:Seq><rdf:li
resource=""/></rdf:Seq>. La etiqueta rdf:Seq responde a una secuencia o listado de
recursos declarados y que por lo tanto estn presentes en el canal de sindicacin a modo
de tem. Dentro de rdf:Seq se encuentra el elemento repetible rdf:li que contiene la
referencia URI del contenido disponible en el canal, declarado a travs del atributo
resource. De esta forma se encontrarn tantas referencias como contenidos se traten
dentro del canal de sindicacin, manteniendo la integridad referencial del URI de acceso a
los mismos.
Recurso de entrada de datos <textinput rdf:resource=""/>. El elemento textinput
permite establecer una asociacin mediante RDF con una pgina web o aplicacin XML a
la cual puede remitirse una determinada informacin mediante el protocolo HTTP, mtodo
GET. La utilidad original de este elemento era servir de caja de texto para introducir
cadenas de consulta y poder efectuar bsquedas o filtrados sobre los contenidos del canal
de sindicacin. De esta forma la aplicacin de destino, directamente vinculada procesara
la informacin y ofrecera una respuesta a dicha demanda informativa. Al igual que sucede
con el elemento image, en RSS1.0 al declarar una asociacin se hace necesario describir
el objeto de dicha relacin. Por este motivo se emplea otro elemento textinput situado en
un nivel jerrquico superior como si de un tem se tratara, considerado hermano del
elemento channel pero con una estructura diferente:

PGINA 37 DE 54

Descripcin de entrada de datos <textinput rdf:about=""> <title></title>


<description></description> <name></name> <link></link> </textinput>. Esta
estructura adicional refleja la descripcin del objeto de la relacin, en este caso una
pgina a la que se remiten datos por medio del protocolo HTTP. Para establecer
una integridad referencial y con ello una asociacin con el recurso, se emplea el
atributo rdf:about que coincidir con la URI o URL absoluta de la pgina o
aplicacin XML objeto. Por otro lado se contienen los subelementos title para
identificar el ttulo de dicha pgina u objeto, description para una descripcin o
resumen de su contenido y funciones, name para su denominacin bsica y link
para declarar el enlace o URL del objeto que con frecuencia coincidir con la URI o
URL absoluta del recurso y de la asociacin.

Elementos de item
El elemento item constituye la entrada a los contenidos del canal de sindicacin en RSS1.0, pero
tambin la declaracin del objeto o descripcin del mismo, anteriormente referenciado en el canal,
concretamente en la ruta (rdf:RDFchannelitemsrdf:Seqrdf:li). El tem forma parte
dependiente de la etiqueta rdf:RDF al igual que channel por lo que se pueden considerar nodos
hermanos, dependientes del mismo padre. Cada tem consta a su vez de los siguientes
elementos:

Ttulo <title></title>. Contiene el ttulo del contenido.


Enlace <link></link>. Contiene la URL absoluta de la pgina o URI correspondiente al
contenido.
Descripcin <description></description>. Contiene el contenido completo o parte del
mismo. Engloba toda la informacin en bruto, incluyendo codificacin html o xhtml si fuera
necesario.

Extensibilidad de RSS1.0 RDF


RSS1.0 es un formato diseado originalmente para ser ampliado con diversos mdulos o terceros
formatos por medio de la propiedad de extensibilidad. Para utilizarlos es necesario declarar el
espacio de nombres o namespace correspondiente al mdulo o formato permitiendo en ese caso
la introduccin de nuevas etiquetas y elementos de descripcin (BRAY, T. et al., 2006).
La sintaxis para la declaracin de namespace es similar en todos los formatos, variando la
ubicacin de los atributos xmlns. En el caso de RSS1.0 se sitan como atributos del elemento
raz, la etiqueta rdf:RDF.

Mdulo Dublin Core


Dublin Core (BEGED DOV, G. et al., 2000) es un estndar de metadatos que si bien resulta
independiente del desarrollo de RSS1.0 RDF, tambin es verdad que ha sido incluido y aprobado
PGINA 38 DE 54

como mdulo estndar del mismo, segn las especificaciones. Atenindonos a estas, el mdulo
consta de los elementos bsicos de Dublin Core a saber:
<dc:title>
Definicin del ttulo propiamente dicho.
Disponible en: http://purl.org/dc/terms/title
<dc:creator>
Definicin del nombre del autor y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/creator
<dc:subject>
Materia o temtica del documento o contenido.
Disponible en: http://purl.org/dc/terms/subject
<dc:description>
Descripcin o contenido completo.
Disponible en: http://purl.org/dc/terms/description
<dc:publisher>
Nombre del editor y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/publisher
<dc:contributor>
Nombre del colaborador y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/contributor
<dc:date>
Fecha de publicacin segn formato ISO8601.
Disponible en: http://purl.org/dc/terms/date
<dc:type>
Tipo de contenido en funcin a su gnero o naturaleza.
Disponible en: http://purl.org/dc/terms/type
<dc:format>
Formato del documento, soporte fsico e incluso su descripcin fsica.
Disponible en: http://purl.org/dc/terms/format
<dc:identifier>
Identificador universal del contenido, permite ISBN, ISSN, URI, nmero de registro, etc.
Disponible en: http://purl.org/dc/terms/identifier
<dc:source>
Fuente de origen del contenido. Admite URL o definicin de la fuente.
Disponible en: http://purl.org/dc/terms/source
<dc:language>
Idioma o lengua en la que est escrito el contenido.
Disponible en: http://purl.org/dc/terms/language

PGINA 39 DE 54

<dc:relation>
URL de pginas cuyos contenidos estn relacionados.
Disponible en: http://purl.org/dc/terms/relation
<dc:coverage>
Definicin de la cobertura cronolgica y geogrfica.
Disponible en: http://purl.org/dc/terms/coverage
<dc:rights>
Derechos de propiedad intelectual, autora y explotacin.
Disponible en: http://purl.org/dc/terms/rights

Los metadatos fundamentales de Dublin Core permiten completar los formatos de sindicacin,
para describir de la mejor manera posible un documento atendiendo a sus aspectos
fundamentales, que por otra parte RSS1.0 no contempla en su configuracin bsica. El tipo de
recurso, autor, colaborador, editor, el formato, la fuente original de la informacin, contenidos
relacionados, declaracin de nmeros de identificacin universal ISBN, ISSN, derechos de
propiedad y explotacin as como la cobertura cronolgica y geogrfica, permiten una
identificacin ms completa de cualquier material bibliogrfico, digital, facilitando por otra parte su
tratamiento documental.
Si bien tales los elementos de Dublin Core se consideran esenciales, el empleo de su Namespace
habilita la utilizacin de otros que tambin pueden ser aprovechados para la descripcin
documental.

Mdulo Syndication
El mdulo Syndication (RDF Site Summary 1.0 Modules: Syndication, 2000), fue desarrollado por
el mismo equipo de trabajo autor del formato de sindicacin RSS1.0. Esto significa que su
integracin es muy frecuente, dado que permite definir la fecha de actualizacin, frecuencia y
periodo de actualizacin. Aunque se considera un mdulo con una cantidad de elementos
reducida, resulta importante para indicar a cualquier lector parser o agregador cuando debe
refrescar el contenido del canal de sindicacin. Aunque tal especificacin es solucionada por
muchos programas mediante la actualizacin sistemtica, predefinida por el usuario, an se
emplean las etiquetas de Syndication como resultado del proceso de generacin de un canal de
sindicacin a efectos indicativos del grado de actualizacin del mismo.
<sy:updateFrequency>
Se determina con un nmero entero positivo la frecuencia de actualizacin en funcin a un
periodo definido.
<sy:updatePeriod>
Define el periodo de actualizacin del canal de sindicacin a partir de valores predeterminados,
concretamente: hourly, daily, weekly, monthly, yearly
<sy:updateBase>
Fecha
de
actualizacin

del

canal

de

sindicacin

segn

formato

ISO8601

PGINA 40 DE 54

http://www.w3.org/TR/NOTE-datetime o RFC3339

Mdulo PRISM
Las siglas PRISM corresponden a Publishing Requirements for Industry Standard Metadata y son
un compendio de metadatos, desarrollados por el consorcio empresarial IDEAliance
(IDEALLIANCE, 2008) especializados en la descripcin y gestin de las publicaciones peridicas
y sus contenidos.
El mdulo PRISM (HAMMOND, T. et al., 2004) no forma parte de los mdulos plenamente
aceptados por las especificaciones de RSS1.0 RDF (BEGED DOV, G. et al., 2001), pero s
constituye un modulo propuesto que est siendo empleado sistemticamente debido a su
actualizacin ms continuada y en particular a las posibilidades de descripcin que proporciona
para los materiales seriados. Tal es as que probablemente sin PRISM no podran definirse
correctamente las numeraciones de los ejemplares de una revista digital que desarrollara su
propio canal de sindicacin, tampoco podran conocerse la extensin de los artculos, su
paginacin, su ISSN propiamente tipificado, as como las distintas fechas que acompaan a la
tramitacin y publicacin de un artculo cientfico como su fecha de recepcin, aceptacin y
publicacin. De esta forma, PRISM consta de ms de medio centenar de elementos para describir
estos conceptos.
Las entidades de PRISM se dividen en dos apartados; por un lado los elementos de la categora
A-PRISM, utilizados para la descripcin y control de publicaciones peridicas y por otro B-PRISM
compuesto por elementos especializados en la gestin de derechos, cuyo prefijo de namespace
vara levemente de prism a prismUsageRights (HAMMOND, T., 2008).
En este anlisis se abordan los elementos genuinos del mdulo A-PRISM, clasificados segn su
objeto de descripcin a saber: ttulo, mencin de responsabilidad, numeracin, paginacin,
fechas, edicin, clasificacin, categoras, indizacin, resumen, secciones y apartados de
publicacin, identificadores, relaciones entre recursos, derechos y portada.
<prism:publicationName>
Ttulo de la publicacin o revista, as como del recurso que ser publicado.

<prism:alternateTitle>
Variaciones del ttulo o ttulos alternativos al principal.
<prism:person>
Nombre completo a modo de autoridad personal relativa a un artculo o contenido.
<prism:corporateEntity>
Entidades corporativas editoriales de la publicacin peridica.
<prism:organization>
Autoridad corporativa relativa a un artculo o contenido.
<prism:distributor>
PGINA 41 DE 54

Autoridad distribuidora de la publicacin.


<prism:volume>
Volumen de la publicacin.
<prism:number>
Nmero de ejemplar.
Como puede observarse, el mdulo PRISM permite describir una gran cantidad de casusticas
derivadas de la descripcin de publicaciones peridicas y sus artculos o recursos, por ejemplo: El
reenvo de contenidos traducidos, corregidos o alternativos, la disposicin de identificadores
especficos empleados por publicaciones seriadas como el ISSN, la distincin de las fechas en los
artculos dependientes de un proceso de edicin, revisin, aceptacin y publicacin, la
delimitacin cronolgica de clausulas y derechos especficos del documento, la organizacin por
secciones de los contenidos de la publicacin peridica, el empleo de categoras temticas,
objetos o lugares relativos al contenido, etc. Todas estas caractersticas convierten a PRISM en
un mdulo especializado que permitira especialmente en RSS1.0 RDF describir artculos de
revista, sus contenidos y la propia revista en s misma, logrando un smil de catalogacin
multinivel de este tipo documental.
Aunque PRISM no es un estndar reconocido en las especificaciones de RSS1.0 RDF, s que es
posible su utilizacin en el formato de sindicacin. Esto se debe a que dispone de su propio
Namespace que no Schema XSD. De hecho cuando se investiga a fondo el contenido del
Namespace de las dos principales versiones de PRISM 1.2 (PRISM: Publishing Requirements for
Industry Standard Metadata [version 1.2], 2004) y 2.0 (PRISM Namespace [version 2.0], 2008), se
cargan pginas que remiten al manual bsico del mdulo, adems de informar de la versin de
Namespace correspondiente.
Suelen emplearse dos versiones de PRISM, la versin bsica con menores capacidades de
descripcin, xmlns:prism="http://prismstandard.org/namespaces/basic/1.2/" y su versin
extendida 2.0, xmlns:prism="http://prismstandard.org/namespaces/basic/2.0/" analizada en
la tabla anterior. Es recomendable esta ltima por ser considerada la ltima edicin estable,
adems de solucionar errores en la propia nomenclatura de la URI de su Namespace.

Ventajas e inconvenientes del formato RSS1.0


El formato RSS1.0 RDF resulta enormemente verstil debido a su capacidad de extensibilidad
expresamente diseada para incorporar mdulos tambin basados en RDF como Syndication,
Content o PRISM. Esto permite no slo describir mejor un determinado tipo de documento, sino
vincularlo mejor a terceros recursos, calificadores, autoridades y dems elementos
interrelacionados, dicho de otra forma, lograr una web semntica a pequea escala dentro de un
mismo canal de sindicacin.
Tambin resulta ventajosa la capacidad para describir documentacin monogrfica mediante
Dublin Core y documentacin seriada a travs de PRISM logrando una mxima integracin con el
formato de sindicacin. Por otra parte la posibilidad de introducir el contenido del documento
completo o parcial con el mismo formato HTML que podra tener en origen embebido dentro del
canal mediante el mdulo Content, lo convierte en un formato muy polivalente.
PGINA 42 DE 54

En cuanto a los inconvenientes de RSS1.0 cabra destacar que la configuracin bsica del
formato es la ms reducida de todos los formatos de sindicacin, dependiendo por completo de
los mdulos y la extensibilidad para mejorar su capacidad de descripcin. Esto supone un
inconveniente para los programas parser que deben adaptarse continuamente a los formatos de
sindicacin que cada productor de canales de sindicacin genera. Dicho de otra forma, la ilimitada
cantidad de posibilidades de combinacin de todos los elementos de los mdulos hace difcil y
lenta la adaptacin de los programas de lectura y anlisis. De hecho puede atribuirse a esta
causa la lentitud existente en el progreso de nuevos formatos de sindicacin y la aprobacin final
de muchos mdulos considerados actualmente como propuestas, tal y como ocurre con PRISM.
Otro inconveniente destacable es la concepcin de los mdulos y sus etiquetas para la
descripcin general de contenidos y tipos documentales que no slo se encuentran en un soporte
fsico sino eminentemente digital. Queda patente que la conjugacin de ambos conceptos de
descripcin no est del todo aclarada, dado que se echan en falta por ejemplo las fechas
extremas de las publicaciones peridicas, no determinadas en ninguna etiqueta PRISM, que por
otra parte se ocupa de las fechas que ataen fundamentalmente al artculo, contenido o recurso.
Finalmente es destacable una tendencia a no desarrollar schemas XSD que deberan estar
enlazados a modo de Namespace segn cada mdulo y formato. Aunque a efectos formales la
URI por s sola, resulta suficiente, los casos citados no validan sus propias estructuras como
queda demostrado con PRISM. De hecho la prctica comn en estos casos es referir desde una
pgina HTML al manual o gua de dicho Namespace o formato. Si bien esto resulta til, no es del
todo ortodoxo.

RSS 2.0
El formato RSS2.0 es un lenguaje de marcado basado en las especificaciones de XML1.0
(Extensible Markup Language (XML) 1.0 (Fifth Edition), 2008), cuyo principal elemento distintivo
de otros formatos de sindicacin es el empleo de la etiqueta inicial <rss version="2.0"></rss>.
Tambin es el resultado de la evolucin del primer formato de sindicacin empleado en un
navegador web, concretamente RSS0.90 (NETSCAPE, 2001) desarrollado por Dan Libby y
Ramanathan V. Guha. Comparte pues orgenes con el formato RSS1.0 RDF. El origen del
desarrollo de RSS2.0 radica justamente en la versin RSS 0.91 que consta de dos
interpretaciones distintas, por un lado el navegador Netscape (LIBBY, D.; NETSCAPE, 1999) con
una visin tendente al sistema modular de RSS1.0 y por otro lado la empresa UserLand fundada y
dirigida por Dave Winer, cuya perspectiva prevea un formato cuya estructura fuera ms sencilla
evitando la tendencia a implantar RDF (USERLAND, 2000), dado que dificultaba la composicin y
edicin del mismo, as como su mayor difusin para la finalidad principal de transmitir noticias o
contenidos web. Dicho de otra forma, Dave Winer opt por una interpretacin ms sencilla que
revesta menor complejidad tcnica, mayor facilidad de implantacin en sitios web, ms prctica a
la hora de ser analizada por los programas parser y agregadores. Por estos motivos en el formato
RSS0.91 se consolida una ruptura que desencadenar el actual formato de sindicacin RSS1.0
RDF en el ao 2000, originario de la corriente de desarrollo de Netscape. Ese mismo ao,
UserLand desarrolla el formato RSS0.92 en el que lleva a cabo leves modificaciones consistentes
en las etiquetas de fecha de actualizacin y periodo de actualizacin del formato, tal y como
indican sus especificaciones (USERLAND, 2000). Sucesivamente el formato evoluciona a las
versiones RSS0.93 (WINER, D., 2001) y RSS 0.94 (WINER, D., 2003), hasta completar su
transformacin con el formato RSS2.0 en el ao 2003. Se puede afirmar que las especificaciones
de la versin RSS2.0 estn plenamente vigentes (BERKMAN CENTER, 2003) aunque existe una
PGINA 43 DE 54

versin posterior denominada RSS2.0.1 y una tercera ms actualizada de tales especificaciones,


publicada en 2009 (WINER, D., 2009).
Estructura del formato RSS 2.0
Apertura y cierre del formato
El formato RSS2.0 se identifica por su etiqueta de apertura inicial <rss version="2.0"></rss>. sta
contiene dos apartados fundamentales en cualquier canal de sindicacin; el elemento
<channel></channel> correspondiente a la descripcin del canal de sindicacin, y el elemento
<item></item> repetible y que consta de los contenidos de dicho canal. Al contrario que el resto
de formatos de sindicacin RSS2.0 no dispone de Namespace, aspecto realmente revelador del
bajo nivel de soporte al que estn sometidos sus elementos y estructuras. Recurdese que era
condicin fundamental que el documento est validado y bien formado para poder ser
considerado un formato de sindicacin. En este caso particular, se tiene constancia de algn
intento por incorporar un namespace propio del formato, de forma que fuera regulado y soportado
por la IANA (IANA Uniform Resource Identifer (URI) Schemes per [RFC4395], 2009), Corporacin
de Internet para la Asignacin de Nombres y Nmeros de Internet, que tambin acta como
entidad normalizadora ofreciendo alojamiento a diversas especificaciones y Namespace, entre los
que debera de encontrarse el formato RSS2.0. En cambio s se encuentra el protocolo que
emplea para la actualizacin de los contenidos XML- RPC (HAROLD, W., 2003), que en todo
caso, acta como elemento normalizador y cohesionador del formato. Salvo por esta peculiaridad,
el formato de sindicacin en s mismo carece de espacio de nombres propio.

Elementos de channel

Ttulo <title>. Ttulo del canal propiamente dicho.


Enlace <link>. URI del canal de sindicacin.
Descripcin <description>. Descripcin general de la temtica y contenidos del canal
de sindicacin.
Idioma <language>. Idioma del canal de sindicacin atendiendo al formato ISO639,
ISO3166.
Derechos <copyright>. Declaracin de derechos de autor, propiedad intelectual y
explotacin del canal de sindicacin.
Editor <managingEditor>. Nombre y datos de filiacin de la persona o entidad gestora
de los contenidos del canal de sindicacin. Normalmente se identifica nicamente
mediante su correo electrnico.
Administrador <webMaster>. Nombre y datos de filiacin de la persona o entidad
responsable de la web de la que depende el canal de sindicacin. Al igual que con el
elemento <managinEditor>, suele identificarse mediante su correo electrnico.
Fecha de publicacin <pubDate>. Fecha de publicacin del canal de sindicacin.
Fecha de actualizacin <lastBuildDate>. Fecha de ltima actualizacin del canal de
sindicacin.
Temtica <category>. Permite la introduccin de descriptores temticos o categoras
relativas a las secciones a las que pertenece el canal de sindicacin.
Generador <generator>. Define el nombre y versin del programa que gener el canal
de sindicacin.
Especificacin <docs>. Determina la URI correspondiente al documento con la
PGINA 44 DE 54

especificacin o gua del formato RSS que se est empleando. En este caso toma el valor
http://www.rssboard.org/rss-specification , siempre correspondiente a la ltima versin del
formato. Esto implica que el mtodo alternativo al Namespace es el uso de este elemento.
Nube de cambios <cloud domain="rpc.sys.com" port="80" path="/RPC2"
registerProcedure="pingMe" protocol="soap"/>. Determina un mtodo de actualizacin
mediante un protocolo. Normalmente mediante SOAP o en su defecto XML-RPC. Los
valores de los atributos estn predeterminados para la funcin de refresco mediante el
proceso pingMe por medio del puerto 80, en el programa alojado en el dominio
http://rpc.sys.com .
Tiempo de vida <ttl>. Contiene el periodo de tiempo en minutos, correspondiente al
ciclo de refresco y actualizacin del canal.
Imagen <image> <url></url> <link></link> <title></title> </image>. Contiene la
informacin de la imagen o logotipo del canal de sindicacin. Para ello incorpora tres
subelementos, a saber: la URL de la pgina enlazada con la imagen, la URI
correspondiente a la imagen propiamente dicha y su ttulo.
Valoracin <rating>. Contiene la URI correspondiente a la valoracin del canal.
Entrada de datos <textInput> <title></title> <description></description>
<name></name> <link></link> </textinput>. El elemento textInput corresponde forma
parte de la herencia del formato RSS0.91, que al igual que en RSS1.0 permite remitir a
una aplicacin XML externa, informacin, contenidos y textos transmitidos mediante caja
de texto presente en el canal de sindicacin. Algunas de las aplicaciones XML vinculadas
a este elemento son las derivadas de la recuperacin y filtrado de la informacin del propio
canal de sindicacin. Esto se consigue mediante el protocolo HTTP y su mtodo GET para
el envo de los datos de la consulta. Para que el conjunto funcione correctamente, se debe
definir una URI correspondiente al enlace de la aplicacin XML a travs del subelemento
link. Por otro lado es necesario consignar correctamente el subelemento name que
contiene el identificador de la caja de texto y por ende el valor de la consulta del usuario.
Finalmente, el subelemento title y description hacen referencia a la etiqueta del botn de
envo del formulario y a la explicacin del formulario y de los datos a rellenar en la caja de
texto.

Elementos del elemento, item


-

Ttulo <title>. Contiene el ttulo de la entrada.

Enlace <link>. Corresponde a la URL del contenido.

Descripcin <description>. Comprende el contenido completo o parte del mismo.

Autor <author>. Contiene el nombre y filiacin del autor del artculo o contenido de la
entrada.

Temtica <category>. Contiene descriptores temticos, categoras o secciones en las


que se enmarca el contenido del artculo o la entrada.

Comentarios <comments>. Contiene un enlace URI correspondiente a los comentarios


que se han efectuado al respecto del contenido descrito.
PGINA 45 DE 54

Identificador <guid>. Contiene un enlace URI del contenido que ser utilizado por los
agregadores para determinar la existencia del contenido en su repositorio.

Fecha de publicacin <pubDate>. Fecha de publicacin del contenido.

Fuente <source>. Identifica la URL o URI del canal de sindicacin, considerado fuente
original del contenido descrito en el tem.

Extensibilidad de RSS 2.0


La propiedad de extensibilidad en RSS2.0 resulta relativamente novedosa, si se tiene en cuenta
que fue introducida en la versin RSS2.0.1. Se puede afirmar que es uno de los ltimos formatos
de sindicacin en hacer efectiva esta propiedad. Al igual que en el resto de formatos, el mtodo
de extensibilidad, se lleva a cabo mediante la declaracin de Namespace, lo que no deja de ser
paradjico dado que originalmente RSS2.0 carece de Namespace propio. An as es posible
introducir espacios de nombre, concretamente en el elemento de apertura y cierre inicial del
formato <rss version="2.0"></rss>, tal y como muestra el siguiente ejemplo:
<?xmlversion="1.0"encoding="UTF8"?><rssxmlns:rdf="
xmlns:dc="xmlns:sy="xmlns:content="xmlns:prism="
<channel>
...<item>...</item>
...</channel>
</rss>
"
""
"version="2.0">

Mediante extensibilidad al igual que el resto de formatos, puede emplear cualquier mdulo o
grupo de metadatos que disponga de espacio de nombres, schema XSD o DTD.

Ventajas e inconvenientes del formato RSS 2.0


Las ventajas de RSS2.0 son la simplicidad del formato de sindicacin que hace sencilla su
PGINA 46 DE 54

implementacin en cualquier navegador, parser o agregador. Por otro lado tal simplicidad lo ha
convertido en uno de los formatos ms utilizados en los sistemas de publicacin web,
principalmente blogs, wikis y CMS, pese a que no dispone de un schema XSD, DTD o
Namespace. La reciente incorporacin de la propiedad de extensibilidad amplia las capacidades
de descripcin, lo que implica, que de ser utilizada RSS2.0 perdera una de sus principales
razones de ser, la simplicidad de sus elementos estructurales. Esto puede ser beneficioso si se
desea emplear RSS2.0 para describir documentos y ofrecer servicios para los que no fue
diseado, pero tambin puede ser perjudicial para la legibilidad del lenguaje en los sistemas
parser y agregadores. Esto se debe a que muchos de estos sistemas al estar adaptados a la
estructura bsica que en pocos casos se ha visto alterada con el paso de los aos, podran
encontrar problemas de lectura al encontrar elementos del espacio de nombres referido en
ubicaciones no definidas por la especificacin de RSS2.0. Dicho de otra forma, no existe una
modelo de aplicacin para los distintos mdulos y formatos que pueden ser aplicados, como
sucede con el formato RSS1.0 RDF. En este sentido RSS1.0 RDF es el formato mejor preparado
para la extensibilidad, dado que est caracterizado especficamente para ello y consta de tal
documentacin, as como del schema XSD de RDF que habilita el empleo de la extensibilidad de
una forma explcita.
MARC-XML
El formato MARC-XML (MARC-XML Schema, 2009) aparece publicado como schema XSD en el
ao 2001, como una solucin al cada vez ms inflexible formato MARC tradicional, difcil de
ampliar y adaptar a los diferentes centros de informacin y documentacin. Si bien no es
considerado un formato de sindicacin tradicional como Atom, RSS1.0 RDF y RSS2.0. Ello se
debe a que los formatos anteriormente mencionados fueron los primeros en ser incorporados en
los navegadores web, obteniendo de esta forma un soporte fundamental para su lectura y
actualizacin de contenidos. Tambin se presupone, segn la definicin de sindicacin de
contenidos, la existencia de un productor o creador de documentos bien sean primarios o
secundarios, que transmite mediante un canal de informacin basado en XML, a mltiples
suscriptores. En el caso de MARC-XML los productores de los contenidos del canal lo constituyen
las propias bibliotecas y centros de documentacin que catalogan los fondos bibliogrficos y
documentales. Dado que MARC- XML est basado en XML, consta de schema XSD validador del
formato y dispone de Namespace propio, puede considerarse al formato MARC-XML, habilitado
para las mismas funciones que cualquier otro formato de sindicacin. En relacin al aspecto de la
visualizacin, actualizacin y representacin de los contenidos codificados por MARC-XML, es
relevante sealar que la Library of Congress ha desarrollado diversas hojas de estilo y
transformaciones XSLT que permiten visualizar y representar correctamente la informacin del
formato MARC-XML en cualquier navegador web, como se explicar en esta parte del captulo.
Por otro lado hay que sealar la carencia de programas parser o agregadores especializados en
MARC-XML que en principio podra echar por tierra la consideracin de MARC-XML como un
posible formato de sindicacin utilizndolo como medio de difusin del catlogo bibliogrfico. Este
aspecto que en principio podra ser problemtico es enfrentado y resuelto en esta investigacin,
mediante el desarrollo de diversos parsers y generadores especializados en el formato MARCXML como podra haber en los distintos navegadores web si desearan emular con MARC al resto
de formatos, por lo que el precedente de su modo de empleo se marca en el presente trabajo.
Argumentada la posibilidad de utilizar MARC-XML como formato de sindicacin, se debe sealar
su naturaleza plenamente documental que encaja con la disciplina de la catalogacin. De hecho,
MARC-XML se basa en las normas del formato MARC21 (MARC Standards, 2009) de la Library
of Congress, profusamente divulgadas y adaptadas en la prctica totalidad de las bibliotecas del
mundo. El desarrollo del formato MARC-XML es compatible con el estndar ISO2709 permitiendo
la interoperabilidad con cualquier adaptacin MARC. El formato MARC-XML ha sido diseado de
PGINA 47 DE 54

forma tal que mantiene las mismas etiquetas, indicadores y cdigos que el estndar MARC21.
Para lograrlo ha sido concebido un schema XSD que acta como validador estructural del formato
que determina una estructura anidada basada en la coleccin, el registro bibliogrfico, el campo o
etiqueta bibliogrfica y su sub- campo que por regla general es el contenedor de informacin o
datos descriptivos del documento.

Estructura del formato MARC-XML


La estructura del formato MARC-XML est basada en la organizacin de los catlogos
bibliogrficos. Esto significa la disposicin de un elemento cabecera de apertura y cierre
denominado <collection></collection> que engloba directamente todos y cada uno de los registros
bibliogrficos etiquetados con el elemento <record></record> y que a su vez contienen las
etiquetas correspondientes a los campos de catalogacin MARC21. El modo de apertura incluye
la declaracin del Namespace propio de MARC-XML, su instancia con el schema XSD de XML y
su instanciacin. Para ello se necesita incluir las URIs especificadas en la siguiente tabla:
<?xmlversion="1.0"encoding="UTF8"?><collection
xmlns:marc="http://www.loc.gov/MARC21/slim"
xmlns:xsi="http://www.w3.org/2001/XMLSchemainstance"
xsi:schemaLocation="http://www.loc.gov/MARC21/slim
http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
...<record>...</record>
...</collection>
Ventajas e inconvenientes del formato MARC-XML
El formato MARC-XML es el formato idneo para la descripcin bibliogrfica y documental, dada
su amplsima y vasta extensin de etiquetas y casusticas heredadas de una larga tradicin
biblioteconmica. Otra ventaja destacable es el gran nivel de normalizacin y oficialidad
alcanzado por el formato, que resulta mucho mejor soportado y documentado que los propios
formatos de sindicacin tradicionales. La estructura de etiquetas y elementos resulta acertada por
lograr adaptar el mtodo de catalogacin automatizada a los lenguajes de marcado. De hecho es
posible representar cualquier documento MARC en MARC-XML y convertirlo a cualquier otro
formato mediante las herramientas de conversin y transformacin XSLT. Otra ventaja del formato
es la posibilidad de representar y visualizar el contenido al igual que lo hara un navegador web
con cualquier canal de sindicacin, lo que demuestra que puede ser utilizado para la difusin de
catlogos y colecciones bibliogrficas, musesticas e incluso archivsticas. Como aspecto
interesante de los destacados en las especificaciones del formato, se detecta un apartado vaco,
relativo a los servicios web de MARC-XML. Esto es meramente indicativo de que la redifusin
aplicada a MARC ser posible en breve, tal y como se demuestra en la presente investigacin,
desarrollando la primera aplicacin web que acta sobre canales de sindicacin en MARC-XML.

OPML
El formato OPML fue creado por Dave Winer en el ao 2000, y se considera uno de los
PGINA 48 DE 54

desarrollos ms interesantes en cuanto a sindicacin de contenidos se refiere. Esto se debe a que


originalmente OPML Outline Processor Markup Language fue diseado para servir de medio de
intercambio de recursos entre aplicaciones web XML. Esta aplicacin se extendi cada vez ms y
fue incluida en los navegadores a modo de extensin API (FINKE, C., 2009) especializada en la
lectura de este tipo de archivos basados completamente en XML. En realidad OPML permite la
organizacin de canales de sindicacin y sus sitios web de produccin, pero los usos originales se
han propagado y extendido a la agrupacin de recursos y fuentes de informacin categorizadas y
pre-clasificadas. Esto implica un importante avance en la ordenacin de los contenidos y de las
fuentes de informacin electrnicas que se ven beneficiadas por un formato pensado
exclusivamente para tal fin, pudiendo reflexionar que OPML al igual que las bibliografas de
bibliografas, resulta ser una fuente de fuentes y por lo tanto un documento secundario. La
primera versin operativa fue OPML1.0 en el ao 2001, que en aquel entonces era considerado
un borrador. Sus primeras aplicaciones fueron destinadas a los sistemas de podcasting (Radio
UserLand: Tune Into Radio, 2009) que empleaban el formato OPML nativo para las
retransmisiones y posteriormente en el sistema de publicacin web Manila (USERLAND, 2009).
No ser hasta el ao 2007, cuando se desarrolle OPML2.0, la versin definitiva del formato,
objeto de anlisis en este apartado.

Estructura del formato OPML


La estructura del formato OPML es una de las ms sencillas dentro de los formatos de
sindicacin. Se compone de una etiqueta de apertura y cierre del formato <opml
version="2.0"></opml> que comprende dos apartados, la cabecera <head></head> que describe
el canal de sindicacin y el cuerpo <body></body> que contiene la lista de recursos y canales de
sindicacin para su suscripcin. No emplea Namespace, por lo que no consta validacin alguna
del formato de sindicacin, ni siquiera existe schema XSD.

Elementos de head
El apartado de cabecera <head></head> permite describir el canal de sindicacin OPML de forma
bsica a partir de las siguientes elementos.

Ttulo <title>. Ttulo del canal de sindicacin OPML.

Fecha de publicacin <dateCreated>. Fecha de creacin del canal, segn formato ISO8601
http://www.w3.org/TR/NOTE-datetime o RFC3339

Fecha de modificacin <dateModified>. Fecha de modificacin o actualizacin del canal


segn formato ISO8601 http://www.w3.org/TR/NOTE-datetime o RFC3339

Administrador <ownerName>. Cadena de texto que contiene el nombre del propietario del
canal.

Correo del administrador <ownerEmail>. Correo electrnico del propietario del canal.
PGINA 49 DE 54

Identificador del administrador <ownerId>. Identificador del propietario del canal.


Normalmente URL o URI del perfil o sitio web que pueda ser utilizado para identificar al autor.

Especificaciones <docs>. Etiqueta similar a la empleada por RSS2.0 que sirve para
identificar mediante URI las especificaciones utilizadas para confeccionar el canal de sindicacin
OPML.

Estado de expansin <expansionState>. Permite expresar una lista de nmero que se


expande correspondiente a la posicin de los titulares o tems del canal de sindicacin. Dicho de otra
forma, permite determinar un orden de expansin de los contenidos, mostrando unos contenidos de
forma preferente sobre otros.

Scroll vertical <vertScrollState>. Contiene un nmero entero positivo que indica el nmero
de entradas que sern visualizadas, de forma que pueda calcularse la expansin del scroll vertical de
la ventana.

Marco superior <windowTop>. Determina la distancia en pixeles con respecto al borde


superior de la ventana. Se emplea este elemento para encajar y visualizar las entradas en un espacio
determinado de la ventana.

Marco izquierdo <windowLeft>. Determina la distancia en pixeles con respecto al borde


izquierdo de la ventana. Se emplea este elemento para encajar y visualizar las entradas en un espacio
determinado de la ventana.

Marco inferior <windowBottom>. Determina la distancia en pixeles con respecto al borde


inferior de la ventana. Se emplea este elemento para encajar y visualizar las entradas en un espacio
determinado de la ventana.

Marco derecho <windowRight>. Determina la distancia en pixeles con respecto al borde


derecho de la ventana. Se emplea este elemento para encajar y visualizar las entradas en un espacio
determinado de la ventana. Elementos de body, el outline La etiqueta <body></body>
contiene el equivalente a las entradas en los formatos de sindicacin, en OPML se denominan
outline o perfiles. Cada perfil es una sla etiqueta lo que evita su homloga de cierre. La
informacin se consigna en atributos de la propia etiqueta, presentando la siguiente estructura:

Recurso

<outline

type=""

text=""

xmlUrl=""

description=""

htmlUrl=""

language="" title="" version=""/ >. El elemento outline est compuesto por diversos
atributos que permiten la descripcin somera de cualquier recurso o canal de sindicacin.
El atributo type hace referencia al formato del canal de sindicacin, por ejemplo rss,rdf,
atom, etc. El atributo xmlUrl resulta esencial para definir la URL o URI del canal de
sindicacin que identifique a su archivo XML. El atributo text se emplea para determinar
una categora o seccin a la que pertenece el recurso descrito en el outline. El atributo
description permite elaborar un breve resumen o descripcin del canal de sindicacin. El
atributo htmlUrl define el sitio web del que depende el canal de sindicacin. El atributo
PGINA 50 DE 54

language define el idioma del recurso segn cdigos de idioma ISO639 (dos caracteres
indicativos de la lengua) e ISO3166 (tre caracteres indicativos del pas). El atributo title

define el ttulo del canal de sindicacin.


Categora <outline text=""><outline xmlUrl="" type="" text=""/></outline>. El
elemento outline tambin puede ser utilizado para agrupar subelementos outline. El
requisito indispensable para ello es dotarlo del atributo text que tomara el valor de la
categora temtica correspondiente. Embebidos entre <outline></outline> se sucedern
todos los subelementos <outline/>de etiqueta nica.

Extensibilidad de OPML
Las especificaciones de OPML tambin hacen referencia a la posibilidad de aplicar la
extensibilidad. Como en los formatos anteriores, es necesario precisar el espacio de nombres en
la etiqueta de apertura de la siguiente forma:
<?xmlversion="1.0"encoding="ISO88591"?><opmlxmlns:dc="
xmlns:sy=xmlns:content="xmlns:prism="
<head>...</head><body>...<outlinetext=""xmlUrl=""/>...</body></opml>
""
""
version="2.0">
http://purl.org/dc/elements/1.1/
"http://purl.org/rss/1.0/modules/syndication/
http://purl.org/rss/1.0/modules/content/
http://prismstandard.org/namespaces/1.2/basic/
Ventajas e inconvenientes del formato OPML
El formato OPML tiene la ventaja esencial de ser el nico formato de sindicacin diseado
expresamente para la agrupacin de recursos, especialmente terceros canales de sindicacin. La
sencillez de su estructura lo convierte en un formato de rpida configuracin y edicin, lo que
facilita su implementacin en aplicaciones web. Finalmente la capacidad para categorizar
empleando los mismos elementos con una configuracin bsica mediante el atributo text, resulta
til, para organizar gran cantidad de recursos con la mayor economa del lenguaje. En
206
cuanto a sus inconvenientes destacar la carencia de Namespace, schema XSD o DTD que
permita validar las estructuras de un archivo OPML.

PGINA 51 DE 54

GLOSARIO

Consorcio W3C: Consorcio del World Wide Web. Es el organismo internacional encargado de
desarrollar tecnologas inter-operativas (especificaciones, lneas maestras, software y
herramientas) para guiar la red a su potencialidad mxima a modo de foro de informacin,
comercio, comunicacin y conocimiento colectivo. Vase http://www.w3.org/
MIT: Massachusetts Institute of Technology o Instituto tecnolgico de Massachusetts, constituye
uno de los centros de investigacin y desarrollo ms importantes del mundo. Una de sus
especializaciones ms reseables es la investigacin de sistemas de informacin, computacin
del web y recursos para la investigacin, entre otros.
Documentos XML bien formados: Denominados Well Formed XML cumplen las caractersticas
de construccin principales. Es decir, apertura y cierre de etiquetas correcto, empleo de
caracteres aceptados, correcto anidamiento o raz, correcta citacin de los atributos de las
etiquetas utilizadas, son establecidas en W3C como las principales.
Documentos XML validados: Denominados Valid XML son aquellos que siendo bien formados,
estn construidos no slo conforme a una sintaxis correcta sino a unas normas de de
estructuracin y definicin de los contenidos de sus etiquetas. Por regla general esto se lleva a
cabo mediante archivos DTD y Schema XSD. Agentes: Se entiende por agentes aquellos
usuarios, sistemas, programas o aplicaciones que, aprovechando las fuentes de datos XML,
realizan interacciones directas como su transformacin, edicin, visualizacin o representacin.
Fuentes de Datos: Una de las caractersticas principales de XML, es su empleo como fuente de
datos. Esto difiere en poco a la terminologa acuada en sindicacin para delimitar los canales y
medios de difusin, Feeds entendido como alimentacin, o fuente de la que se alimentan los
usuarios que recopilan su referencia. As pues, se observa que los formatos de sindicacin son la
evolucin directa y dirigida de XML para servir como canales de transmisin y difusin de datos e
informacin, considerndose, ciertamente, una especializacin del mismo.
CSS (Cascading Style Sheets): Hojas de estilo en cascada, son empleadas de forma extensiva
tanto en documentos XML, como en pginas web desarrolladas en HTML, PHP e incluso ASP. No
estn sujetas en su aplicacin a un lenguaje de marcado o programacin concreto, siendo de esta
manera polivalentes, a diferencia de XSL. Su funcionamiento se basa en clases, grupos y capas
de estilo que se aplican directamente en el documento previa referencia del elemento designado
para su transformacin. (No estn basadas en XML)
XSL (Extensible Stylesheet Language): Lenguaje extensible de hojas de estilo, empleado de
forma especfica en el formateado, representacin y visualizacin de documentos XML en los
principales navegadores web. A partir del documento XML, se aplica estilo para su transformacin
en forma, estilo y datos, representado en un documento HTML de salida.
Islas de datos: Originalmente denominadas Data Island describen correctamente la finalidad de
implantar informacin estructurada de un documento XML, precisamente tambin por ello pueden
ser denominados injertos de informacin, no en vano supone la modificacin del cdigo fuente
PGINA 52 DE 54

original del documento y la presentacin de informacin en un fragmento de la pgina, procedente


de otro documento.
Sistema parser: Parser es un trmino anglosajn que significa Programa de Anlisis y cuya
principal finalidad en este contexto es la carga del documento XML, el anlisis de la estructura de
datos y su representacin para facilitar su transformacin o lectura en un navegador web o
terceros programas o sistemas de bases de datos.
DOM: Document Object Model, establece las normas para acceder y manipular documentos XML,
de ah su denominacin Modelo de Objetos del documento. Para ello DOM presenta el
documento como una estructura arborescente, constituida por nodos, que distribuyen los
correspondientes elementos y atributos. As de esta manera se determina una relacin entre los
elementos designados en las etiquetas del documento XML, como padres e hijos a modo de
jerarqua.

CONCLUSIONES

REFERENCIAS
[1] Ellen Flikenstein. Business Syndicating websites with RSS feeds for dummies. USA: Editorial
Willey, 2004.
[2] Carlos H. Gonzlez Campo. "Herramientas Web 2.0 y accesibilidad a sitios Web para la
apropiacin social de conocimiento en una ciudad educadora". Universidad Eafit, Vol. 45, Nm.
153, enero-marzo, 2009, pp. 26-37. Universidad EAFIT. Colombia, 2009.
[3] Pablo Csar Muoz Carril. "Implementacin del formato RSS en procesos de gestin y
comunicacin electrnica en instituciones educativas, pblicas y empresariales". Pixel-Bit. Revista
de Medios y Educacin, enero nmero 031, Universidad de Sevilla, Sevilla Espaa, pp. 5-18,
2008
[4] Educause learning initiative. Things you should know about RSS. Sitio Educause Learning
PGINA 53 DE 54

Initiative, 2007. Disponible en:


http://net.educause.edu/ir/library/pdf/ELI7024.pdf,
[5] Nancy Snchez Tarrag. Sindicacin de contenidos con canales RSS: aplicaciones actuales y
tendencias, Acimed, 2007. 15 (3).
[6] Mary Harrsch "RSS: The Next Killer App For Education." The Technology Source, July/August
2003. Disponible en: http://ts.mivu.org/default.asp?show=article&id=2010.
[7] Elena Barber y Antoni BadiaAntoni. Educar con aulas virtuales. Orientaciones para la
innovacin en el proceso de enseanza y aprendizaje. Espaa: A. Machado Libros, 2004.

[8] Hugo, Pardo, Hugo. Una visin crtica de la Web 2.0 desde la educacin. En Web 2.0:
Nuevas formas de Aprender y Participar. Coords. Mariona Grane y Cilia Willem. Espaa:
Laertes, 2009.

Referencias y fuentes
[1] La Web 2.0 no existira sin RSS, Anbal de la Torre, 2006. RSS navegar por ti. Gacetilla
bitacorera, n 1.
[2] La web 2.0 y sus aplicaciones didcticas. Pere Marqus Graells, 2007. Departamento de
Pedagoga Aplicada, Facultad de Educacin, UAB.
[3] Necesidad de buenas prcticas en la redifusin del contenido digital, Jorge Franganillo,
Facultat de Biblioteconomia i Documentaci, Universitat de Barcelona, Anuario ThinkEPI.
Barcelona: ThinkEPI, 2008, p. 17-19.
* RSS, nuevo servicio de Eduteka, Eduteka
* Wikipedia, la enciclopedia libre
* Entienda la Web 2.0 y sus principales servicios, Eduteka
* Web 2.0, Antoni Fumero y Gens Roca, Fundacin Orange

PGINA 54 DE 54

También podría gustarte