Sindicación de Contenidos
Sindicación de Contenidos
Sindicación de Contenidos
PROGRAMACIN WEB
PROFR: M.A. RICARDO FLORES OLIVEROS
SINDICACIN DE CONTENIDOS
PGINA 1 DE 54
ELABORADO POR:
NDICE
RESUMEN
INTRODUCCIN
7
7
8
9
11
12
13
13
14
14
La sindicacin de contenidos
Orgenes de la sindicacin
Definicin del trmino
Propiedades y caractersticas de la sindicacin
Funcionamiento de la sindicacin
14
15
17
21
23
25
26
27
33
33
PGINA 2 DE 54
34
34
35
35
37
37
38
39
40
41
RSS 2.0
42
43
43
43
44
45
46
46
47
47
OPML
48
48
48
50
50
51
CONCLUSIONES
52
REFERENCIAS
52
PGINA 3 DE 54
RESUMEN
El creciente volumen de informacin disponible en la Internet y el requerido desarrollo de
habilidades de lectura crtica en los estudiantes universitarios convierten al uso de agregadores,
tambin conocidos como Sindicacin de Contenidos (RSS) en un elemento digno de ser
considerado para el proceso de enseanza-aprendizaje. La tecnologa de Sindicacin de
Contenidos (RSS) surge con el propsito de facilitar el filtrado del creciente volumen de
informacin que da a da aparece en Internet.
La sindicacin es un mtodo fcil que permite a todos los usuarios suscribirse a los contenidos de
cuantas fuentes deseen, de tal forma que tengan en slo un lugar los datos actualizados que le
interesan para posteriormente mediante alguna herramienta lectora poder acceder a ellos. El
papel de la sindicacin de los contenidos cobra cada da mayor importancia debido al creciente
PGINA 4 DE 54
INTRODUCCIN
El trmino "sindicacin" es un anglicismo que proviene de syndication, habitual en la terminologa
anglosajona de los medios comunicacin. Aunque se ha incorporado rpidamente a la jerga
tcnica con la popularizacin de los servicios de la web 2.0, se desaconseja su uso en espaol.
"Sindicacin de contenidos" o, en trminos lingsticos ms recomendables, redifusin de
contenidos, son conceptos aplicados al caso de los medios televisivos, radiofnicos, de prensa
escrita y, finalmente, al de los contenidos disponibles en la web. As, como concepto general, la
redifusin web consiste en el reenvo o reemisin de contenidos desde una fuente original, un
sitio web de origen -emisor-, hasta otro sitio web de destino -receptor- que, a su vez, se convierte
en emisor, puesto que pone a disposicin de sus usuarios los contenidos a los que en un principio
slo podan tener acceso los usuarios del sitio web de origen.
PGINA 5 DE 54
comprobar si en estos sitios aparecan nuevas publicaciones con, por ejemplo, nuevos recursos
educativos, noticias de actualidad, ofertas de productos, etc. La redifusin viene a facilitar el
acceso a los nuevos contenidos y a reducir el tiempo que se dedica a examinarlos.
Un camino intermedio hacia la redifusin de contenidos web lo han constituido en los ltimos
tiempos los servicios de alerta de novedades mediante el correo electrnico que proporcionan
algunos sitios y buscadores web. Con estos, un usuario solicita mediante un formulario web (se
suscribe) a un sitio o a un buscador web, como Google, que le enven a su bandeja de correo
electrnico pequeos mensajes con las novedades que se han producido en tal sitio o en cual
ndice de bsqueda. Como veremos ms adelante, la redifusin web no implica el uso del correo
electrnico y parece ir ms all que un tradicional servicio de alertas.
Algunas de las ventajas de este servicio se pueden resumir en las siguientes:
informacin es actualizada.
Se produce un gran ahorro de tiempo, ya que es posible acceder rpidamente a todos
los contenidos nuevos publicados en varios sitios, sin tener que visitarlos uno por uno.
Se pueden recopilar titulares de distintos sitios desde un mismo lugar.
A diferencia de las notificaciones va correo electrnico, no existen direcciones
SGML Standard General Markup Language, lenguaje madre del cual se derivan todos los
lenguajes de marcado que actualmente se emplean en la red. SGML fue creado durante la
dcada de 1980 a 1990, a partir de las investigaciones que IBM Internacional Business Machines
vena desarrollando para conseguir un lenguaje capaz de estructurar y formatear contenidos. El
resultado de dicho esfuerzo se convirti en un estndar reconocido por la organizacin
internacional de normalizacin y estandarizacin ISO en 1986 (Gentle Introduction to SGML,
1994).
A partir de SGML, se fragu una importante familia de lenguajes de marcado derivados, de los
cuales John Berners-Lee fue el artfice principal. Se trata del actual HTML Hypertext Markup
Language (BERNERS-LEE, T. and Fischetti, M., 2000), empleado en la por aquel entonces
incipiente red Internet que permita la visualizacin de informacin en los primeros visores y
posteriormente navegadores web, y XML Extensible Markup Language, pensado para el
procesamiento y tratamiento de informacin de manera automatizada, para la que HTML no
estaba concebido. Tngase en cuenta que XML permite compartir informacin entre dispositivos y
resulta estndar en cualquier navegador, editor y sistema que se utilice, dada su sencillez.
En 1996 HTML queda estandarizado y dos aos despus en 1998 ser XML gracias al consorcio
W3C creado como respuesta a los problemas de programacin y codificacin de ambos
lenguajes y que el propio Berners-Lee puso en funcionamiento desde el Instituto tecnolgico de
Massachussets MIT.
XML es el acrnimo de Extensible Markup Language es decir, lenguaje de marcado ampliable o
extensible, que constituye por s slo uno de los pilares de la web. Tngase en cuenta que una
proporcin importante de toda la informacin representada en la red est recogida utilizando las
bases y fundamentos de este lenguaje. Tal aseveracin tiene su explicacin y repercusiones en el
continuo desarrollo que est sufriendo XML, desde su adopcin por el W3C para convertirse en
estndar de la construccin web a partir del 10 de febrero de 1998. Desde entonces hasta la
fecha, XML ha generado una completa familia de lenguajes cuya principal misin es servir de
soporte para representar la informacin, siendo descrita y organizada conforme a unas normas de
estructuracin, facilitando la recuperacin de la misma mediante mtodos de enrutamiento y de
filtracin y como aspecto fundamental de cualquier recurso o fuente de informacin, su
transmisin y difusin. Entendiendo que la finalidad de XML es la mejora de las posibilidades de
tratamiento o manipulacin de la informacin y documentacin electrnica, se hace necesario
establecer un mapa o diagrama que permita aclarar un patrn de estudio sobre sus principales
elementos y lenguajes derivados. Se debe recordar que an no existiendo una clasificacin que
organice las relaciones funciones y dependencias de cada uno de los lenguajes, se pueden
comprobar que existen las siguientes:
PGINA 8 DE 54
lenguajes tambin es vlida para otros y viceversa; que a efectos de posibles aplicaciones para la
documentacin y su uso en servicios bibliotecarios, son muy extensas y ampliables. Dicha
tipologa puede ser consultada en el esquema grfico de la familia de lenguajes XML,
XML
Tal y como lo define el W3C (World Wide Web Consortium), XML es: ...Lenguaje de Etiquetado
Extensible (eXtensible Markup Language). Es un lenguaje con una importante funcin en el
proceso de intercambio, estructuracin y envo de datos en la Web. Describe los datos de tal
manera que es posible estructurarlos utilizando para ello etiquetas, como lo hace HTML, pero que
no estn predefinidas, delimitando de esta manera los datos, a la vez que favoreciendo la
interoperabilidad de los mismos... (W3C de la A a la Z, 2009)
Para llevar a cabo el estudio del apartado de XML, tanto en sus aspectos formales como tcnicos,
se han tenido en cuenta fuentes de informacin especializadas. stas proceden del
fundamentalmente de las especificaciones oficiales del W3C Consortium (Extensible Markup
Language (XML) 1.0 (Fifth Edition), 2008) y en menor medida del W3Schools (XML Tutorial,
W3Schools, 2009). Se han seleccionado stas fuentes, por ser oficiales y de referencia en el
marco internacional de edicin y programacin web. Por otro lado pueden facilitar an ms si
cabe la introduccin y profundizacin en la investigacin del objeto de estudio.
Ciertamente XML est diseado para el soporte y descripcin de contenidos e informacin de
forma estructurada, mediante una serie de esquemas de elementos representados mediante
etiquetas o marcas para ser estructurados mediante anidamientos que generan estructuras y
relaciones de tipo jerrquico entre ellos. El paralelismo ms sencillo se puede establecer respecto
a los lenguajes documentales de tipo controlado como los tesauros, cuyas representaciones
permiten un orden jerrquico lgico y semntico de sus trminos. En XML es posible seguir el
mismo modelo, con la diferencia de que lo que se establecen son estructuras, etiquetas, marcas o
campos que describen la informacin que contendrn. Por ese motivo se explica que XML tiene
una funcin fundamental a la hora de estructurar datos y por extensin la informacin.
El lenguaje XML no utiliza un modelo de etiquetas predefinidas, lo que permite al documentalista
crear aquellas que necesite para describir un determinado documento. Esta propiedad es
especialmente til y verstil ya que posibilita desarrollar formatos especializados, para mejorar los
servicios bibliotecarios en particular.
En XML se requiere siempre de DTD o XSD Schema adjunto que permita la descripcin del tipo
de contenidos en las etiquetas utilizadas. Como se ha explicado anteriormente, tanto las DTD
como los XSD Schema son lenguajes especializados en la descripcin y validacin de los
documentos. Concretamente aportan una estructura vlida que el documento XML, que contiene
la informacin, ha de seguir y mantener para ser vlido y ser considerado por ende un formato de
descripcin.
PGINA 10 DE 54
XSLT
XSL es un lenguaje que est compuesto de diferentes partes en su programacin; por un lado
XSLT se utiliza para la transformacin de documentos XML, XPath para establecer los elementos
de navegacin, y XSL-FO, que permite dar formato a los mismos. Adems pueden incluirse otros
lenguajes como XQuery, XLink y XPointer que se emplean para el enrutamiento y recuperacin de
los datos almacenados y estructurados en los documentos XML. Por lo que el funcionamiento de
todos los lenguajes de marcado extensibles est coordinado y relacionado de manera muy
precisa aunque la definicin que aporta el W3C (World Wide Web Consortium) sobre XSL no es
tan explcita:
...eXtensible Stylesheet Language es un lenguaje para crear hojas de estilo a travs de las
cuales ser posible mostrar el contenido estructurado de un documento con un formato
determinado. Consiste en dos partes: un lenguaje de transformacin de documentos XML y un
vocabulario XML para especificar semnticas para el formato (objetos de formato)... (W3C de la
A a la Z, 2009)
Para estudiar XSLT, ha sido necesario el empleo de dos fuentes electrnicas fundamentales, por
un lado las especificaciones del propias del W3C Consortium (XSL Transformations XSLT Version
2.0, 2007) y documentacin de referencia del W3School (XSLT Tutoria, W3Schools, 2009) para
abordar los aspectos ms prcticos.
Siendo XSLT un lenguaje que permite la transformacin de los documentos XML en documentos
XHTML, o en otros documentos XML, con diferentes contenidos. De hecho es posible elegir qu
elementos se desean agregar y eliminar en las visualizaciones o presentaciones de informacin,
evitando que la representacin de la informacin de un documento XML, sea un rbol jerrquico
por defecto, tal y como se puede comprobar en cualquier navegador con el documento XML por
defecto.
PGINA 12 DE 54
DTD
Como se ha explicado anteriormente, para validar el formato de un documento XML y por
extensin generar un formato de sindicacin es necesario que los elementos, nodos y atributos
del documento estn conformados de acuerdo a unas normas de definicin del tipo de datos y
organizacin (W3C QA Recommended list of DTDs. W3C World Wide Web Consortium, 2009).
Para estos efectos existen dos opciones posibles: Los documentos DTD, (Document Type
Definition) que tienen ventajas en cuanto a su simplicidad de edicin y declaracin pero
problemas de adaptacin al protocolo de transmisin de datos SOAP (fundamental para la
elaboracin de sistemas y formatos de sindicacin); y XSD Schema, que se emplea con las
mismas intenciones y finalidades que DTD, con la ventaja de ser compatible con SOAP, pero
complicado en cuanto a la declaracin y sintaxis que emplea para la definicin de los elementos
de un documento XML. Sin lugar a dudas ya se puede observar que la sindicacin es una
tecnologa que no slo emplea un tipo de estructura, un formato o un documento para la
declaracin y validacin de los contenidos, sino que requiere de otros elementos como protocolos
de comunicacin basados en la red como SOAP, y otros mdulos que permiten mejorar y
perfeccionar la definicin del lenguaje que de sindicacin que se pretenda desarrollar o utilizar.
En torno a la descripcin del tipo de documento es necesario basarse en fuentes electrnicas
especializadas procedentes del W3C Consortium. Concretamente en las especificaciones
oficiales de la DTD (RAGGET, D. et al., 1999) y en el manual de referencia del W3School (DTD
Tutorial, W3Schools, 2009) del cual se han tomado ejemplos que posteriormente han sido
adaptados al presente estudio.
Una definicin del tipo de documento, DTD, permite determinar la arquitectura de los elementos y
datos que contiene un documento XML. Define la estructura del documento con una lista de
elementos y atributos vlidos. Un archivo DTD, puede ser declarado en lnea, dentro de un
documento XML, o como una referencia externa, siendo sta la forma ms recomendable. Con un
archivo DTD, cada documento XML, incluye una descripcin de su propio formato. Con un archivo
DTD independiente o distribuido, se genera un formato de descripcin de contenidos que puede
ser compartido por diversos grupos de usuarios, que permite verificar los datos que se reciben y
envan.
XSD Schema
XSD (Schema Definition) es una alternativa al empleo de DTD para describir la estructura y datos
contenidos en un documento XML. El propsito de Schema es definir los elementos, atributos,
relaciones jerrquicas entre elementos, nmero y orden de elementos, condicin y tipo de
contenido de los elementos, tipo de datos para los elementos y sus atributos, definir valores por
PGINA 13 DE 54
defecto y fijados para los elementos y sus atributos; casusticas que pueden aparecer en un
documento. XSD Schema est concebido como el lenguaje sucesor de DTD; esto se debe a
varias razones como la flexibilidad a la hora de modificar y ampliar las estructuras del documento.
Schema es un lenguaje enteramente basado en XML, lo que le brinda una mayor versatilidad,
soportando ms tipos de datos que DTD, por lo que se definen mejor los contenidos del
documento XML (XML Schema Part 1: Structures Second Edition, 2004). Schema permite el
empleo de etiquetas para definir las estructuras. Una de las grandes ventajas de XML es que
admite ms variedad de tipos de datos. Permite describir cualquier contenido a lo largo del
documento XML, permite la correcta validacin de los datos, sin necesidad de disponer de un
parser ad-hoc para determinar errores de descripcin, permite trabajar con datos directamente
desde la base de datos, define facetas de datos o restricciones en los datos, permite definir
patrones de datos (es decir formatos de datos), permite convertir datos entre diferentes tipos de
datos. XSD Schema utiliza sintaxis xml, siendo sta otra de las ventajas sobre los documentos
DTD. Esto se traduce en, que es posible utilizar el mismo programa parser empleado en DTD,
para analizar los schemas; la posibilidad de manipular el Schema con tcnicas de XML DOM, as
como transformar el Schema mediante tcnica y lenguajes XSL-T. XSD Schema adems asegura
una comunicacin segura de los datos, permitiendo el envo y recepcin de los mismos. Con
Schema el emisor puede describir los datos de una manera que el receptor pueda entenderlo y
obtener de dicha forma la confirmacin de su recepcin. Esto supone una normalizacin en
algunos tipos de datos, lo que permite que sean interpretables por cualquier usuario. Los XSD
Schemas son extensibles o ampliables ya que estn escritos en xml.
XPath
XPath es el lenguaje que permite la navegacin en documentos XML, permitiendo el acceso a
determinadas partes como pueden ser sus atributos o documentos. Para ello utiliza una sintaxis
para definir las partes de un documento, considerndose un elemento fundamental de XSLT.
XPath utiliza expresiones para seleccionar nodos en un documento xml. Por ello las expresiones
empleadas son las rutas de acceso a los nodos y elementos del documento. XPath incluye
funciones estndar embebidas en el propio lenguaje. Varan desde cadenas de texto, valores
numricos, operadores de fecha, comparacin, manipulacin de secuencias, funciones y valores
bolanos, entre otros.
XLink
XLink define el estndar para la creacin de hipervnculos en los documentos xml. XLink est
directamente relacionado con XPointer que es el lenguaje responsable de apuntar a partes
especficas de un documento xml. Por ello existe una relacin directa en la sintaxis que emplea
XPointer y XPath (XLink and Xpointer Tutorial, W3School., 2009).
PGINA 14 DE 54
XLink es similar a los enlaces de html, aunque con diferencias sustanciales que lo hacen ms
completo. Cualquier elemento en un documento xml, puede llegar a convertirse en un elemento
de XLink. XLink soporta enlaces simples como los utilizados en html, o enlaces extendidos, que
pueden enlazar a mltiples recursos a la vez unidos en un mismo hipervnculo. Con XLink los
hipervnculos pueden ser definidos fuera de los archivos enlazados.
La relacin de XLink con XPointer se basa en los siguientes aspectos; Al utilizar XPath, permite
apuntar a determinadas partes de un documento xml y navegar a travs de l. XLink emplea el
sistema de enrutamiento determinado por XPointer y basado ntegramente en XPath.
XPointer
Conocida la interrelacin entre XLink y XPointer, se debe concretar que XPointer utiliza los
fundamentos de XPath para apuntar a un determinado lugar o localizacin del documento XML.
Para ello emplea atributos id que permiten identificar un determinado punto o elemento en el
documento. A su vez XPath acta para determinar la posicin y nivel jerrquico de los elementos.
La sindicacin de contenidos
La palabra sindicacin en su acepcin ms comn, tiene su origen en el vocablo griego
(con Justicia) y del latn syndicus que en castellano se denomina sndico; entendiendo por sndico
aquel hombre elegido por una comunidad o corporacin para cuidar de sus intereses. De sndico
proviene el verbo transitivo sindicar de entre cuyas acepciones se entiende ligar varias personas
de una misma profesin, o de intereses comunes, para formar un sindicato y entendido como
verbo pronominal el entrar a formar parte de un sindicato. Del verbo sindicar se obtiene el
sustantivo sindicacin como la accin o efecto de sindicar o sindicarse. Por tanto puede extraerse
una connotacin de afiliacin o pertenencia a una entidad.
Pero la sindicacin empleada en el contexto de esta investigacin y ms particularmente en el
entorno web, adquiere una significacin diferente, ya que es tomada del ingls. Esto es debido a
que precisamente los pioneros e investigadores de dicha tcnica y proceso son autores
anglosajones. Teniendo en cuenta este aspecto se viene utilizando sindicacin a modo de
anglicismo de syndication; siendo ste un vocablo ambiguo en cuanto a su significado, puesto que
es empleado para definir la transmisin de derechos de emisin en televisin, las licencias de
impresin en prensa, as como las propias para la radiodifusin. Estos usos demuestran que su
empleo tradicional viene de la mano de los medios de comunicacin y ms concretamente
vinculados a la gestin de los derechos de propiedad intelectual de los contenidos.
Syndication tiene sus races a su vez, en el sustantivo syndicate o sindicato, tomando su
connotacin de afiliacin o pertenencia a una entidad. De hecho se establece un paralelismo en
PGINA 15 DE 54
referencia al vnculo existente entre el trabajador y el sindicato al que est afiliado, al igual que lo
hace un medio de comunicacin respecto de la fuente de informacin por la que se nutre
habitualmente, para difundir una serie de contenidos.
En este sentido en los pases anglosajones han utilizado este trmino desde las primeras
ediciones escritas de los medios de comunicacin modernos, adecundose a los nuevos formatos
con el transcurso del tiempo, hasta la llegada del medio fundamental de la sociedad de la
informacin, la web. As pues syndication en el presente trabajo, se aplica a la difusin de
contenidos en la web a partir de una fuente determinada, a la cual el destinatario est afiliado o
suscrito.
Orgenes de la sindicacin
El origen de la sindicacin de contenidos resulta complejo de analizar, dado que ha dependido en
gran medida del desarrollo tecnolgico de los lenguajes de marcado y de la generalizacin de su
uso para transmitir informacin. Por tanto no se puede atribuir a un nico autor la autora de la
sindicacin de contenidos, puesto que han sido mltiples investigadores y desarrolladores los que
confluyendo sus conocimientos han logrado crear esta tcnica y proceso. La historia y evolucin
de la sindicacin de contenidos puede resumirse en la implantacin y mejora de los formatos de
sindicacin. Por ello sus orgenes hay que buscarlos en las investigaciones del primer lenguaje de
marcado SGML (Standard Generalized Markup Language) y su mtodo de estructuracin de
datos que, desemboc en el lenguaje XML, conocido como eXtensible Markup Language. La
sindicacin est soportada pues, por XML o lo que es lo mismo, los lenguajes extensibles de
marcado, para estructurar, organizar y difundir la informacin va web. Esto significa que la
sindicacin de contenidos es consustancial al desarrollo tcnico de sus derivados como por
ejemplo XSLT, XSD o XPath. Algunos de los responsables directos del desarrollo de la sindicacin
de contenidos son los investigadores Dave Winer, Ramanathan V. Guha, Dan Libby, Tim Bray,
Dan Brickley o Sam Ruby considerados pioneros y padres de esta tcnica. A Tim Bray se le
atribuye una aportacin esencial en el desarrollo de SGML desde 1987, destinada a la creacin
del lenguaje XML, considerado la base de cualquier formato de sindicacin. Ramanathan V. Guha
destaca por su investigacin sobre los meta-contenidos MCF (Meta Content Framework) entre
1995 y 1997 (GUHA, R.V. and Bray, T., 1997) que dar lugar ms tarde al conocido formato RDF
Resource Description Frammework en 1999 (BRICKLEY, D. and Guha, R.V., 1999), o marco de
descripcin de recursos, que supone el punto de partida para el desarrollo del formato de
sindicacin RSS1.0. Por su parte Dave Winer es el primer autor que logra poner en prctica las
tcnicas de sindicacin de contenidos, elaborando su propio formato de datos XML para su sitio
web Scripting News en 1997 (WINER, D., 2001). Este logro fue el resultado de aplicar todos los
conocimientos citados sobre los primeros metalenguajes. Tambin se tiene constancia de que el
primer navegador web en aplicar sistemticamente las tcnicas de sindicacin de contenidos fue
Netscape con el formato de sindicacin RSS 0.91. Esto se debe al trabajo de Dan Libby y
Ramanathan V. Guha autores de la versin de pruebas de dicho formato, denominada RSS 0.90
(JOHNSON, D., 2006) pp57 creada en 1999 hasta su posterior actualizacin a la versin RSS
0.91 (CADENHEAD, R., 2008) tambin publicada el mismo ao. Por otro lado Dave Winer
desarrolla en el ao 2000 una segunda variante denominada RSS 0.92 (WINER, D., 2003), con
PGINA 16 DE 54
nuevos elementos que amplan las capacidades originales del formato para la descripcin de
recursos y contenidos informativos. De hecho la sindicacin se emplea para compartir tales
contenidos, generados por los medios de comunicacin, siendo estos los primeros en aprovechar
las ventajas de esta tcnica para transmitir y difundir en mayor medida su informacin. En la
consecucin de ese objetivo se fue haciendo necesaria la creacin de programas capaces de
codificar la informacin en los formatos recientemente creados, as como su correcta publicacin
de forma tal, que pudieran ser admitidos por Netscape. Este problema es solucionado en 1997
con la aparicin del programa Manila (USERLAND, 2009), el primer sistema de publicacin de
contenidos va web con sindicacin activa, desarrollado por UserLand, la primera empresa
especializada en este tipo de software, con Dave Winer a la cabeza de su direccin. De esta
forma se logra materializar la difusin de noticias en los peridicos como el New York Times (New
York Times News Service Syndicate, 2009), el Washington Post (Washington Post RSS news feed
topics, 2009), as como en portales de noticias como Yahoo News (YAHOO NEWS, 2009). Esta
primera revolucin de la sindicacin tiene lugar entre 1999 y 2002, fechas en las que an resulta
muy novedosa y poco extendida. Seguidamente se presenta un periodo de maduracin que
abarca desde el ao 2002 hasta el 2004, segn las fuentes consultadas (FESTA, P., 2003),
periodo en el que se produce un perfeccionamiento de las tcnicas, formatos y programas que
utilizan la sindicacin de contenidos. Dave Winer es considerado en este sentido, el responsable
de gran parte de los avances de ese periodo de perfeccionamiento, puesto que materializa una de
las primeras aplicaciones Weblog derivada del programa Manila y extiende su utilizacin no slo a
los medios de comunicacin, sino al entorno acadmico, concretamente en la Universidad de
Harvard, tal como queda reflejado en el diario CNET News (FESTA, P., 2003), en el que se pone
de manifiesto la iniciativa llevada a cabo para la gestin y publicacin de contenidos informativos
y acadmico-formativos. De esta forma Winer se adelanta a la gran explosin demogrfica del
fenmeno blog (BLOOD, R., 2000). El resultado de estas experiencias fue la ampliacin y
actualizacin paulatina del formato RSS a las versiones 0.93 y 0.94 respectivamente, que darn
como resultado definitivo el actual formato RSS 2.0 en el ao 2003 (USERLAND; BERKMAN
CENTER, 2003). En esa misma fecha comenzara el desarrollo de un formato de sindicacin
alternativo a RSS2.0, el formato Atom y su protocolo. La idea fue propuesta por Sam Ruby y
pronto obtuvo los apoyos necesarios de otros desarrolladores como Mark Pilgrim, Aaron Swartz o
el propio Dave Winer, junto con mltiples empresas y comunidades de desarrolladores (RUBY, S.
and Hopkins, D., 2007). El objetivo del formato Atom era lograr una distribucin neutral del mismo
en los navegadores web, evitando problemas de monopolio, permitiendo que fuera implementado
por cualquier usuario, dotndolo de extensibilidad y de una estructura limpia y ordenada. Como
resultado de estas pautas se obtuvo una primera versin de pruebas Atom 0.2 y una versin
definitiva Atom 0.3 que fue adoptada por Google para equipar sus principales servicios web como
Blogger (Atom API Documentation for Blogger, 2006), Gmail o Google News (GData JavaScript
Client 2.0 Class Hierarchy, 2009). Pero el formato Atom continuara su desarrollo, dirigido por Tim
Bray y Paul Hoffman, hacia una mayor normalizacin elaborndose la versin Atom 1.0 que
actualmente es reconocida por el W3C Consortium y el IETF (Internet Engineering Task Force).
Como se desprende de este recorrido, la sindicacin de contenidos es una tcnica que ha tenido
un desarrollo catico e imperfecto, a tenor de la gran cantidad de formatos elaborados. Tambin
se advierte un continuo proceso de reinvencin, lo que demuestra una importante componente
PGINA 17 DE 54
tecnolgica inherente a los lenguajes extensibles de marcado para los que la sindicacin cumple
su principal objetivo, transportar y transmitir informacin estructurada. A tal consideracin se une
el modo de empleo y utilizacin que de la sindicacin se ha hecho a partir de los contenidos web y
de forma ms especializada, como los contenidos informativos, acadmicos, audiovisuales y
documentales, todos ellos aspectos a considerar en una posible definicin del trmino.
Segn (HAMMERSLEY, B., 2003) La sindicacin de contenidos hace que una parte o la totalidad
del contenido de un sitio web est disponible para su ulterior utilizacin en terceros servicios. El
contenido sindicado puede ser la informacin propia del sitio o sencillamente sus metadatos... Un
feed de sindicacin puede ser cualquier contenido, titulares, enlaces a terceros contenidos, el
cuerpo informativo del sitio, despojados de su formato visual, y de sus metadatos libremente
aplicados... La sindicacin de contenidos permite al usuario examinar toda la informacin de un
sitio web y recibir la notificacin de sus actualizaciones. sta puede variar desde una simple lista
de enlaces de un sitio web a otro, hasta los fundamentos de interrelacin de la web semntica. Si
bien Ben Hammersley defini sindicacin en el contexto de un formato de sindicacin muy
concreto, RSS, tambin es verdad que su definicin aporta una connotacin de metalenguaje,
siendo la sindicacin capaz de incorporar meta-contenidos. Esto es muy significativo para los
procesos de actualizacin y notificacin de novedades en las fuentes de sindicacin, que
denomina feeds. Otro aspecto destacable de la definicin es una de sus ltimas reflexiones en
relacin a las posibilidades de servicio de dichas fuentes de sindicacin, variando desde simples
listas de enlaces hasta complejas relaciones propias de la web semntica. Esta afirmacin viene a
vislumbrar que la tecnologa de sindicacin y de la web semntica parte de los mismos
fundamentos tcnicos, dando a entender que es posible su desarrollo desde la sindicacin de
contenidos y lo difusas que son las barreras que separan todas las tcnicas que emplean
lenguajes extensibles de marcado basados en XML.
Segn (AYERS, D. and Watt, A., 2005) es La distribucin de contenidos a mltiples usuarios. A
menudo se utiliza para referirse a la utilizacin de contenidos en mltiples sitios web La definicin
se centra en el proceso de difusin de contenidos sin especificar su tipologa, alcance, entorno de
aplicacin o actores que participan en el proceso de sindicacin. S queda patente la afirmacin
de emplear la sindicacin como mtodo para embeber contenidos en diversos sitios web, en clara
alusin a los agregadores y lectores de canales de sindicacin.
Segn (FRANGANILLO, J. and Cataln, M.A., 2005) en su trabajo bitcoras y sindicacin de
contenidos: dos herramientas para difundir informacin, explican que la sindicacin hace posible
tener constancia de la actualizacin de una gran cantidad de fuentes de informacin sin recurrir a
la navegacin, dando a entender una de sus principales caractersticas. A continuacin exponen
una definicin elaborada por el Termcat, Centro de Normalizacin Terminolgica de Catalua que
define sindicacin como un Proceso por el cual un productor o distribuidor de contenidos en
internet proporciona informacin en formato digital a uno o varios suscriptores, generalmente para
que la integren en sus sitios web. (TERMCAT, Centre de Terminologia, 2009). En la misma lnea
se encuentra la definicin de (RODRGUEZ GAIRN, J.M. et al., 2006), al modificar levemente
dicha definicin. La sindicacin es el proceso mediante el cual un productor o un distribuidor de
contenidos en internet los proporciona a un suscriptor, o a una red de suscriptores. stos pueden
utilizar un agregador de noticias (lector de fuentes de sindicacin) para suscribirse a diversos
canales y recibir notificaciones del mbito que les interese. Ambas definiciones son correctas y
concordantes en gran medida, al coincidir en los actores fundamentales del proceso de
sindicacin; el sujeto productor, la disposicin de contenidos, su publicacin y la transferencia a
un pblico objetivo que suscrito al canal de noticias puede recibir cualquier actualizacin de la
informacin demandada de una manera ms personalizada. No obstante podra precisarse mejor
PGINA 19 DE 54
sindicacin puede ser utilizada con propsitos SEO Search Engine Optimization. Comprendida la
dimensin comercial de la sindicacin, la definicin carece de
un enfoque documental, tendiendo a relatar elementos ms relacionados con el periodismo y el
marketing.
De todas las definiciones analizadas existe una serie de afirmaciones claras en relacin a la
sindicacin de contenidos; 1) La sindicacin es un proceso de comunicacin que permite
transmitir un contenido de un productor a mltiples usuarios. 2) La sindicacin es un conjunto de
elementos que conforman una coleccin o canal de sindicacin. 3) La sindicacin est basada en
XML. 4) La sindicacin permite integrar contenidos en mltiples sitios web para su
aprovechamiento. 5) Los contenidos que se transmiten mediante sindicacin son actualizados de
forma constante o peridica. 6) La naturaleza de los contenidos sindicados es variada, pudiendo
ser cualquier tipo de dato o informacin. 7) Existe una clara relacin entre los sistemas de
publicacin y la sindicacin como su herramienta de difusin. 8) Existen herramientas que facilitan
la lectura de ordenacin de la informacin transmitida mediante sindicacin, haciendo alusin a
lectores y agregadores especializados en canales de sindicacin.
Teniendo en cuenta lo dicho, sindicacin de contenidos es el proceso de redifusin de informacin
que permite la suscripcin a una fuente de informacin alimentada por sujetos productores de
contenidos informativos, documentales o procedimentales en el corpus de un canal y un formato
de datos que lo estructura para su intercambio, servicio, recopilacin, lectura y gestin por parte
de administradores, editores y usuarios.
La sindicacin tambin puede ser entendida como tcnica de transmisin de datos a partir de
archivos XML configurados como canales de informacin de actualizacin peridica, que
posibilitan el intercambio de contenidos publicados o no en el entorno web, posibilitando su alerta,
conocimiento, gestin, almacenamiento y tratamiento.
Desde el punto de vista tcnico, la sindicacin emplea una serie de elementos muy concretos, a
saber; 1) el formato de sindicacin propiamente dicho basado siempre en XML, 2) el archivo XML
debe estar bien formado y validado, 3) La disposicin de un canal o coleccin de tems o
elementos jerrquicamente embebidos dentro del mismo, 4) los esquemas de descripcin de
contenidos denominados SCHEMAS o DTD que lo definen, 5) las hojas de formato y estilo
adaptadas y desarrolladas en XSL o CSS, para su correspondiente visualizacin, 6) y la
utilizacin del protocolo bsico de comunicacin web HTTP para la transmisin de datos o el
empleo de protocolos especficos de comunicacin como SOAP o XML-RPC que permiten la
recepcin de una fuente de informacin determinada por parte del usuario es decir su
transferencia.
Atendiendo a un enfoque ms documental, la sindicacin es el proceso de transmisin de
informacin que haciendo uso de tcnicas de redifusin estructurada de los contenidos es capaz
de representar una o diversas fuentes de informacin, tambin denominadas Feeds, para el
intercambio y distribucin de la documentacin entre mltiples usuarios y terceros medios de
comunicacin, utilizando para ello un entorno web hipertextual e interactivo, que permite definir en
PGINA 21 DE 54
todo momento, el origen, la fuente, la autora y las dataciones cronolgicas del ciclo vital del
documento representado. Por ello la sindicacin implica una cadena documental desde el
momento en que se genera el contenido o el documento, procesado y editado hasta su insercin
en el canal o fuente de informacin del sujeto productor, mediante diversos medios de publicacin
web como bitcoras, wikis, portales de contenidos, buscadores, directorios de noticias y
agregadores.
problema es resuelto en esta investigacin, dado que MARC-XML es el principal formato elegido
para elaborar los servicios de gestin catalogrfica mediante sindicacin.
Extensibilidad: La sindicacin hereda la propiedad de extensibilidad propia de los lenguajes de
marcado derivados de XML. Esto significa que la estructura original de un canal de sindicacin
puede ser ampliada segn las necesidades de descripcin, permitiendo la combinacin de
diversos formatos y una mayor polivalencia.
Modularidad y transformacin de la informacin: La informacin estructurada puede
representarse de forma modular, sin necesidad de someterse a un esquema fijo predeterminado.
Esto se consigue mediante el empleo de hojas de estilo para la transformacin de los contenidos
del canal de sindicacin, tambin denominadas hojas XSLT. Posibilitan la transformacin, filtrado,
ordenacin y ejecucin de operaciones de bsqueda y comparacin relativamente sencillas, lo
que a la postre permite transformar y tratar la informacin original. La modularidad de la
informacin estructurada es esencial para llevar a cabo la visualizacin y representacin de los
datos y contenidos que sean precisos en cada momento, facilitando su correcta representacin.
Esto es posible ya que cada elemento puede ser referenciado de manera particular e
independiente, pudiendo ser recuperado conforme a los criterios que el documentalista
establezca.
Capacidad de descripcin del tipo de datos: El empleo de tcnicas de sindicacin supone que
aparte de estructurar los datos, existen documentos que validan los tipos de datos que contiene la
fuente de sindicacin o de datos. Es decir, resulta posible definir qu tipo de datos han de recoger
cada uno de los elementos que conforman la estructura o formato de un documento sindicado.
Por ejemplo es posible definir cadenas de caracteres, campos numricos, hipervnculos, entre
otros. Esto permite un mejor control y normalizacin de los contenidos y en general del conjunto
de elementos sindicados. Estas formulaciones del formato constituyen el denominado schema
XSD o DTD, que permite su validacin.
Actualizacin de alta capacidad: La sindicacin tiene la propiedad de permitir una alta
capacidad de actualizacin, en todos los suscriptores que acogen el canal original. Esto se debe
al empleo de protocolos de transmisin de datos que facilitan la gestin de las peticiones de datos
que se realizan desde los clientes suscritos, que reciben respuestas con las ltimas publicaciones
actualizadas de manera instantnea.
Compatibilidad de estndares: Cualquier formato de sindicacin tiene una alta compatibilidad y
est desarrollado de acuerdo con el estndar XML. Esto permite que puedan ser interpretados en
cualquier equipo con acceso a la red, ya que su medio de difusin es la propia web, utilizando los
mismos protocolos que marcan el funcionamiento de Internet, concretamente http.
Flexibilidad de aplicacin: La sindicacin es flexible, tanto en cuanto puede tener diversos usos.
Se emplea principalmente como sistema de difusin de noticias, pero pueden generarse
autnticos sistemas de informacin a partir de las fuentes de sindicacin de otros medios de
informacin primarios. Por lo tanto se puede apreciar que al igual que ocurre en la teora de la
documentacin (LPEZ YEPES, J. and Desantes Guanter, J.M., 1978), en la que el documento
PGINA 23 DE 54
Funcionamiento de la sindicacin
El funcionamiento de la sindicacin de contenidos puede observarse a
documental y comunicativa donde se suceden una serie de procesos
caracterizados por las propiedades de la estructuracin de los datos,
modularidad y transformacin de la informacin, descripcin del tipo de datos,
la informacin, su redifusin y agregacin.
modo de cadena
bien definidos y
la extensibilidad,
la actualizacin de
Con la finalidad de desarrollar una idea del funcionamiento de la sindicacin de contenidos, con
respecto a la transmisin y desarrollo de los contenidos desde su inicio y gestacin hasta su
recepcin por parte de los destinatarios y usuarios de las correspondientes fuentes de datos, se
determina el modo de funcionamiento de la sindicacin de contenidos en el entorno de red,
explicando su entramado, gestin y tratamiento. La teora y modo de funcionamiento de la
sindicacin de contenidos es la comunicacin que se produce en el entorno de una red telemtica
global o local en la que los contenidos informativos, documentales, textuales y audiovisuales
confeccionados por determinados editores, son emitidos, publicados y difundidos mediante un
canal de transmisin de datos para ser recibidos y analizados por iguales, lectores, distribuidores
y centros de informacin y documentacin. Si bien la definicin aportada resulta amplia y general,
permite circunscribir mejor el entorno, los elementos y partes emisoras y receptoras de un
determinado tipo de contenidos, que es publicado para su difusin, redifusin, anlisis y lectura.
(Vase modo de funcionamiento en el entorno de red, en la figura 4). La trama de la teora de la
sindicacin de contenidos es adems en s misma la descripcin de su funcionamiento, por el cual
los responsables de los contenidos, editores, autores de divulgacin temtica, profesional y
cientfica e incluso instituciones, generan una produccin documental con un grado de validez,
calidad y representatividad de un rea del conocimiento, que puede variar, segn su disposicin,
profundidad en la que se analiza el objeto de estudio y referenciacin bibliogrfica, o aparato
crtico para la corroboracin y prueba de la veracidad de lo aportado. En este estadio, los
principales responsables de los contenidos, publican la informacin producen y generan
documentacin cuyo objetivo particular es su novedad y aportacin tcnica, terica, documental y
PGINA 24 DE 54
cientfica, para ser publicada y difundida mediante sistemas de publicacin que incorporan en s
mismos el soporte de representacin de los contenidos. Es decir, sistemas como los portales de
contenidos participativos wikis, los sistemas de gestin del conocimiento CMS y las bitcoras o
blogs, incluyen en s mismos la representacin visual y el espacio de publicacin en la red
Internet, por tanto en este caso global, en forma de sitio web, portal de noticias e incluso revistas
electrnicas. No ha de pensarse que slo se est restringido a esta tipologa de recursos
electrnicos, pero s constituyen los ms significativos que ostentan la mayor parte de los
contenidos en la red. Adems tanto el sistema de publicacin como el soporte en muchos casos
aade la funcin de sindicacin automtica de los contenidos, generando los correspondientes
canales o fuentes de sindicacin, en los formatos o lenguajes de sindicacin RSS, RDF y Atom,
que permiten la estructuracin de la informacin publicada para su correspondiente difusin a
travs del citado canal o fuente creada. Llegados a este trmino la sindicacin cumple ya su
objetivo fundamental que es poner en representacin global una fuente de datos o canal de
sindicacin que engloba todos los contenidos de un determinado autor, editor o institucin. Pero la
evolucin de la cadena de sindicacin de contenidos ha permitido ciertos controles en la
manipulacin de las fuentes o canales de sindicacin. Esto se consigue mediante programas de
sindicacin, capaces de realizar la lectura de las fuentes originales. Desarrollados originalmente
en el mbito anglosajn y por ello denominndose FeedReaders, permiten captar y agrupar
diversas fuentes para el seguimiento alerta y lectura de los contenidos sin necesidad de acceder a
la pgina web original o soporte de representacin. Estos sistemas son empleados por los
usuarios de la red, consumidores de contenidos de las fuentes de sindicacin de un determinado
autor, editor o entidad, por lo que les permite tener en conocimiento instantneo todas las
novedades documentales de aquellos recursos que ellos mismos han seleccionado. De esta
manera el usuario se convierte en un recolector de recursos y fuentes de forma directa, mediante
las tcnicas de sindicacin. No obstante existen otros caminos para acceder al mismo resultado o
al mismo receptor de la informacin y de los contenidos. Existen entornos en la red considerados
de redifusin de los contenidos, conformados por los agregadores y portales redistribuidores de
contenidos y fuentes de sindicacin. En estos casos las fuentes de sindicacin requieren de un
tratamiento diferente al empleado por los lectores de fuentes al uso que un usuario determinado
puede utilizar de manera local. En este sentido son terceros soportes de representacin de
contenidos que adaptando programas parser para el tratamiento de las fuentes de sindicacin,
son capaces de analizar los contenidos originales, y extraerlos para diversos usos de valor
aadido ya sea por recuperacin, agrupacin de contenidos o mejor representacin de la
informacin que en el sitio web original. En virtud a estos aspectos, se han desarrollado sistemas
de anlisis de fuentes de sindicacin, parsers especializados en la lectura, la transformacin y la
recuperacin de la informacin sita en las fuentes. De esta manera terceros medios de redifusin
son capaces de adaptar los contenidos a formatos de representacin nuevos, organizar y agrupar
fuentes o canales de sindicacin para su organizacin temtica y clasificacin, que constituyen
una segunda va de alimentacin para los usuarios de la red, consumidores de determinados tipos
de contenidos. Tambin se desprende de la teora de la sindicacin de contenidos, que existe una
transformacin de los documentos al igual que el fenmeno producido en las bibliotecas y centros
de informacin y documentacin, que desarrollan catlogos y productos bibliogrficos para
difundir y acceder a la informacin. En la sindicacin de contenidos ocurre lo mismo si se otorga
el tratamiento de documento a los contenidos producidos por una serie de autores, siendo
PGINA 25 DE 54
documentos primarios, que mediante el canal o fuente de sindicacin, son manipulados para su
organizacin, distribucin y descripcin, generndose a la postre una documentacin secundaria,
referencial de los primeros.
prdidas de datos.
Si bien los formatos de sindicacin por s solos atendiendo a su estructura bsica no eran
capaces de representar toda la informacin, utilizaron una de las propiedades fundamentales de
la sindicacin basada en XML, la propiedad de extensibilidad, para solucionar dichos problemas.
De hecho la extensibilidad de los formatos de sindicacin de contenidos permite el empleo de
terceros formatos de sindicacin o mdulos debidamente validados a travs de la declaracin de
su namespace o espacio de nombres en el que se encuentra su schema XSD o lo que es lo
mismo las reglas de construccin de dicho lenguaje, sus etiquetas, atributos y caractersticas
propias.
Esta capacidad propia de los lenguajes de marcado derivados de XML ha sido ampliamente
aprovechada por los formatos de sindicacin que pueden emplear mdulos especializados para
resolver por ejemplo el problema de la descripcin de artculos de revistas cientficas.
Conforme a lo explicado, los formatos de sindicacin originalmente no fueron concebidos para
describir tipos documentales especializados, sino ms bien una generalidad de tipos
documentales enmarcados en la publicacin web, lo cual ha supuesto mltiples cambios, mejoras
y avances conforme a los formatos originales. Un ejemplo claro de ello es el formato RSS que en
total ha sumado ocho versiones distintas desde su creacin en 1999 hasta el ao 2003. Todos
estos cambios de versin han propiciado un continuo proceso de adaptacin por parte de los
navegadores web que soportaban la sindicacin como mtodo de redifusin de la web, implicando
constantes cambios en los mecanismos parser de interpretacin, lectura y agregacin de
contenidos.
Atom
El formato Atom fue desarrollado a partir del ao 2003 como resultado de una propuesta de Sam
Ruby, por crear un formato de sindicacin que mejorara la experiencia de descripcin de los
contenidos web. Es importante sealar que la iniciativa fue propiciada por la disconformidad con
el formato RSS, que resultaba en muchos casos demasiado sencillo e ineficaz para representar
contenidos publicados en una web cada vez ms dinmica (RUBY, S., 2003), por ejemplo la
posibilidad de incluir comentarios, las fuentes de origen, autores, colaboradores de los
contenidos, etc. Esta idea fue expuesta en el portal Intertwingly del propio Sam Ruby, obteniendo
una gran cantidad de adhesiones de desarrolladores para trabajar en el desarrollo de dicho
formato. Se tiene constancia de la participacin activa de algunos de los autores del formato de
sindicacin RSS1.0 y RSS2.0 como Aaron Swartz, Mark Pilgrim, Tim Bray o incluso el propio
Dave Winer creando en conjunto como grupo de trabajo APE(Atom/Pie/Echo), la primera hoja de
ruta para desarrollar el formato Atom (RUBY, S. and Hopkins, D., 2007). En este documento se
expresan algunas de las directrices distintivas del nuevo formato:
1) Neutralidad de desarrollo con independencia de las compaas que suministren y proporcionen
soporte al formato.
2) libre utilizacin del formato por todo el mundo.
3) Libre extensibilidad del formato por cualquier con cualquier otro formato o mdulo.
4) Constituido por un lenguaje limpio y bien formado.
PGINA 27 DE 54
El grupo de trabajo APE, as denominado por las distintas lneas de desarrollo y concepcin del
formato (Atom, Pie, Echo), desemboc en el desarrollo de la versin 0.2 de prueba del formato
Atom, todava en un estado muy primario, carente de DTD, validacin y estructuracin clara a
tenor de lo analizado en sus especificaciones (APE(ATOM/PIE/ECHO) WORKING GROUP, 2003).
Este primer resultado no dispona de protocolos y herramientas de edicin o actualizacin del
canal de sindicacin, tal y como fue delimitado en la hoja de ruta. Estos avances se conseguirn
con una versin ms normalizada, Atom0.3, cuyas especificaciones quedan perfectamente
aclaradas (APE(ATOM/PIE/ECHO) WORKING GROUP, 2003). A partir de entonces Atom empez
a ganar importancia al ser adoptado como principal formato de sindicacin adoptado por Google
para la representacin de los contenidos publicados en su divisin de blogs Blogger (Atom API
Documentation for Blogger, 2006), extendindose su uso a terceras aplicaciones de importancia
como Google News o incluso el propio Gmail, posibilitando la sindicacin de noticias y correos
electrnicos mediante canales en formato Atom.
A pesar de todo, Atom0.3 no era reconocido como lenguaje normalizado, por lo que se transfiri
su desarrollo al IETF Atom Pub Working Group, constituido por los mismos miembros del equipo
de trabajo anterior, dirigidos por Tim Bray y Paul Hoffman. Los objetivos esenciales de este nuevo
equipo era la creacin de un espacio de nombres propio sobre el asentar un formato de
sindicacin ms maduro y completo. Ello se logr en el ao 2005 con Atom1.0 logrando el
reconocimiento del Internet Engineering Task Force y el W3C Consortium como un estndar de
sindicacin de contenidos (IETF ATOMPUB WORKING GROUP, 2005).
<?xmlversion="1.0"encoding="UTF8"?><feed
PGINA 28 DE 54
xmlns="http://www.w3.org/2005/Atom">
...<entry>
...
</entry>...
</feed>
El elemento feed es por tanto el elemento padre del que dependen todos los dems y tiene como
objetivo contener tanto la informacin propia del canal de sindicacin como las entradas o tems
que constituyen los contenidos. Tambin consta de un atributo obligatorio concretamente, el
namespace o espacio de nombres correspondiente al formato Atom, que resulta obligatorio para
la identificacin de la estructura para el protocolo Atom o para cualquier parser de canales de
sindicacin, <feed xmlns="http://www.w3.org/2005/Atom">.
Definidos estos aspectos se consideran etiquetas del elemento feed aquellas que definen la
informacin bsica del canal de sindicacin como su ttulo, descripcin, autor, fecha de
publicacin o enlace, configurndose los siguientes elementos:
Enlace <link rel="" href="" type="" hreflang="" title="" length=""/>. El elemento link
lo constituye una sola etiqueta de apertura y cierre y su papel es fundamental en el canal
ya que identifica la url completa al archivo XML del canal de sindicacin y el tipo de
relacin del enlace con el propio canal. Estos aspectos se definen en sus atributos de la
siguiente forma:
o
Relacin rel="". El atributo rel determina el tipo de relacin que existe entre el
enlace y el canal de sindicacin. Por tanto si contiene una URL o enlace al canal de
sindicacin tomar el valor self, puesto que se identifica a s mismo. El empleo del
atributo rel es opcional pero importante en combinacin con href.
Direccin URL href="". El atributo href se emplea para definir el enlace o URL
correspondiente al canal de sindicacin Atom. Debe asegurarse que el contenido
enlazado es el propio archivo XML empleado para la sindicacin del contenido. La
utilizacin del atributo href es obligatoria para definir el enlace.
Tipo type="". El atributo type define el tipo de informacin que contiene el enlace
href, pudiendo definir tipos MIME, en el caso de definir el propio canal de
sindicacin type toma el valor application/atom+xml, tal y como aclaran las
especificaciones. Su empleo es
Esquema scheme="". Define la URI del esquema de categoras del que se ha tomado
el identificador temtico. Suele emplearse cuando existen lenguajes controlados como
ontologas o tesauros basados en XML. El empleo de este atributo es opcional.
PGINA 30 DE 54
Etiqueta label="". Define una etiqueta que o bien describe el trmino empleado para
clasificar el canal o bien sirve como trmino legible y representable. Esto sucede cuando el
atributo term, en vez de contener un texto como un descriptor, alberga un cdigo de
identificacin numrico o alfanumrico correspondiente a tal trmino. El empleo de este
atributo al igual que scheme, tambin es opcional. Colaborador
<contributor></contributor>. El elemento contributor identifica a los colaboradores del
canal de sindicacin. Al igual que el elemento author, dispone de una estructura de
subelementos para definir el nombre completo, el correo electrnico y la URI
correspondiente al identificador de la persona en una lista de autoridades o de su sitio
web.
Identificador uri="". Atributo que contiene el enlace identificador universal del programa
generador de canales Atom.
Icono <icon></icon>. Permite identificar un icono que se utiliza a modo de favicon del
propio canal de sindicacin. Esto se efecta introduciendo la URL correspondiente a la
imagen que configura el icono en formato .ico .png.
Logotipo <logo></logo>. El elemento logo contiene la URL a una imagen que acta
como logotipo identificador del canal, de forma que sea visible en los lectores de canales
de sindicacin
Enlace <link rel="" href="" type="" hreflang="" title="" length=""/>. El elemento link
lo constituye una sla etiqueta de apertura y cierre y contiene la url relativa de la entrada,
pudiendo ser una pgina web nica propia del contenido o relacionada. De hecho puede
emplearse tantos elementos links como sean necesarios para describir los enlaces del
contenido. En relacin a sus atributos operan de la misma forma que en el caso del feed.
El atributo rel define el tipo de relacin del contenido con el enlace, adquiriendo distintos
valores predeterminados como alternate, enclosure, related, self y via. El valor alternate
define que el contenido enlazado es una representacin alternativa de la entrada; El valor
enclosure define que el enlace es un contenido de gran tamao y extensin,
fundamentalmente un archivo de audio o video, lo que implica un canal de broadcasting o
podcasting, afectando al atributo type en el que se tendr que definir obligatoriamente su
tipo MIME; El valor related implica que el contenido enlazado est relacionado con la
entrada; El valor self indicara que el contenido enlazado es la propia entrada; El valor via
indicara la fuente original del contenido de la entrada. En relacin al resto de atributos no
PGINA 32 DE 54
PGINA 33 DE 54
Extensibilidad de Atom
Al igual que sucede con el resto de formatos de sindicacin, el formato Atom es extensible por
estar definido como un lenguaje basado en XML. La propiedad de extensibilidad lo habilita para
introducir elementos y etiquetas con nombres de espacio propio. Esto se consigue mediante la
declaracin del namespace en la etiqueta feed como un atributo xmlns aadido a los ya
existentes. De esta forma pueden emplearse terceros formatos basados en XML que sirvan para
ampliar la capacidad de descripcin de Atom.
DEV Working Group (BEGED DOV, G. et al., 2008). Este grupo de trabajo continu la lnea de
desarrollo original del formato RSS0.90 y RSS0.91 (NETSCAPE, 2001), primer formato de
sindicacin reconocido y utilizado, creado por Dan Libby y Ramanathan V. Guha para el
navegador Netscape y su portal de noticias (KING, A., 2003). RSS1.0 aportara la primera
estructura modular, pensada para las propiedades extensibles de XML. A parte de esta
caracterstica RSS1.0 se diferenciar del resto de versiones de RSS por basarse en un nuevo
modelo de lenguaje basado en XML, se trata de RDF (Resource Description Framework), que
permite la descripcin y estructuracin de la informacin de los recursos de la web. Esta
particularidad se debe a su capacidad para definir vocabularios de descripcin, as como
determinar relaciones semnticas de los contenidos mediante el empleo de relaciones sintcticas
entre distintos objetos de descripcin que hacen las veces de 1) sujetos, 2) predicados y 3)
objetos, tambin denominadas como relaciones triples. El nuevo formato requera el empleo real
de un DTD y posteriormente Schema XSD, por lo que se desarroll uno compatible con los
elementos bsicos del formato y las propiedades de RDF (RDF/XML Syntax Specification
(Revised), 2004). Aunque la propiedad de extensibilidad es comn a cualquier formato de
sindicacin basado en XML, RSS1.0 ser el primero en apostar por la introduccin de mdulos
que completaran el formato original para ser capaz de describir mejor, segn el caso cualquier
tipo de recurso web. Esta concepcin llev al desarrollo de mdulos especficamente diseados
para el formato RSS1.0, formando parte de las especificaciones originales. Segn la ltima fecha
de actualizacin de las especificaciones RSS1.0 reconocen tres mdulos completamente
reconocidos como parte del estndar en uso siendo el mdulo content, syndication y dublin core.
No obstante se desarrollaron otros muchos mdulos que o bien se encuentran en desuso y
desactualizacin o bien por motivos de desarrollo an no son considerados estndar de uso junto
con RSS1.0; es el caso de mdulos como prism, admin, aggregation, annotation, audio, cc,
changedpage, company, context, email, event, link, richequiv, rss091, search, servicestatus, slash,
streaming, subscription, taxonomy o threading (BEGED DOV, G. et al., 2002).
Enlace <link></link>. Contiene la URL absoluta de la pgina web que contenga una
representacin HTML del canal de sindicacin. Tambin resulta frecuente utilizar la URL
PGINA 36 DE 54
PGINA 37 DE 54
Elementos de item
El elemento item constituye la entrada a los contenidos del canal de sindicacin en RSS1.0, pero
tambin la declaracin del objeto o descripcin del mismo, anteriormente referenciado en el canal,
concretamente en la ruta (rdf:RDFchannelitemsrdf:Seqrdf:li). El tem forma parte
dependiente de la etiqueta rdf:RDF al igual que channel por lo que se pueden considerar nodos
hermanos, dependientes del mismo padre. Cada tem consta a su vez de los siguientes
elementos:
como mdulo estndar del mismo, segn las especificaciones. Atenindonos a estas, el mdulo
consta de los elementos bsicos de Dublin Core a saber:
<dc:title>
Definicin del ttulo propiamente dicho.
Disponible en: http://purl.org/dc/terms/title
<dc:creator>
Definicin del nombre del autor y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/creator
<dc:subject>
Materia o temtica del documento o contenido.
Disponible en: http://purl.org/dc/terms/subject
<dc:description>
Descripcin o contenido completo.
Disponible en: http://purl.org/dc/terms/description
<dc:publisher>
Nombre del editor y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/publisher
<dc:contributor>
Nombre del colaborador y sus datos de filiacin.
Disponible en: http://purl.org/dc/terms/contributor
<dc:date>
Fecha de publicacin segn formato ISO8601.
Disponible en: http://purl.org/dc/terms/date
<dc:type>
Tipo de contenido en funcin a su gnero o naturaleza.
Disponible en: http://purl.org/dc/terms/type
<dc:format>
Formato del documento, soporte fsico e incluso su descripcin fsica.
Disponible en: http://purl.org/dc/terms/format
<dc:identifier>
Identificador universal del contenido, permite ISBN, ISSN, URI, nmero de registro, etc.
Disponible en: http://purl.org/dc/terms/identifier
<dc:source>
Fuente de origen del contenido. Admite URL o definicin de la fuente.
Disponible en: http://purl.org/dc/terms/source
<dc:language>
Idioma o lengua en la que est escrito el contenido.
Disponible en: http://purl.org/dc/terms/language
PGINA 39 DE 54
<dc:relation>
URL de pginas cuyos contenidos estn relacionados.
Disponible en: http://purl.org/dc/terms/relation
<dc:coverage>
Definicin de la cobertura cronolgica y geogrfica.
Disponible en: http://purl.org/dc/terms/coverage
<dc:rights>
Derechos de propiedad intelectual, autora y explotacin.
Disponible en: http://purl.org/dc/terms/rights
Los metadatos fundamentales de Dublin Core permiten completar los formatos de sindicacin,
para describir de la mejor manera posible un documento atendiendo a sus aspectos
fundamentales, que por otra parte RSS1.0 no contempla en su configuracin bsica. El tipo de
recurso, autor, colaborador, editor, el formato, la fuente original de la informacin, contenidos
relacionados, declaracin de nmeros de identificacin universal ISBN, ISSN, derechos de
propiedad y explotacin as como la cobertura cronolgica y geogrfica, permiten una
identificacin ms completa de cualquier material bibliogrfico, digital, facilitando por otra parte su
tratamiento documental.
Si bien tales los elementos de Dublin Core se consideran esenciales, el empleo de su Namespace
habilita la utilizacin de otros que tambin pueden ser aprovechados para la descripcin
documental.
Mdulo Syndication
El mdulo Syndication (RDF Site Summary 1.0 Modules: Syndication, 2000), fue desarrollado por
el mismo equipo de trabajo autor del formato de sindicacin RSS1.0. Esto significa que su
integracin es muy frecuente, dado que permite definir la fecha de actualizacin, frecuencia y
periodo de actualizacin. Aunque se considera un mdulo con una cantidad de elementos
reducida, resulta importante para indicar a cualquier lector parser o agregador cuando debe
refrescar el contenido del canal de sindicacin. Aunque tal especificacin es solucionada por
muchos programas mediante la actualizacin sistemtica, predefinida por el usuario, an se
emplean las etiquetas de Syndication como resultado del proceso de generacin de un canal de
sindicacin a efectos indicativos del grado de actualizacin del mismo.
<sy:updateFrequency>
Se determina con un nmero entero positivo la frecuencia de actualizacin en funcin a un
periodo definido.
<sy:updatePeriod>
Define el periodo de actualizacin del canal de sindicacin a partir de valores predeterminados,
concretamente: hourly, daily, weekly, monthly, yearly
<sy:updateBase>
Fecha
de
actualizacin
del
canal
de
sindicacin
segn
formato
ISO8601
PGINA 40 DE 54
http://www.w3.org/TR/NOTE-datetime o RFC3339
Mdulo PRISM
Las siglas PRISM corresponden a Publishing Requirements for Industry Standard Metadata y son
un compendio de metadatos, desarrollados por el consorcio empresarial IDEAliance
(IDEALLIANCE, 2008) especializados en la descripcin y gestin de las publicaciones peridicas
y sus contenidos.
El mdulo PRISM (HAMMOND, T. et al., 2004) no forma parte de los mdulos plenamente
aceptados por las especificaciones de RSS1.0 RDF (BEGED DOV, G. et al., 2001), pero s
constituye un modulo propuesto que est siendo empleado sistemticamente debido a su
actualizacin ms continuada y en particular a las posibilidades de descripcin que proporciona
para los materiales seriados. Tal es as que probablemente sin PRISM no podran definirse
correctamente las numeraciones de los ejemplares de una revista digital que desarrollara su
propio canal de sindicacin, tampoco podran conocerse la extensin de los artculos, su
paginacin, su ISSN propiamente tipificado, as como las distintas fechas que acompaan a la
tramitacin y publicacin de un artculo cientfico como su fecha de recepcin, aceptacin y
publicacin. De esta forma, PRISM consta de ms de medio centenar de elementos para describir
estos conceptos.
Las entidades de PRISM se dividen en dos apartados; por un lado los elementos de la categora
A-PRISM, utilizados para la descripcin y control de publicaciones peridicas y por otro B-PRISM
compuesto por elementos especializados en la gestin de derechos, cuyo prefijo de namespace
vara levemente de prism a prismUsageRights (HAMMOND, T., 2008).
En este anlisis se abordan los elementos genuinos del mdulo A-PRISM, clasificados segn su
objeto de descripcin a saber: ttulo, mencin de responsabilidad, numeracin, paginacin,
fechas, edicin, clasificacin, categoras, indizacin, resumen, secciones y apartados de
publicacin, identificadores, relaciones entre recursos, derechos y portada.
<prism:publicationName>
Ttulo de la publicacin o revista, as como del recurso que ser publicado.
<prism:alternateTitle>
Variaciones del ttulo o ttulos alternativos al principal.
<prism:person>
Nombre completo a modo de autoridad personal relativa a un artculo o contenido.
<prism:corporateEntity>
Entidades corporativas editoriales de la publicacin peridica.
<prism:organization>
Autoridad corporativa relativa a un artculo o contenido.
<prism:distributor>
PGINA 41 DE 54
En cuanto a los inconvenientes de RSS1.0 cabra destacar que la configuracin bsica del
formato es la ms reducida de todos los formatos de sindicacin, dependiendo por completo de
los mdulos y la extensibilidad para mejorar su capacidad de descripcin. Esto supone un
inconveniente para los programas parser que deben adaptarse continuamente a los formatos de
sindicacin que cada productor de canales de sindicacin genera. Dicho de otra forma, la ilimitada
cantidad de posibilidades de combinacin de todos los elementos de los mdulos hace difcil y
lenta la adaptacin de los programas de lectura y anlisis. De hecho puede atribuirse a esta
causa la lentitud existente en el progreso de nuevos formatos de sindicacin y la aprobacin final
de muchos mdulos considerados actualmente como propuestas, tal y como ocurre con PRISM.
Otro inconveniente destacable es la concepcin de los mdulos y sus etiquetas para la
descripcin general de contenidos y tipos documentales que no slo se encuentran en un soporte
fsico sino eminentemente digital. Queda patente que la conjugacin de ambos conceptos de
descripcin no est del todo aclarada, dado que se echan en falta por ejemplo las fechas
extremas de las publicaciones peridicas, no determinadas en ninguna etiqueta PRISM, que por
otra parte se ocupa de las fechas que ataen fundamentalmente al artculo, contenido o recurso.
Finalmente es destacable una tendencia a no desarrollar schemas XSD que deberan estar
enlazados a modo de Namespace segn cada mdulo y formato. Aunque a efectos formales la
URI por s sola, resulta suficiente, los casos citados no validan sus propias estructuras como
queda demostrado con PRISM. De hecho la prctica comn en estos casos es referir desde una
pgina HTML al manual o gua de dicho Namespace o formato. Si bien esto resulta til, no es del
todo ortodoxo.
RSS 2.0
El formato RSS2.0 es un lenguaje de marcado basado en las especificaciones de XML1.0
(Extensible Markup Language (XML) 1.0 (Fifth Edition), 2008), cuyo principal elemento distintivo
de otros formatos de sindicacin es el empleo de la etiqueta inicial <rss version="2.0"></rss>.
Tambin es el resultado de la evolucin del primer formato de sindicacin empleado en un
navegador web, concretamente RSS0.90 (NETSCAPE, 2001) desarrollado por Dan Libby y
Ramanathan V. Guha. Comparte pues orgenes con el formato RSS1.0 RDF. El origen del
desarrollo de RSS2.0 radica justamente en la versin RSS 0.91 que consta de dos
interpretaciones distintas, por un lado el navegador Netscape (LIBBY, D.; NETSCAPE, 1999) con
una visin tendente al sistema modular de RSS1.0 y por otro lado la empresa UserLand fundada y
dirigida por Dave Winer, cuya perspectiva prevea un formato cuya estructura fuera ms sencilla
evitando la tendencia a implantar RDF (USERLAND, 2000), dado que dificultaba la composicin y
edicin del mismo, as como su mayor difusin para la finalidad principal de transmitir noticias o
contenidos web. Dicho de otra forma, Dave Winer opt por una interpretacin ms sencilla que
revesta menor complejidad tcnica, mayor facilidad de implantacin en sitios web, ms prctica a
la hora de ser analizada por los programas parser y agregadores. Por estos motivos en el formato
RSS0.91 se consolida una ruptura que desencadenar el actual formato de sindicacin RSS1.0
RDF en el ao 2000, originario de la corriente de desarrollo de Netscape. Ese mismo ao,
UserLand desarrolla el formato RSS0.92 en el que lleva a cabo leves modificaciones consistentes
en las etiquetas de fecha de actualizacin y periodo de actualizacin del formato, tal y como
indican sus especificaciones (USERLAND, 2000). Sucesivamente el formato evoluciona a las
versiones RSS0.93 (WINER, D., 2001) y RSS 0.94 (WINER, D., 2003), hasta completar su
transformacin con el formato RSS2.0 en el ao 2003. Se puede afirmar que las especificaciones
de la versin RSS2.0 estn plenamente vigentes (BERKMAN CENTER, 2003) aunque existe una
PGINA 43 DE 54
Elementos de channel
especificacin o gua del formato RSS que se est empleando. En este caso toma el valor
http://www.rssboard.org/rss-specification , siempre correspondiente a la ltima versin del
formato. Esto implica que el mtodo alternativo al Namespace es el uso de este elemento.
Nube de cambios <cloud domain="rpc.sys.com" port="80" path="/RPC2"
registerProcedure="pingMe" protocol="soap"/>. Determina un mtodo de actualizacin
mediante un protocolo. Normalmente mediante SOAP o en su defecto XML-RPC. Los
valores de los atributos estn predeterminados para la funcin de refresco mediante el
proceso pingMe por medio del puerto 80, en el programa alojado en el dominio
http://rpc.sys.com .
Tiempo de vida <ttl>. Contiene el periodo de tiempo en minutos, correspondiente al
ciclo de refresco y actualizacin del canal.
Imagen <image> <url></url> <link></link> <title></title> </image>. Contiene la
informacin de la imagen o logotipo del canal de sindicacin. Para ello incorpora tres
subelementos, a saber: la URL de la pgina enlazada con la imagen, la URI
correspondiente a la imagen propiamente dicha y su ttulo.
Valoracin <rating>. Contiene la URI correspondiente a la valoracin del canal.
Entrada de datos <textInput> <title></title> <description></description>
<name></name> <link></link> </textinput>. El elemento textInput corresponde forma
parte de la herencia del formato RSS0.91, que al igual que en RSS1.0 permite remitir a
una aplicacin XML externa, informacin, contenidos y textos transmitidos mediante caja
de texto presente en el canal de sindicacin. Algunas de las aplicaciones XML vinculadas
a este elemento son las derivadas de la recuperacin y filtrado de la informacin del propio
canal de sindicacin. Esto se consigue mediante el protocolo HTTP y su mtodo GET para
el envo de los datos de la consulta. Para que el conjunto funcione correctamente, se debe
definir una URI correspondiente al enlace de la aplicacin XML a travs del subelemento
link. Por otro lado es necesario consignar correctamente el subelemento name que
contiene el identificador de la caja de texto y por ende el valor de la consulta del usuario.
Finalmente, el subelemento title y description hacen referencia a la etiqueta del botn de
envo del formulario y a la explicacin del formulario y de los datos a rellenar en la caja de
texto.
Autor <author>. Contiene el nombre y filiacin del autor del artculo o contenido de la
entrada.
Identificador <guid>. Contiene un enlace URI del contenido que ser utilizado por los
agregadores para determinar la existencia del contenido en su repositorio.
Fuente <source>. Identifica la URL o URI del canal de sindicacin, considerado fuente
original del contenido descrito en el tem.
Mediante extensibilidad al igual que el resto de formatos, puede emplear cualquier mdulo o
grupo de metadatos que disponga de espacio de nombres, schema XSD o DTD.
implementacin en cualquier navegador, parser o agregador. Por otro lado tal simplicidad lo ha
convertido en uno de los formatos ms utilizados en los sistemas de publicacin web,
principalmente blogs, wikis y CMS, pese a que no dispone de un schema XSD, DTD o
Namespace. La reciente incorporacin de la propiedad de extensibilidad amplia las capacidades
de descripcin, lo que implica, que de ser utilizada RSS2.0 perdera una de sus principales
razones de ser, la simplicidad de sus elementos estructurales. Esto puede ser beneficioso si se
desea emplear RSS2.0 para describir documentos y ofrecer servicios para los que no fue
diseado, pero tambin puede ser perjudicial para la legibilidad del lenguaje en los sistemas
parser y agregadores. Esto se debe a que muchos de estos sistemas al estar adaptados a la
estructura bsica que en pocos casos se ha visto alterada con el paso de los aos, podran
encontrar problemas de lectura al encontrar elementos del espacio de nombres referido en
ubicaciones no definidas por la especificacin de RSS2.0. Dicho de otra forma, no existe una
modelo de aplicacin para los distintos mdulos y formatos que pueden ser aplicados, como
sucede con el formato RSS1.0 RDF. En este sentido RSS1.0 RDF es el formato mejor preparado
para la extensibilidad, dado que est caracterizado especficamente para ello y consta de tal
documentacin, as como del schema XSD de RDF que habilita el empleo de la extensibilidad de
una forma explcita.
MARC-XML
El formato MARC-XML (MARC-XML Schema, 2009) aparece publicado como schema XSD en el
ao 2001, como una solucin al cada vez ms inflexible formato MARC tradicional, difcil de
ampliar y adaptar a los diferentes centros de informacin y documentacin. Si bien no es
considerado un formato de sindicacin tradicional como Atom, RSS1.0 RDF y RSS2.0. Ello se
debe a que los formatos anteriormente mencionados fueron los primeros en ser incorporados en
los navegadores web, obteniendo de esta forma un soporte fundamental para su lectura y
actualizacin de contenidos. Tambin se presupone, segn la definicin de sindicacin de
contenidos, la existencia de un productor o creador de documentos bien sean primarios o
secundarios, que transmite mediante un canal de informacin basado en XML, a mltiples
suscriptores. En el caso de MARC-XML los productores de los contenidos del canal lo constituyen
las propias bibliotecas y centros de documentacin que catalogan los fondos bibliogrficos y
documentales. Dado que MARC- XML est basado en XML, consta de schema XSD validador del
formato y dispone de Namespace propio, puede considerarse al formato MARC-XML, habilitado
para las mismas funciones que cualquier otro formato de sindicacin. En relacin al aspecto de la
visualizacin, actualizacin y representacin de los contenidos codificados por MARC-XML, es
relevante sealar que la Library of Congress ha desarrollado diversas hojas de estilo y
transformaciones XSLT que permiten visualizar y representar correctamente la informacin del
formato MARC-XML en cualquier navegador web, como se explicar en esta parte del captulo.
Por otro lado hay que sealar la carencia de programas parser o agregadores especializados en
MARC-XML que en principio podra echar por tierra la consideracin de MARC-XML como un
posible formato de sindicacin utilizndolo como medio de difusin del catlogo bibliogrfico. Este
aspecto que en principio podra ser problemtico es enfrentado y resuelto en esta investigacin,
mediante el desarrollo de diversos parsers y generadores especializados en el formato MARCXML como podra haber en los distintos navegadores web si desearan emular con MARC al resto
de formatos, por lo que el precedente de su modo de empleo se marca en el presente trabajo.
Argumentada la posibilidad de utilizar MARC-XML como formato de sindicacin, se debe sealar
su naturaleza plenamente documental que encaja con la disciplina de la catalogacin. De hecho,
MARC-XML se basa en las normas del formato MARC21 (MARC Standards, 2009) de la Library
of Congress, profusamente divulgadas y adaptadas en la prctica totalidad de las bibliotecas del
mundo. El desarrollo del formato MARC-XML es compatible con el estndar ISO2709 permitiendo
la interoperabilidad con cualquier adaptacin MARC. El formato MARC-XML ha sido diseado de
PGINA 47 DE 54
forma tal que mantiene las mismas etiquetas, indicadores y cdigos que el estndar MARC21.
Para lograrlo ha sido concebido un schema XSD que acta como validador estructural del formato
que determina una estructura anidada basada en la coleccin, el registro bibliogrfico, el campo o
etiqueta bibliogrfica y su sub- campo que por regla general es el contenedor de informacin o
datos descriptivos del documento.
OPML
El formato OPML fue creado por Dave Winer en el ao 2000, y se considera uno de los
PGINA 48 DE 54
Elementos de head
El apartado de cabecera <head></head> permite describir el canal de sindicacin OPML de forma
bsica a partir de las siguientes elementos.
Fecha de publicacin <dateCreated>. Fecha de creacin del canal, segn formato ISO8601
http://www.w3.org/TR/NOTE-datetime o RFC3339
Administrador <ownerName>. Cadena de texto que contiene el nombre del propietario del
canal.
Correo del administrador <ownerEmail>. Correo electrnico del propietario del canal.
PGINA 49 DE 54
Especificaciones <docs>. Etiqueta similar a la empleada por RSS2.0 que sirve para
identificar mediante URI las especificaciones utilizadas para confeccionar el canal de sindicacin
OPML.
Scroll vertical <vertScrollState>. Contiene un nmero entero positivo que indica el nmero
de entradas que sern visualizadas, de forma que pueda calcularse la expansin del scroll vertical de
la ventana.
Recurso
<outline
type=""
text=""
xmlUrl=""
description=""
htmlUrl=""
language="" title="" version=""/ >. El elemento outline est compuesto por diversos
atributos que permiten la descripcin somera de cualquier recurso o canal de sindicacin.
El atributo type hace referencia al formato del canal de sindicacin, por ejemplo rss,rdf,
atom, etc. El atributo xmlUrl resulta esencial para definir la URL o URI del canal de
sindicacin que identifique a su archivo XML. El atributo text se emplea para determinar
una categora o seccin a la que pertenece el recurso descrito en el outline. El atributo
description permite elaborar un breve resumen o descripcin del canal de sindicacin. El
atributo htmlUrl define el sitio web del que depende el canal de sindicacin. El atributo
PGINA 50 DE 54
language define el idioma del recurso segn cdigos de idioma ISO639 (dos caracteres
indicativos de la lengua) e ISO3166 (tre caracteres indicativos del pas). El atributo title
Extensibilidad de OPML
Las especificaciones de OPML tambin hacen referencia a la posibilidad de aplicar la
extensibilidad. Como en los formatos anteriores, es necesario precisar el espacio de nombres en
la etiqueta de apertura de la siguiente forma:
<?xmlversion="1.0"encoding="ISO88591"?><opmlxmlns:dc="
xmlns:sy=xmlns:content="xmlns:prism="
<head>...</head><body>...<outlinetext=""xmlUrl=""/>...</body></opml>
""
""
version="2.0">
http://purl.org/dc/elements/1.1/
"http://purl.org/rss/1.0/modules/syndication/
http://purl.org/rss/1.0/modules/content/
http://prismstandard.org/namespaces/1.2/basic/
Ventajas e inconvenientes del formato OPML
El formato OPML tiene la ventaja esencial de ser el nico formato de sindicacin diseado
expresamente para la agrupacin de recursos, especialmente terceros canales de sindicacin. La
sencillez de su estructura lo convierte en un formato de rpida configuracin y edicin, lo que
facilita su implementacin en aplicaciones web. Finalmente la capacidad para categorizar
empleando los mismos elementos con una configuracin bsica mediante el atributo text, resulta
til, para organizar gran cantidad de recursos con la mayor economa del lenguaje. En
206
cuanto a sus inconvenientes destacar la carencia de Namespace, schema XSD o DTD que
permita validar las estructuras de un archivo OPML.
PGINA 51 DE 54
GLOSARIO
Consorcio W3C: Consorcio del World Wide Web. Es el organismo internacional encargado de
desarrollar tecnologas inter-operativas (especificaciones, lneas maestras, software y
herramientas) para guiar la red a su potencialidad mxima a modo de foro de informacin,
comercio, comunicacin y conocimiento colectivo. Vase http://www.w3.org/
MIT: Massachusetts Institute of Technology o Instituto tecnolgico de Massachusetts, constituye
uno de los centros de investigacin y desarrollo ms importantes del mundo. Una de sus
especializaciones ms reseables es la investigacin de sistemas de informacin, computacin
del web y recursos para la investigacin, entre otros.
Documentos XML bien formados: Denominados Well Formed XML cumplen las caractersticas
de construccin principales. Es decir, apertura y cierre de etiquetas correcto, empleo de
caracteres aceptados, correcto anidamiento o raz, correcta citacin de los atributos de las
etiquetas utilizadas, son establecidas en W3C como las principales.
Documentos XML validados: Denominados Valid XML son aquellos que siendo bien formados,
estn construidos no slo conforme a una sintaxis correcta sino a unas normas de de
estructuracin y definicin de los contenidos de sus etiquetas. Por regla general esto se lleva a
cabo mediante archivos DTD y Schema XSD. Agentes: Se entiende por agentes aquellos
usuarios, sistemas, programas o aplicaciones que, aprovechando las fuentes de datos XML,
realizan interacciones directas como su transformacin, edicin, visualizacin o representacin.
Fuentes de Datos: Una de las caractersticas principales de XML, es su empleo como fuente de
datos. Esto difiere en poco a la terminologa acuada en sindicacin para delimitar los canales y
medios de difusin, Feeds entendido como alimentacin, o fuente de la que se alimentan los
usuarios que recopilan su referencia. As pues, se observa que los formatos de sindicacin son la
evolucin directa y dirigida de XML para servir como canales de transmisin y difusin de datos e
informacin, considerndose, ciertamente, una especializacin del mismo.
CSS (Cascading Style Sheets): Hojas de estilo en cascada, son empleadas de forma extensiva
tanto en documentos XML, como en pginas web desarrolladas en HTML, PHP e incluso ASP. No
estn sujetas en su aplicacin a un lenguaje de marcado o programacin concreto, siendo de esta
manera polivalentes, a diferencia de XSL. Su funcionamiento se basa en clases, grupos y capas
de estilo que se aplican directamente en el documento previa referencia del elemento designado
para su transformacin. (No estn basadas en XML)
XSL (Extensible Stylesheet Language): Lenguaje extensible de hojas de estilo, empleado de
forma especfica en el formateado, representacin y visualizacin de documentos XML en los
principales navegadores web. A partir del documento XML, se aplica estilo para su transformacin
en forma, estilo y datos, representado en un documento HTML de salida.
Islas de datos: Originalmente denominadas Data Island describen correctamente la finalidad de
implantar informacin estructurada de un documento XML, precisamente tambin por ello pueden
ser denominados injertos de informacin, no en vano supone la modificacin del cdigo fuente
PGINA 52 DE 54
CONCLUSIONES
REFERENCIAS
[1] Ellen Flikenstein. Business Syndicating websites with RSS feeds for dummies. USA: Editorial
Willey, 2004.
[2] Carlos H. Gonzlez Campo. "Herramientas Web 2.0 y accesibilidad a sitios Web para la
apropiacin social de conocimiento en una ciudad educadora". Universidad Eafit, Vol. 45, Nm.
153, enero-marzo, 2009, pp. 26-37. Universidad EAFIT. Colombia, 2009.
[3] Pablo Csar Muoz Carril. "Implementacin del formato RSS en procesos de gestin y
comunicacin electrnica en instituciones educativas, pblicas y empresariales". Pixel-Bit. Revista
de Medios y Educacin, enero nmero 031, Universidad de Sevilla, Sevilla Espaa, pp. 5-18,
2008
[4] Educause learning initiative. Things you should know about RSS. Sitio Educause Learning
PGINA 53 DE 54
[8] Hugo, Pardo, Hugo. Una visin crtica de la Web 2.0 desde la educacin. En Web 2.0:
Nuevas formas de Aprender y Participar. Coords. Mariona Grane y Cilia Willem. Espaa:
Laertes, 2009.
Referencias y fuentes
[1] La Web 2.0 no existira sin RSS, Anbal de la Torre, 2006. RSS navegar por ti. Gacetilla
bitacorera, n 1.
[2] La web 2.0 y sus aplicaciones didcticas. Pere Marqus Graells, 2007. Departamento de
Pedagoga Aplicada, Facultad de Educacin, UAB.
[3] Necesidad de buenas prcticas en la redifusin del contenido digital, Jorge Franganillo,
Facultat de Biblioteconomia i Documentaci, Universitat de Barcelona, Anuario ThinkEPI.
Barcelona: ThinkEPI, 2008, p. 17-19.
* RSS, nuevo servicio de Eduteka, Eduteka
* Wikipedia, la enciclopedia libre
* Entienda la Web 2.0 y sus principales servicios, Eduteka
* Web 2.0, Antoni Fumero y Gens Roca, Fundacin Orange
PGINA 54 DE 54