SlideShare ist ein Scribd-Unternehmen logo
1 von 26
EXPLOTACIÓN DE ANOTACIONES SEMÁNTICAS PARA PÁGINAS WEB, USANDO LAS ESTRATEGIAS PROPUESTAS POR GOOGLE<br />Jorge A. Lopez, Nelson O. Piedra, Freddy M. Coronel<br />25 de Enero 2010<br />Abstract<br />Las anotaciones semánticas suponen un aditamento a los documentos (X)HTML, para permitir que sean datos legibles por máquinas, con el fin de aumentar la fortaleza semántica de los textos de la Web. De entre estas anotaciones semánticas contamos a los Microformatos, que especifican información estructurada sobre un vocabulario definido; eRDF y RDFa los cuales toman como base a RDF para añadir significado a los documentos, el primero infiltrando los datos semánticos en una forma parcialmente parecida a los Microformatos, y el segundo (RDFa) mediante el uso de atributos para agregar los metadatos enriquecidos a los textos. Con el desarrollo de la nueva versión de HTML, sus desarrolladores han propuesto un nuevo enfoque: el de los Microdatos -Microdata-, el cual busca aprovechar las fortalezas del marcado semántico anteriormente citados junto con las nuevas características de HTML5. Actualmente Google y Yahoo!, líderes en las búsquedas web aprovechan estas anotaciones para mostrar resultados más atractivos y potencialmente más útiles al usuario. Yahoo! va incluso más allá al ofrecer su framework para que los desarrolladores personalicen como serán visualizadas sus páginas en dicho buscador. <br />Index Terms. Microformatos, Resource Description Framework (RDF), RDF –in– attributes (RDFa), Embedded RDF (eRDF), Rich Snippets, Google, Yahoo! SearchMonkey SM, XHTML, HTML5, Microdata.<br />INTRODUCCIÓN<br />Al realizar una búsqueda en la Web, a menudo encontramos resultados que distan mucho de lo que nosotros requerimos, esto debido a que los motores de búsqueda actuales se centran en contenidos, es decir no “contemplan” el significado de lo que sus Crawlers han indexado. <br />Las anotaciones semánticas son la forma en que se busca proveer “significado” a los contenidos de las páginas web para que pueda ser explotado por entidades software. Yahoo! y Google desde hace un año aproximadamente han gradualmente incorporado el soporte a estas anotaciones como un avance para otorgar resultados estructurados. <br />Conocido esto, el siguiente trabajo se halla estructurado en primer lugar con el estudio de las anotaciones mencionadas: Microformatos, eRDF, RDFa y las posibilidades que representa la introducción de Microdata en el draft de HTML5. A continuación se mostrará las iniciativas para el aprovechamiento de las anotaciones que ha efectuado Yahoo! y una vista previa de su framework, para después centrarnos en Google y toda la actividad que se está desarrollando, el estado actual de su trabajo y el soporte que ofrece a los publicadores de contenidos web. Finalmente se hace la propuesta para el trabajo conjunto entre el enfoque Google y las características de HTML5.<br />MICROFORMATOS<br />Los microformatos son un método de marcado semántico que permite implementar metadatos para que esa información pueda ser aprovechada por entes software, ya que el enfoque tradicional de marcado de hipertexto sólo indicaba la forma en la que la información será presentada, mas no su significado. <br />Dada la posibilidad que ofrecen HTML y XHTML de admitir la inclusión y codificación de la semántica dentro de los atributos de las etiquetas de  marcado, Los microformatos constituyen un intento para incrementar el poder expresivo de HTML por medio de nuevos formatos de datos que yacen sobre elementos y atributos de HTML estándar que definen combinaciones de   <abbr>, class, rel, y otros elementos para especificar información estructurada sobre personas, eventos y otros elementos de interés. <br />Al momento de realizar este trabajo aunque existen muchos en desarrollo, sólo algunos son considerados como estables por la comunidad que lidera esta iniciativa y por tanto su uso ya se halla extendido. Estos microformatos estables son mostrados en la tabla 1.<br />Tabla 1. Microformatos estables a la fecha y su utilidad. [1]<br />NombreUtilidadhCalendarPara marcar Eventos.hCardRepresentar personas, compañías, organizaciones y lugares.rel-licenseEspecificación de Copyrightrel-nofollowPara desalentar contenido spam de terceros.rel-tagIndica etiquetado descentralizado. (Folksonomía).VoteLinksPara expresar opinión mediante votos. XFNPara representar relaciones sociales.XOXOPara listas y outlines a ser procesadas por engines XML.<br />Los Microformatos han sido aceptados e implementados desde muchos sectores principalmente por la facilidad de uso y amplio detalle, la comunidad muestra ejemplos –examples in the wild– e implementaciones, pero a su vez se han oído voces criticas hacia ciertos aspectos en especial relacionados con el alcance y desarrollo centralizado que la comunidad responsable maneja; esto y otros elementos positivos y negativos son detallados en la tabla 2.<br />Tabla 2. Microformatos: Ventajas y Desventajas.<br />VentajasDesventajasFacilidad de uso.Es una iniciativa “independiente”, no forma parte de la propuesta W3C para Web Semántica.Amplia implementación.Vocabulario reducido.Proceso de desarrollo y patrones de diseño definidos y maduros.Desarrollo centralizado por medio de la comunidad.Existencia de plugins para exploradores en uso.No usa namespaces.Herramientas para crear hCards y hCalendars.Verbosidad. Al ser implementados con XHTML, heredan esta característica de los lenguajes basados en XML.  Al usar el mismo formato para consumo humano y máquina, se aumenta el uso del ancho de banda en servicios como la sindicación o RSS Feeds.Modularidad y capacidad de mezcla. Se puede componer microformatos usando otros.Se aumenta la posibilidad spam usando la información provista por hCardsPueden ser identificados y manipulados usando JavaScript y el DOM (Document Object Model)Existen muchos Microformatos “moribundos”.Inconvenientes AT. JAWS<br />El último punto de las desventajas debe ser clarificado mayormente. Desde hace algún tiempo se ha presentado un inconveniente en relación con las tecnologías asistivas (AT) -tecnologías para compensar a personas con diversas incapacidades-, particularmente el problema es con el software JAWS que lee el contenido a los usuarios no videntes; el cual interpreta el marcado con abbr en fechas y ubicaciones como la abreviatura de los metadatos, con la consecuente lectura de los valores semánticos. La segunda dificultad se presenta con el patrón include  que usa un href vacío, con lo que el software presenta contenido misterioso a sus usuarios. [5]<br />Para ejemplo de marcado semántico de información de contacto mediante el uso de hCard, véase la Figura 1, en donde se muestra el uso de las propiedades para representar nombre, dirección, ciudad, país y mail de una persona, siendo sólo algunas de las definidas por el RFC 2426 para la especificación de vCards. <br />Figura 1. Información de Contacto hCard<br />  <div class=quot;
vcardquot;
>      <img src=quot;
http://mipagina.com/images/fmc.jpgquot;
 alt=quot;
Yoquot;
 class=quot;
photoquot;
/>      <a class=quot;
url fnquot;
 href=quot;
http://mipagina.com/martin/quot;
>Martin Coronel</a>      <div class=quot;
adrquot;
>        <div class=quot;
street-addressquot;
>San Cayetano</div>        <span class=quot;
localityquot;
>Loja</span>,        <div class=quot;
country-namequot;
>Ecuador</div>      </div>      <a class=quot;
emailquot;
 href=quot;
mailto:martinc@mipagina.comquot;
> martinc@mipagina.com </a>    </div><br />MICROFORMATOS: El Proceso.<br />Microformats.org provee lineamientos para el desarrollo de nuevos microformatos, pero en su wiki se hace énfasis en ciertos pasos –o recomendaciones– antes de aventurarse a proponer un nuevo microformato. <br />La comunidad detrás de Microformats plantea que promueva su uso para lo cual es necesario pasar a su site a Plain Old Semantic HTML (POSH), y marcarlo con los microformatos existentes, para que luego evalúe la necesidad de uno nuevo, pues pueden ya existir iniciativas en diferentes etapas de desarrollo para aquello que precipitadamente  desea proponer. Si no se da tal caso será necesario revisar los principios de diseño [4] Reduzca-Reuse-Recicle que pueden ser resumidos como:<br />Reduzca: favorecer las soluciones más simples y poner atención a problemas específicos.<br />Reuse: trabaje con base en experiencias y auspiciar la práctica actual.<br />Reciclar: promover la modularidad y la habilidad para embeber, el XHTML valido puede ser reusado en entradas de blogs, RSS feeds y otros elementos.<br />Con todo esto en mente, el proceso para el desarrollo de un nuevo microformato, se reduce a la secuencia de pasos iterativos mostrados en la figura 2.<br />Figura 2. Proceso para desarrollar un nuevo microformato.<br />LOS EXPLORADORES Y LOS MICROFORMATOS.<br />Debido al aumento en la presencia de microformatos en la Web, las últimas versiones de algunos navegadores ya poseen extensiones para el descubrimiento de microformatos en la páginas, en el caso de Mozilla Firefox tenemos Operator, Tails, Giftag y BlueOrganizer como los más significativos. De estos Operator es el más popular entre los usuarios, desarrolladores y publicadores de contenidos con microformatos; incluso Operator provee una arquitectura para el análisis de Microformatos (microformat parsing), el cual probablemente será integrado en futuras versiones del navegador. [3]<br />Como alternativa para Microsoft® Internet  Explorer se presenta Oomph, cuyas principales características son: encontrar – consumir, crear, y dar estilo a Microformatos, para lo cual cuenta con un set de estilos CSS y un plug-in para Windows Live Writer para insertar hCards.<br />SafariMicroformats detecta Microformatos indicando su presencia mediante un ícono en la barra de direcciones, soporta hCard y hCalendar y facilitando su extracción o exportarlos a su agenda o Calendario. <br />RESOURCE DESCRIPTION FRAMEWORK RDF<br />RDF o Marco de Descripción de Recursos es un framework para metadatos en la World Wide Web (WWW). RDF es el estándar de la W3C para los datos interoperables legibles por máquinas (interoperable machine-readable data) y su combinación con otras herramientas como RDF Schema y OWL le otorgan significado a las páginas, y es una de las tecnologías esenciales de la Web semántica. <br />Este modelo (ver figura 3) se basa en la idea de convertir las declaraciones de los recursos en expresiones con la forma sujeto-predicado-objeto (tripletas). El sujeto es el recurso, es decir aquello que se está describiendo. El predicado es la propiedad o relación que se desea establecer acerca del recurso. Por último, el objeto es el valor de la propiedad o el otro recurso con el que se establece la relación.<br />Figura 3. Modelo de datos RDF<br />RecursoVALORTIPO DEPROPIEDADPropiedad / descripción<br />El propósito de RDF es proveer un mecanismo de codificación e interpretación para que los recursos puedan ser descritos en una forma que el software pueda entenderlo. La terminología proviene de la lógica y de la lingüística en las que las estructuras predicativas se utilizan también para dar significado a las representaciones sintácticas. En la figura 4, se muestra un ejemplo de RDF para representar las relaciones –publicador- y -titulo- de un artículo de Wikipedia -sujeto-, del cual posteriormente se obtienen las tripletas que representan las relaciones que describen al artículo.<br />Figura 4. Ejemplo de RDF sobre un artículo de la Wikipedia y tripletas obtenidas.<br /><rdf:RDF xmlns:rdf=quot;
http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
 xmlns:dc=quot;
http://purl.org/dc/elements/1.1/quot;
><rdf:Description rdf:about=quot;
http://en.wikipedia.org/RDFquot;
>  <dc:title> Resource Description Framework </dc:title>  <dc:publisher>Wikipedia</dc:publisher></rdf:Description></rdf:RDF>Tripletas obtenidasSujetoPredicadoObjeto<http://en.wikipedia.org/><http://purl.org/dc/elements/1.1/title>quot;
Resource Description Frameworkquot;
<http://en.wikipedia.org/RDF<http://purl.org/dc/elements/1.1/publisher>quot;
Wikipedia”<br />eRDF<br />Embedded RDF o eRDF es una sintaxis para escribir HTML, de tal forma que la información del documento pueda ser extraída en RDF, ya sea por medio de un Parser o una Hoja de estilos XSLT (XSL -Extensible Stylesheet Language- Transformations). <br />Para que un documento HTML le sea reconocido la existencia de eRDF se debe declarar la adhesión a un perfil especial. Este perfil declara que el documento se adapta a las convenciones para embeber-incrustar- RDF. Esto se logra sumando el atributo profile=quot;
http://purl.org/NET/erdf/profilequot;
 al head del documento. Lo siguiente que se debe hacer es indicar los esquemas a ser usados para añadir las tripletas. Cada esquema representa una colección de nombres de propiedades, esto es análogo a los namespaces usados en los documentos XML. <br />eRDF permite que muchas partes importantes del modelo RDF sean incluidas, pero no es un intento para extenderlo a todo el modelo eRDF, esto puede ser resumido en que: Todo RDF embebible en HTML es RDF válido, pero no todo RDF puede ser RDF embebible. [9]<br />Figura 5. Uso de eRDF para mostrar una página About, usando FOAF.<br /><html>  <head profile=quot;
http://purl.org/NET/erdf/profilequot;
>    <title>Hola mundo</title>    <base href=quot;
http://mipagina.com/aboutquot;
 />    <meta name=quot;
dc.creatorquot;
 content=quot;
Martin Coronelquot;
 />    <meta name=quot;
dc.titlequot;
 content=quot;
Hola mundoquot;
 />    <link rel=quot;
schema.dcquot;
 href=quot;
http://purl.org/dc/elements/1.1/quot;
 />    <link rel=quot;
schema.foafquot;
 href=quot;
http://xmlns.com/foaf/0.1/quot;
 />    <link href=quot;
#annaquot;
 rev=quot;
foaf-homepage foaf-madequot;
 rel=quot;
foaf-makerquot;
 />  </head>  <body>    <h2>About me...</h2>    <p id=quot;
martinquot;
>      Hola, Soy <span class=quot;
foaf-namequot;
><span class=quot;
foaf-firstNamequot;
>Martin</span> <span class=quot;
foaf-surnamequot;
>Coronel</span></span>.       <img style=quot;
float: rightquot;
 src=quot;
pic.jpgquot;
 class=quot;
foaf-depictionquot;
 alt=quot;
Yoquot;
/>         Mi nick de Messenger es <span class=quot;
foaf-nickquot;
>martinc</span>.    </p>  </body></html> <br />RDFa<br />Resource Description Framework-in-attributes es la recomendación de la W3C para añadir metadatos enriquecidos a nivel de atributos en páginas Web. RDFa se diferencia de eRDF en que utiliza atributos para incluir los metadatos semánticos, mientras que eRDF “incrusta”  la información de las tripletas utilizadas, requiriendo la descripción de perfiles y esquemas a ser utilizados por el documento.<br />RDFa permite que, usando algunos simples atributos los autores de XHTML, puedan marcar datos legibles por humanos con indicadores permitiendo que los navegadores y/u otros programas los entiendan. Una página Web puede contener metadatos que expresen desde el título de un artículo, hasta algo complejo como la red social completa del autor del mismo. Para el uso de RDFa se deben de usar los atributos detallados en la tabla 3.<br />Con RDFa las reglas para interpretar los datos son genéricas, por lo tanto no hay necesidad de diferentes reglas para diferentes formatos; facilitando a los autores y publicadores de datos definir sus propios formatos sin tener que actualizar software, o registrarlos ante una autoridad central o preocuparse que dos formatos interfieran entre sí.<br />Tabla 3. Lista de atributos de RDFa<br />AtributoEspecificaaboutLa URI (Uniform Resource Identifier) o CURIE (Compact URI) del recurso del que son los metadatos. Por defecto el documento actual.rel, revRelación o relación inversa con otro recurso.href, src, resourceEl recurso asociado a este.propertyLa propiedad del contenido de un elemento.contentSobrecarga el contenido del elemento cuando se usa el atributo anterior. Opcional.datatypeTipo de datos del texto especificado con el atributo propiedad. Opcional.typeofTipo de RDF del sujeto. Opcional. <br />Según el RDFa Primer, a la fecha dada la extensibilidad de XHTML contrario a HTML, RDFa ha sido sólo especificado para XHTML 1.1. Sin embargo, se puede usar RDFa en HTML4, ya que no se han reportado problemas con los Web Browsers al presentar documentos que contienen dichas anotaciones. Al momento, RDFa no se validará en HTML4. Los atributos RDFa se validan en XHTML, usando la DTD –Document Type Definition-  XHTML1.1+RDFa. [10]<br />Al marcar los documentos con RDFa se usan anotaciones de  Dublin Core (DC) para describir documentos o Friend of a Friend (FOAF) para la información de contactos, entre otros; la representación abstracta subyacente a RDFa es RDF, lo cual le faculta construir su propio vocabulario o extender otros.  En la figura 6 se hace uso de DC para anotar semánticamente una página que detalla la revisión de un libro, nótese el uso de las CURIES para facilitar la mención a los metadatos.<br />Figura 6. Uso de RDFa en HTML.<br /><html  xmlns=quot;
http://www.w3.org/1999/xhtmlquot;
  xmlns:biblio=quot;
http://example.org/quot;
  xmlns:dc=quot;
http://purl.org/dc/elements/1.1/quot;
  >  <head>    <title>Edgar Allan Poe, Maestro del Terror</title>  </head>  <body>    El relato de Poe     <span about=quot;
urn:ISBN:0091808189quot;
 typeof=quot;
biblio:bookquot;
           property=quot;
dc:titlequot;
> El escarabajo de Oro     </span>     nos lleva a la búsqueda de una reliquia misteriosa, entre un ambiente que nos transporta al tiempo en que fue escrito. Si lo disfrutaste, te recomiendo    <span about=quot;
urn:ISBN:1596913614quot;
 typeof=quot;
biblio:bookquot;
          property=quot;
dc:titlequot;
> La mascara de la Muerte Roja    </span>.  </body></html><br />Una barrera para la rápida introducción de RDFa, es el uso de una nueva sintaxis para el URI Uniform Resource Identifier, pues la tradicional, es reemplazada en RDFa con la sintaxis CURIE, la cual simplifica el trabajo con los enlaces en la URI y acorta la codificación. CURIE es una Recomendación Candidata de la W3C; se pretende su uso en SPARQL, RDFa y XHTML 2. Sin embargo, esta tecnología todavía está en una fase temprana de desarrollo. [31]<br />DIFERENCIAS ENTRE eRDF y RDFa<br />Siendo eRDF y RDFa propuestas alternativas basadas RDF para marcado semántico presentan algunas características comunes, pero es necesario centrarnos en las diferencias entre las dos alternativas, que según diversos criterios se presentará como ventajas/desventajas:<br />eRDF se valida en HTML4 / XHTML 1.0 y RDFa sólo en XHTML 1.1, a la espera de la implementación de HTML5.<br />eRDF sólo es parcialmente apoyando por la W3C, a diferencia de RDFa que la recomendación del consorcio.<br />RDFa provee soporte explícito el uso de nodos vacíos –blank nodes–, mientras que eRDF requiere que cada nodo deba de especificar un URI válido o una cadena de de texto.<br />RDFa  podría ser integrando en lenguajes (no-HTML) con namespaces XML.<br />RDFa y los Microformatos a nivel semántico.<br />Desde el punto de vista de descripción de los datos la principal diferencia es que microformatos puede usar sólo un vocabulario, el cual es aprobado por la comunidad y no puede ser modificado de forma independiente por desarrolladores. RDFa es el caso contrario, pues sus vocabularios no están limitados por un set de datos específico.<br />La simplicidad y unicidad del vocabulario de los Microformatos aumenta la facilidad y probabilidad que el software aproveche la presencia de los mismos en páginas Web. Con RDFa la situación cambia radicalmente. Algunos pluggins para Firefox proclaman la habilidad de trabajar con RDFa, pero al momento sólo son capaces de encontrar código RDFa presente en la página. Lo cual se presenta obviamente como una ventaja para los desarrolladores, no tanto para los usuarios finales de la página. <br />Estas observaciones junto a las capacidades tecnológicas se resumen en la tabla 4, realizada con base en el Trabajo de Tomberg y Lampere[31], aunque con la adición del soporte que posteriormente a la publicación de su trabajo, Yahoo! ha incorporado.<br />Tabla 4. Comparación entre Microformatos y RDFa.<br />MicroformatosRDFaPropiedades Tecnológicas Puede ser aplicado aHTML, XHTMLXHTML 2 y en forma limitada para XHTML 1.1Implementaciones útiles para el usuario finalSí, existen plugins para diferentes navegadoresNo son útiles para el usuario final.Puede ser usado en mash-upsSíSíUso en la práctica de ejemplos indexado semánticoGoogle y Yahoo indexan microformatosYahoo! sí, Google ha comenzado a usarlo.EstandarizadoNoSíInconvenientesMuy difícil de usar un solo vocabulario para todos los propósitos.XHTML 2 todavía está en desarrollo.Propiedades Semánticas VocabularioUnoMuchosVocabulario puede ser extendidoSí, por medio de la comunidadSí, librementeNivel de InteroperabilidadAltoPosible solo si se aplican vocabularios comunes son usadosPosibilidad de añadir valores semánticos a los datosPromedioAlto<br />RDFa, SPARKS O3 BROWSER.<br />Sparks es un framework JavaScript diseñado para el manejo de capas y datos semánticos. Entre sus funcionalidades tenemos [36]:<br />Sincronización y manipulación de Tripletas Cliente/Servidor.<br />Analizador RDFa/ Procesador SPARQL y Almacen de tripletas “Client-Side”<br />Soporte para JSON/JSONP SPARQL.<br />O3 (Ozone Browser) es una herramienta JavaScript que usa la semántica embebida en documentos Web para mejorar el entendimiento de un documento por parte del usuario.<br />Características:<br />Bookmarklet +Semantic Overlay.<br />Plugins de Visualización dinámica (Twitter, GeoEvents, etc.)<br />Visualización de conceptos relacionados.<br />Vista Desarrollador –Developer view- que muestra las tripletas y las consultas SPARQL. Ver figura 7.<br />Figura 7. Ozone Browser en acción: Parte izquierda resumen de un evento contenido en una página Web y derecha la vista Desarrollador respectiva. [36]<br />Alternativas para Publicar Información Estructurada.<br />Structured Blogging.<br />Structured Blogging es una forma de agregar metadatos semánticos a las entradas en los blogs, particularmente a eventos, revisiones y avisos clasificados (Ver figura 8). Soporta microformatos basados en XML o xHTML y que puedan ser convertidas entre los dos tipos. Los Plugins que ofrece Structured Blogging disponibles para Wordpress y MovableType permiten la publicación de contenido xHTML estructurado, con marcado de página compatible con microformatos y con bloques de XML fácilmente analizables. También están diseñados para transportar microcontenidos en todos los tipos de feeds XML, como RSS 2.0, Atom y RSS 1.0.<br />Otra característica bastante importante es la capacidad de conversión automática en RDF. <br />Figura 8. Microcontenidos soportados en Structured Blogging.<br />Blog EntryReviewsEventsPeople<br />En su versión 1.0pre18 soporta los siguientes microformatos:<br />hCard<br />hCalendar<br />hReview<br />relLicense<br />relTag<br />XFN<br />XOXO<br />RDF<br />FOAF<br />vCard-in-RDF<br />iCal <br />Vocabulario CaptSolo para Currículos.<br />RDF reviews de Danny Ayers<br />Drupal.<br />Drupal es un CMS open source bastante popular. Drupal facilita la creación de sitios web simplificando y manejando el flujo de datos, control de acceso, cuentas de usuarios y la codificación y almacenamiento de datos en la base de datos.<br />Dada la importancia y el sector del mercado que drupal acoge, se han desarrollado algunos módulos con el fin de integrar los contenidos de drupal a la Web Semántica, en la tabla 5 se describe los más significativos.<br />Tabla 5. Módulos Drupal con soporte RDF [34]<br />MóduloDescripciónRDFProvee funcionalidad RDF para la plataforma 6.x de DrupalSemantic Markup Editor Editor de marcado para adición de RDFa. Aún en desarrollo.SPARQLHabilita el uso de consultas SPARQL con la API RDF para Drupal 6.x.Rdf External Vocabulary ImporterEVOC. Módulo que permite el uso de cualquier vocabulario RDF y expone sus clases y propiedades a otros módulos. Requiere de los módulos RDF  y SPARQL.NeologismEditor de vocabularios y herramienta de publicación para Drupal. Puede crear un vocabulario, añadir las clases y sus propiedades para instantáneamente publicarlo y hacerlo disponible a otros vía online. Soporta los formatos: HTML, RDF/XML y N3.CalaisEs la integración del Web Service Calais que automáticamente crea metadatos semánticos enriquecidos para sus contenidos. Usa procesado de lenguaje natural, aprendizaje automatizado y otros métodos. Para su uso se requiere obtener una clave API de manera libre en su sitio web.<br />Proyectos de Tagging Semántico<br />Diferentes servicios de marcado social ahora usan etiquetas semánticas, cada una de las cuales con un modelo diferente para la relación y con su criterio que los hace “semánticos”.<br />ZigTag. Servicio que provee etiquetas –tags- semánticas obtenidas de su propia base de datos, recolectada automáticamente desde fuentes públicas. Provee una extensión para el navegador FireFox para facilitar su uso.<br />Fuzzy. Es un proyecto que permite la representación de la semántica de las relaciones entre etiquetas con el uso de Mapas de temas –Topic Maps-. Aspecto interesante de este proyecto es que además de los aspectos característicos de los servicios de tagging tradicionales añade información más específica, tal como el tipo de recurso (video, página web, herramienta, etc.) el contexto geográfico, el tipo de conocimiento<br />GOOGLE y el Marcado Semántico<br />Con el fin de mejorar la experiencia de búsqueda Google a partir de mayo del presente año implementó los Snippets enriquecidos (Rich Snippets). El Snippet como tal es un pequeño ejemplo del contenido de la página asociada a los términos de la búsqueda. Para poder desplegar un Rich Snippet, Google busca la presencia de formatos de marcado, en principio algunos microformatos y RDFa para mostrar información referente a Revisiones, personas, Negocios, Organizaciones, productos y Ratings.<br />Conjuntamente con la extensa documentación sobre los Rich Snippets, los microformatos y el soporte a RDFa que hace posible la explotación de esta nueva característica implementada en los resultados provistos por el buscador, se ha puesto a disposición una herramienta de Previsualización (Rich Snippets Testing Tool) de una página con la presencia de Microformatos o RDFa. Ver figura 9. [18]<br />Figura 9. Vista previa de ejemplo en Rich Snippets Testing Tool.<br />Esta herramienta examina su página y las respectivas anotaciones presentes en la misma. Como parte del proceso para obtener los Rich Snippets, se requiere el relleno de una forma, para con el tiempo habilitar esta innovación. [19]<br />Por otro lado, Google no garantiza la presentación de Rich Snippets como resultado de una búsqueda, aún cuando, existan las anotaciones respectivas y la herramienta de extracción no muestre inconvenientes al realizar las respectivas pruebas. Dentro de estas circunstancias contamos [13]:<br />Las anotaciones (datos estructurados de marcado) son incorrectas, engañosas o no son relevantes para el contenido de la página.<br />El site no es atractivo para el sistema de Google, (tiene muy pocas páginas publicadas o pocas con anotaciones).<br />Las anotaciones se encuentran ocultas al usuario. (usando “hidden” divs).<br />Revisiones.<br />Para tomar en consideración a las revisiones, Google soporta hReview y RDFa Review con las siguientes propiedades. En paréntesis el nombre de la propiedad hReview si difiere de RDFa Review. Además algunas veces en la página no se incluye directamente, sino que se muestran imágenes con el rating, usualmente estrellas; en cuyo caso se debe añadir la clase rating (class= “rating”), de esta forma Google extraerá el valor del texto alternativo. [GO-REVW]<br />Tabla 6. Propiedades RDFa Review y hReview soportadas por Google.<br />PropiedadDescripciónitemreviewed (item)El ítem en revisión.name (fn)El nombre del ítem en revisión. Hijo de item.ratingCualidad numérica que valora al ítem, por ejemplo en una escala 1-5. Opcionalmente se puede definir el valor worst (default: 1) o best (default: 5) reviewerEl autor de la revisión.dtreviewedLa fecha en la que el ítem fue revisado.descriptionEl cuerpo –contenido- de la revisión.summaryUn corto resumen de la revisión.<br />También se reconoce las revisiones agregadas, las cuales muestran una valoración ponderada de todas las revisiones para el elemento, con este fin se agregan propiedades a considerar para una evaluación conjunta.<br />Tabla 7. Propiedades de las Revisiones Agregadas.<br />PropiedadDescripciónitemreviewed (item)El ítem en revisión.name (fn)El nombre del ítem being reviewed. Hijo de item.ratingContenedor  para la información de rating. averageRating promedio de todas las revisiones. Hijo de rating. countNumero total de revisiones para el elemento.summaryCorto resumen de las revisiones hechas al ítem.<br />Productos<br />Tabla 8. Propiedades de producto reconocidas, en paréntesis el nombre de la propiedad en el Microformato.<br />PropiedadDescripciónbrandMarca del producto. Ej. ACME.categoryLa categoría a la que el producto pertenece. Ej. quot;
Books—Fictionquot;
, quot;
Heavy Objectsquot;
, o quot;
Carsquot;
.descriptionDescripcion del productname (fn)Nombre del productpricePrecio. Número flotante, también acepta formato moneda.photoURL de la foto del productourlURL de la página del producto.<br />Últimos aportes.<br />El formato Person RDFa, fue el primero, pero,  se han adicionado el soporte a los campos correspondientes a FOAF y vCard. De la misma forma para mejorar el indexando de video, los formatos de marcado de Facebook Share y el usado por Yahoo! SearchMonkey RDFa Video ahora son reconocidos. [22]<br />YAHOO!<br />Yahoo! desde el primer trimestre del 2008 cuenta con SearchMonkey, un framework para la creación de pequeñas aplicaciones que mejoren los resultados de búsqueda con datos y estructura adicional, como imágenes, pares clave/valor y enlaces adicionales. Estos resultados serán mostrados basados en dos templates: <br />Infobar. Resultado “sencillo”, difiere de la manera tradicional de mostrar los resultados con la presencia de un panel expandible con información adicional. <br />Enhanced Result. Un resultado más elaborado, que esta limitado a un conjunto de elementos específicos: título Title, resumen Summary, imagen Image, enlace Link que debe pertenecer al sitio para mayor información o para alguna acción posterior que el usuario desee hacer. El componente final es Dict, que es un par clave/valor que provee información concisa y estructurada tal como revisiones, especificaciones técnicas u horas de operación. Puede contener 4 dicts como máximo. Ver figura 10.<br />Figura 10. Resultado de búsqueda Yahoo! como Infobar (superior) y como Enhanced Result.<br />Los beneficios de SearchMonkey para los usuarios del buscador: <br />Mejora de los resultados de búsqueda de sitios y marcas establecidas.<br />Personalización de la experiencia de búsqueda, permitiéndoles añadir aplicaciones opcionales.<br />Proveer enlaces relevantes y datos estructurados, para agilizar las tareas efectuadas. <br />Para el propietario del site, los beneficios incluyen:<br />La explotación de las anotaciones semánticas incluidas en sus páginas, exponiendo esa información a una audiencia masiva.<br />Incrementar la cantidad y calidad del tráfico, suministrando mejor información y ayudando a los usuarios  a determinar la relevancia de las páginas.<br />Una aplicación SearchMonkey consta de dos partes: <br />Data Services uno o más servicios de datos, que le provee información estructurada para mostrar como resultado en las búsquedas. <br />presentation application, que define como deben ser mostrada. Esto es definido mediante funciones PHP que serán almacenadas en el servidor de Yahoo.<br />Figura 11. Relación entre componentes de una aplicación SearchMonkey. [24]<br />HTML5<br />HTML, “Hypertext Markup Language” o Lenguaje marcado de hipertexto llega a su versión 5 con cambios. HTML 5 especifica dos variantes de sintaxis para HTML: un “clásico” HTML (text/html), la variante conocida como HTML5 y una variante XHTML conocida como sintaxis XHTML5 que deberá ser servida como XML (XHTML) (application/xhtml+xml). Esta es la primera vez que HTML y XHTML se han desarrollado en paralelo.<br />Los nuevos elementos estructurales que eran implementados con div, ahora tienen su propio elemento HTML5. En breves rasgos son:<br />section: Puede ser un capítulo, una sección de un capítulo o básicamente cualquier cosa que incluya su propio encabezamiento.<br />header: La cabecera de una página. No confundir con el elemento head<br />footer: El final de la página.<br />nav : Una colección de links a otras páginas<br />article: Una entrada independiente en un blog, revista, etc. Ver figura 8.<br />Figura 12. Elementos HTML5 incorporados en relación a la versión anterior.<br />Aunque HTML5 es un trabajo en proceso Firefox 3.5, Safari, Opera, Chrome e incluso IE8 ya soportan algunas cosas y en muchas páginas ya se presentan ejemplos, principalmente del soporte a video y audio como elemento de HTML.<br />Otra característica importante, es la incorporación de elementos para resaltar el carácter semántico del contenido mostrado. [30]<br />aside: Es un bloque semántico que representa una nota, un consejo una explicación….<br />figure: Se utilizará para representar una imagen<br />dialog: Se utilizará para representar una conversación entre varias personas<br />time: Se utilizará para marcar un momento temporal en una historia<br />meter: Se utilizará para indicar ciertas medidas dependiendo de los atributos<br />progress: Representará el estado de cierto proceso<br />video: Un video<br />audio: En este caso un archivo de audio<br />details: Más detalles sobre alguna cosa<br />datagrid: Una tabla, una recopilación de datos formateados<br />menu: Un listado, un menú…<br />MICRODATA: La propuesta para marcado semántico parte del Draft de HTML5.<br />En los últimos aportes de los desarrolladores de HTML5 se ha presentado la inclusión de los microdatos -Microdata- que suponen una especie de híbrido entre las  sintaxis de microformatos y  RDFa incorporado en la de HTML5 con el uso de los nuevos atributos ítem y sus propiedades respectivas.<br />Un ítem  es un grupo de pares nombre-valor o propiedades -itemprop-. Para la creación de ítems se usa el atributo itemscope, cada propiedad, puede tomar un valor string o URL, para lo cual se requiere de los elementos a y su atributo href, al igual que se usa el elemento img y su atributo src para elementos que referencian o incrustan recursos externos. El uso de microdatos para añadir semántica a HTML es bastante sencillo, en la figura 13 se muestra el marcado de información referente a una persona añadiendo el elemento time para marcar una fecha en el ítem birthday.<br />Figura 13.  Ejemplo del uso de microdata.<br /><div itemscope> <p>Hola, Mi nombre es <span itemprop=quot;
namequot;
>Martin</span>.</p> <p>Mi banda favorita es <span itemprop=quot;
bandquot;
 itemscope> <span itemprop=quot;
namequot;
>Metallica</span></div><div itemscope> Nací el <time itemprop=quot;
birthdayquot;
 datetime=quot;
1986-11-21quot;
> 21 de Noviembre de 1986</time>.</div><br />Los vocabularios como tales están regidos por los tipos de ítems que pueden ser representados. Los tipos (Types) son identificados como URL descritas dentro del atributo itemscope, por lo que un ítem sólo puede ser de un tipo, ya que este le da el contexto para las propiedades que posee dicho ítem. <br />En algunos casos, un ítem debe de ser identificado inequívocamente, por lo que surge la necesidad de un id para dicho elemento, como es el caso de un libro, persona, clase o curso. El atributo itemid añade esta capacidad mostrando la individualidad de un ítem. Véase la figura 14, que detalla a un libro, además mostrado el type que identifica el vocabulario, cuestión abordada anteriormente.<br />Figura 14. Representación de un libro con microdata asociada.<br /><dl itemscope    itemtype=quot;
http://vocab.example.net/bookquot;
    itemid=quot;
urn:isbn:0-330-34032-8quot;
> <dt>Title <dd itemprop=quot;
titlequot;
>The Reality Dysfunction <dt>Author <dd itemprop=quot;
authorquot;
>Peter F. Hamilton <dt>Publication date <dd><time itemprop=quot;
pubdatequot;
 datetime=quot;
1996-01-26quot;
>26 January 1996</time></dl><br />Vale recalcar que la especificación mostrada aquí sobre esta propuesta es parte del draft (3 de Noviembre 2009), el cual todavía se encuentra en etapa de discusión, por lo cual ciertos aspectos están muy poco detallados y sujetos a continuo cambio, tal es el caso de itemprop, que anteriormente se citaba como property. [32]<br />OBSERVACIONES<br />La adopción del soporte de Microformatos y RDF por parte de Yahoo! y últimamente Google constituye el mejor incentivo para que los Websites implementen rápidamente las anotaciones Semánticas.<br />La presencia de elementos de marcado, no garantiza la presentación de Rich Snippets de su Web debido a que la naturaleza de las anotaciones que usa Google para generarlos esta orientada a Web con información referente a revisiones, redes sociales y en un futuro cercano se irá ampliando el espectro a otros tipos de sites.<br />La implementación de aplicaciones SearchMonkey presentará los resultados de búsqueda como más atractivos y útiles, pero no cambiará el rankeado algorítmico para su web.<br />La propuesta de Google para ofrecer sus rich Snippets es más sencilla al sólo requerir la inclusión de anotaciones semánticas en su site y difiere de Yahoo! SearchMonkey, pues, al ser un framework, implica un trabajo adicional, a tal punto que ofrece la funcionalidad tanto para publicadores de contenidos como desarrolladores de aplicaciones SM, así como un repositorio de Aplicaciones disponibles para cualquier usuario Yahoo!.<br />Las nuevas características del HTML5 vislumbran un gran cambio en la web, ya que acorde con su adopción por parte de los principales navegadores, permitirán que los contenidos estén mejor estructurados, siendo un paso más hacia la web semántica.<br />REFERENCES<br />[1] Microformatos Wiki [Consultado a 2 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/microformats<br />[2] Extensiones para Firefox [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/firefox-extensions<br />[3] RDFa vs Microformatos [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://evan.prodromou.name/RDFa_vs_microformats<br />[4] Microformat [Consultado a 4 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Microformat<br />[5] Accessibility problems with Microformats SNEE [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.snee.com/bobdc.blog/2008/03/accessibility-problems-with-mi.html<br />[6] LAWLESS, Derek. An Introduction to Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://dereklawless.ie/articles/<br />[7] Discussion Moribund Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/exploratory-discussions#Moribund<br />[8] RDF [Consultado a 31 de Octubre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Resource_Description_Framework<br />[9] Rdf in HTML [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml<br />[10] RDFa XHTML [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/xhtml-rdfa-primer/<br />[11] RDFa [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/RDFa<br />[12] RDFa Syntax [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/rdfa-syntax<br />[13]  Google Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://knol.google.com/k/google-rich-snippets/google-rich-snippets/32la2chf8l79m/1#<br /> [14] Introducing Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html<br />[15] hReview [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.microformats.org/wiki/hreview<br />[16] An Update on Snippets [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/10/help-us-make-web-better-update-on-rich.html<br />[17] Reviews [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146645<br />[18] Rich Snippets Testing Tool [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/webmasters/tools/richsnippets<br />[19] Form Interested in Rich Snippets[Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/request.py?contact_type=rich_snippets_feedback<br />[20] Products [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=146750<br />[21] Person [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?answer=146646<br />[22] Facebook Share and RDFa video [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/09/supporting-facebook-share-and-rdfa-for.html<br />[23] Yahoo embraces semantic Web [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.techcrunch.com/2008/03/13/yahoo-embraces-the-semantic-web-expect-the-web-to-organize-itself-in-a-hurry/<br />[24] SearchMonkey Guide [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/smguide/<br />[25] SearchMonkey Framework [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/<br />[26] Gallery SearchMonkey [Consultado a 7 de Noviembre 2009] [En línea] Disponible en: http://gallery.search.yahoo.com/<br />[27] HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/html5/<br />[28] A preview of HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.alistapart.com/articles/previewofhtml5/<br />[29] HTML5 guide [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://dev.w3.org/html5/html-author/<br />[30] Nuevos elementos HTML5 [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://techlosofy.com/nuevos-elementos-en-html-5-la-quinta-version-del-lenguaje-de-la-web/<br />[31]TOMBERG Vladimir, LAANPERE Mart: RDFa versus Microformats: Exploring the Potential for Semantic Interoperability of Mash-up Personal Learning Environments [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://ceur-ws.org/Vol-506/tomberg.pdf <br />[32] HTML5 Draft Standard – Microdata. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.whatwg.org/specs/web-apps/current-work/multipage/microdata.html#microdata<br />[33] CORLOSQUET Stéphane, CYGANIAK Richard, POLLERES Axel y DECKER Stefan: RDFa in Drupal: Bringing Cheese to the Web of Data. [Consultado a 24 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/short_3.pdf<br />[34] Van TOMME, Kristof .Semantic Web: an introduction. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/kvantomme/semantic-web-and-drupal-an-introduction <br />[35] Drupal RDF Project [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://drupal.org/project/rdf<br />[36] Grégoire Burel, Amparo E. Cano, Vitaveska Lanfranchi: Ozone Browser: Augmenting the Web with Semantic Overlays [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/challengesubmissions/submission1.pdf<br />[37] Ozone Browser [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/evhart/sparks-o3-browser-augmenting-the-web-with-semantic-overlays<br />[38] LACHICA Roy, Metadata Creation in Socio Semantic Tagging Systems. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://roy.lachica.no/docs/TMRA07-RoyLachica-Metadata-Creation-in-Socio-semantic-Tagging-Systems.pdf <br />
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google
Explotación de anotaciones semánticas para páginas web usando estrategias de Google

Weitere ähnliche Inhalte

Ähnlich wie Explotación de anotaciones semánticas para páginas web usando estrategias de Google

Ähnlich wie Explotación de anotaciones semánticas para páginas web usando estrategias de Google (20)

XML Y RDF En Web SemáNtica
XML Y RDF En Web SemáNticaXML Y RDF En Web SemáNtica
XML Y RDF En Web SemáNtica
 
Microformatos [autoguardado]
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]
 
Html1
Html1Html1
Html1
 
Html
HtmlHtml
Html
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Microformatos
MicroformatosMicroformatos
Microformatos
 
Web browsers and semantic metadata
Web browsers and semantic metadataWeb browsers and semantic metadata
Web browsers and semantic metadata
 
Historia del HTML
Historia del HTMLHistoria del HTML
Historia del HTML
 
Consultas profe
Consultas profe Consultas profe
Consultas profe
 
Web semántica
Web semántica Web semántica
Web semántica
 
Desarrollo en la pagina web
Desarrollo en la pagina webDesarrollo en la pagina web
Desarrollo en la pagina web
 
Htlm y javascrip
Htlm y javascripHtlm y javascrip
Htlm y javascrip
 
Htlm y javascrip
Htlm y javascripHtlm y javascrip
Htlm y javascrip
 
La web semántica
La web semánticaLa web semántica
La web semántica
 
Herramientas para paginas web
Herramientas para  paginas webHerramientas para  paginas web
Herramientas para paginas web
 
Lenguaje de marcado MathML
Lenguaje de marcado MathMLLenguaje de marcado MathML
Lenguaje de marcado MathML
 
Taller 1 raul guaranda
Taller 1 raul guarandaTaller 1 raul guaranda
Taller 1 raul guaranda
 
introducción tecnologías web
introducción tecnologías webintroducción tecnologías web
introducción tecnologías web
 
1-HTML EXPO.pdf
1-HTML EXPO.pdf1-HTML EXPO.pdf
1-HTML EXPO.pdf
 
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientasDesarrollo práctico de aplicaciones Linked Data: metodología y herramientas
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas
 

Mehr von Martin Coronel

iGod: Chatting with the Almighty
iGod: Chatting with the AlmightyiGod: Chatting with the Almighty
iGod: Chatting with the AlmightyMartin Coronel
 
Anotaciones semanticas recursos
Anotaciones semanticas recursosAnotaciones semanticas recursos
Anotaciones semanticas recursosMartin Coronel
 
Anotaciones semanticas
Anotaciones semanticasAnotaciones semanticas
Anotaciones semanticasMartin Coronel
 
Presentacion Proyecto Multiprocesamiento
Presentacion Proyecto MultiprocesamientoPresentacion Proyecto Multiprocesamiento
Presentacion Proyecto MultiprocesamientoMartin Coronel
 
Parallel Algorithm Models
Parallel Algorithm ModelsParallel Algorithm Models
Parallel Algorithm ModelsMartin Coronel
 
Trabajando con datos Compuestos
Trabajando con datos CompuestosTrabajando con datos Compuestos
Trabajando con datos CompuestosMartin Coronel
 

Mehr von Martin Coronel (9)

iGod: Chatting with the Almighty
iGod: Chatting with the AlmightyiGod: Chatting with the Almighty
iGod: Chatting with the Almighty
 
Tesis junio
Tesis junioTesis junio
Tesis junio
 
Anotaciones semanticas recursos
Anotaciones semanticas recursosAnotaciones semanticas recursos
Anotaciones semanticas recursos
 
Anotaciones semanticas
Anotaciones semanticasAnotaciones semanticas
Anotaciones semanticas
 
Presentacion Proyecto Multiprocesamiento
Presentacion Proyecto MultiprocesamientoPresentacion Proyecto Multiprocesamiento
Presentacion Proyecto Multiprocesamiento
 
Parallel Algorithm Models
Parallel Algorithm ModelsParallel Algorithm Models
Parallel Algorithm Models
 
Open Innovation
Open InnovationOpen Innovation
Open Innovation
 
Trabajando con datos Compuestos
Trabajando con datos CompuestosTrabajando con datos Compuestos
Trabajando con datos Compuestos
 
Cap I Plsql
Cap I PlsqlCap I Plsql
Cap I Plsql
 

Explotación de anotaciones semánticas para páginas web usando estrategias de Google

  • 1. EXPLOTACIÓN DE ANOTACIONES SEMÁNTICAS PARA PÁGINAS WEB, USANDO LAS ESTRATEGIAS PROPUESTAS POR GOOGLE<br />Jorge A. Lopez, Nelson O. Piedra, Freddy M. Coronel<br />25 de Enero 2010<br />Abstract<br />Las anotaciones semánticas suponen un aditamento a los documentos (X)HTML, para permitir que sean datos legibles por máquinas, con el fin de aumentar la fortaleza semántica de los textos de la Web. De entre estas anotaciones semánticas contamos a los Microformatos, que especifican información estructurada sobre un vocabulario definido; eRDF y RDFa los cuales toman como base a RDF para añadir significado a los documentos, el primero infiltrando los datos semánticos en una forma parcialmente parecida a los Microformatos, y el segundo (RDFa) mediante el uso de atributos para agregar los metadatos enriquecidos a los textos. Con el desarrollo de la nueva versión de HTML, sus desarrolladores han propuesto un nuevo enfoque: el de los Microdatos -Microdata-, el cual busca aprovechar las fortalezas del marcado semántico anteriormente citados junto con las nuevas características de HTML5. Actualmente Google y Yahoo!, líderes en las búsquedas web aprovechan estas anotaciones para mostrar resultados más atractivos y potencialmente más útiles al usuario. Yahoo! va incluso más allá al ofrecer su framework para que los desarrolladores personalicen como serán visualizadas sus páginas en dicho buscador. <br />Index Terms. Microformatos, Resource Description Framework (RDF), RDF –in– attributes (RDFa), Embedded RDF (eRDF), Rich Snippets, Google, Yahoo! SearchMonkey SM, XHTML, HTML5, Microdata.<br />INTRODUCCIÓN<br />Al realizar una búsqueda en la Web, a menudo encontramos resultados que distan mucho de lo que nosotros requerimos, esto debido a que los motores de búsqueda actuales se centran en contenidos, es decir no “contemplan” el significado de lo que sus Crawlers han indexado. <br />Las anotaciones semánticas son la forma en que se busca proveer “significado” a los contenidos de las páginas web para que pueda ser explotado por entidades software. Yahoo! y Google desde hace un año aproximadamente han gradualmente incorporado el soporte a estas anotaciones como un avance para otorgar resultados estructurados. <br />Conocido esto, el siguiente trabajo se halla estructurado en primer lugar con el estudio de las anotaciones mencionadas: Microformatos, eRDF, RDFa y las posibilidades que representa la introducción de Microdata en el draft de HTML5. A continuación se mostrará las iniciativas para el aprovechamiento de las anotaciones que ha efectuado Yahoo! y una vista previa de su framework, para después centrarnos en Google y toda la actividad que se está desarrollando, el estado actual de su trabajo y el soporte que ofrece a los publicadores de contenidos web. Finalmente se hace la propuesta para el trabajo conjunto entre el enfoque Google y las características de HTML5.<br />MICROFORMATOS<br />Los microformatos son un método de marcado semántico que permite implementar metadatos para que esa información pueda ser aprovechada por entes software, ya que el enfoque tradicional de marcado de hipertexto sólo indicaba la forma en la que la información será presentada, mas no su significado. <br />Dada la posibilidad que ofrecen HTML y XHTML de admitir la inclusión y codificación de la semántica dentro de los atributos de las etiquetas de marcado, Los microformatos constituyen un intento para incrementar el poder expresivo de HTML por medio de nuevos formatos de datos que yacen sobre elementos y atributos de HTML estándar que definen combinaciones de <abbr>, class, rel, y otros elementos para especificar información estructurada sobre personas, eventos y otros elementos de interés. <br />Al momento de realizar este trabajo aunque existen muchos en desarrollo, sólo algunos son considerados como estables por la comunidad que lidera esta iniciativa y por tanto su uso ya se halla extendido. Estos microformatos estables son mostrados en la tabla 1.<br />Tabla 1. Microformatos estables a la fecha y su utilidad. [1]<br />NombreUtilidadhCalendarPara marcar Eventos.hCardRepresentar personas, compañías, organizaciones y lugares.rel-licenseEspecificación de Copyrightrel-nofollowPara desalentar contenido spam de terceros.rel-tagIndica etiquetado descentralizado. (Folksonomía).VoteLinksPara expresar opinión mediante votos. XFNPara representar relaciones sociales.XOXOPara listas y outlines a ser procesadas por engines XML.<br />Los Microformatos han sido aceptados e implementados desde muchos sectores principalmente por la facilidad de uso y amplio detalle, la comunidad muestra ejemplos –examples in the wild– e implementaciones, pero a su vez se han oído voces criticas hacia ciertos aspectos en especial relacionados con el alcance y desarrollo centralizado que la comunidad responsable maneja; esto y otros elementos positivos y negativos son detallados en la tabla 2.<br />Tabla 2. Microformatos: Ventajas y Desventajas.<br />VentajasDesventajasFacilidad de uso.Es una iniciativa “independiente”, no forma parte de la propuesta W3C para Web Semántica.Amplia implementación.Vocabulario reducido.Proceso de desarrollo y patrones de diseño definidos y maduros.Desarrollo centralizado por medio de la comunidad.Existencia de plugins para exploradores en uso.No usa namespaces.Herramientas para crear hCards y hCalendars.Verbosidad. Al ser implementados con XHTML, heredan esta característica de los lenguajes basados en XML. Al usar el mismo formato para consumo humano y máquina, se aumenta el uso del ancho de banda en servicios como la sindicación o RSS Feeds.Modularidad y capacidad de mezcla. Se puede componer microformatos usando otros.Se aumenta la posibilidad spam usando la información provista por hCardsPueden ser identificados y manipulados usando JavaScript y el DOM (Document Object Model)Existen muchos Microformatos “moribundos”.Inconvenientes AT. JAWS<br />El último punto de las desventajas debe ser clarificado mayormente. Desde hace algún tiempo se ha presentado un inconveniente en relación con las tecnologías asistivas (AT) -tecnologías para compensar a personas con diversas incapacidades-, particularmente el problema es con el software JAWS que lee el contenido a los usuarios no videntes; el cual interpreta el marcado con abbr en fechas y ubicaciones como la abreviatura de los metadatos, con la consecuente lectura de los valores semánticos. La segunda dificultad se presenta con el patrón include que usa un href vacío, con lo que el software presenta contenido misterioso a sus usuarios. [5]<br />Para ejemplo de marcado semántico de información de contacto mediante el uso de hCard, véase la Figura 1, en donde se muestra el uso de las propiedades para representar nombre, dirección, ciudad, país y mail de una persona, siendo sólo algunas de las definidas por el RFC 2426 para la especificación de vCards. <br />Figura 1. Información de Contacto hCard<br /> <div class=quot; vcardquot; > <img src=quot; http://mipagina.com/images/fmc.jpgquot; alt=quot; Yoquot; class=quot; photoquot; /> <a class=quot; url fnquot; href=quot; http://mipagina.com/martin/quot; >Martin Coronel</a> <div class=quot; adrquot; > <div class=quot; street-addressquot; >San Cayetano</div> <span class=quot; localityquot; >Loja</span>, <div class=quot; country-namequot; >Ecuador</div> </div> <a class=quot; emailquot; href=quot; mailto:martinc@mipagina.comquot; > martinc@mipagina.com </a> </div><br />MICROFORMATOS: El Proceso.<br />Microformats.org provee lineamientos para el desarrollo de nuevos microformatos, pero en su wiki se hace énfasis en ciertos pasos –o recomendaciones– antes de aventurarse a proponer un nuevo microformato. <br />La comunidad detrás de Microformats plantea que promueva su uso para lo cual es necesario pasar a su site a Plain Old Semantic HTML (POSH), y marcarlo con los microformatos existentes, para que luego evalúe la necesidad de uno nuevo, pues pueden ya existir iniciativas en diferentes etapas de desarrollo para aquello que precipitadamente desea proponer. Si no se da tal caso será necesario revisar los principios de diseño [4] Reduzca-Reuse-Recicle que pueden ser resumidos como:<br />Reduzca: favorecer las soluciones más simples y poner atención a problemas específicos.<br />Reuse: trabaje con base en experiencias y auspiciar la práctica actual.<br />Reciclar: promover la modularidad y la habilidad para embeber, el XHTML valido puede ser reusado en entradas de blogs, RSS feeds y otros elementos.<br />Con todo esto en mente, el proceso para el desarrollo de un nuevo microformato, se reduce a la secuencia de pasos iterativos mostrados en la figura 2.<br />Figura 2. Proceso para desarrollar un nuevo microformato.<br />LOS EXPLORADORES Y LOS MICROFORMATOS.<br />Debido al aumento en la presencia de microformatos en la Web, las últimas versiones de algunos navegadores ya poseen extensiones para el descubrimiento de microformatos en la páginas, en el caso de Mozilla Firefox tenemos Operator, Tails, Giftag y BlueOrganizer como los más significativos. De estos Operator es el más popular entre los usuarios, desarrolladores y publicadores de contenidos con microformatos; incluso Operator provee una arquitectura para el análisis de Microformatos (microformat parsing), el cual probablemente será integrado en futuras versiones del navegador. [3]<br />Como alternativa para Microsoft® Internet Explorer se presenta Oomph, cuyas principales características son: encontrar – consumir, crear, y dar estilo a Microformatos, para lo cual cuenta con un set de estilos CSS y un plug-in para Windows Live Writer para insertar hCards.<br />SafariMicroformats detecta Microformatos indicando su presencia mediante un ícono en la barra de direcciones, soporta hCard y hCalendar y facilitando su extracción o exportarlos a su agenda o Calendario. <br />RESOURCE DESCRIPTION FRAMEWORK RDF<br />RDF o Marco de Descripción de Recursos es un framework para metadatos en la World Wide Web (WWW). RDF es el estándar de la W3C para los datos interoperables legibles por máquinas (interoperable machine-readable data) y su combinación con otras herramientas como RDF Schema y OWL le otorgan significado a las páginas, y es una de las tecnologías esenciales de la Web semántica. <br />Este modelo (ver figura 3) se basa en la idea de convertir las declaraciones de los recursos en expresiones con la forma sujeto-predicado-objeto (tripletas). El sujeto es el recurso, es decir aquello que se está describiendo. El predicado es la propiedad o relación que se desea establecer acerca del recurso. Por último, el objeto es el valor de la propiedad o el otro recurso con el que se establece la relación.<br />Figura 3. Modelo de datos RDF<br />RecursoVALORTIPO DEPROPIEDADPropiedad / descripción<br />El propósito de RDF es proveer un mecanismo de codificación e interpretación para que los recursos puedan ser descritos en una forma que el software pueda entenderlo. La terminología proviene de la lógica y de la lingüística en las que las estructuras predicativas se utilizan también para dar significado a las representaciones sintácticas. En la figura 4, se muestra un ejemplo de RDF para representar las relaciones –publicador- y -titulo- de un artículo de Wikipedia -sujeto-, del cual posteriormente se obtienen las tripletas que representan las relaciones que describen al artículo.<br />Figura 4. Ejemplo de RDF sobre un artículo de la Wikipedia y tripletas obtenidas.<br /><rdf:RDF xmlns:rdf=quot; http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:dc=quot; http://purl.org/dc/elements/1.1/quot; ><rdf:Description rdf:about=quot; http://en.wikipedia.org/RDFquot; > <dc:title> Resource Description Framework </dc:title> <dc:publisher>Wikipedia</dc:publisher></rdf:Description></rdf:RDF>Tripletas obtenidasSujetoPredicadoObjeto<http://en.wikipedia.org/><http://purl.org/dc/elements/1.1/title>quot; Resource Description Frameworkquot; <http://en.wikipedia.org/RDF<http://purl.org/dc/elements/1.1/publisher>quot; Wikipedia”<br />eRDF<br />Embedded RDF o eRDF es una sintaxis para escribir HTML, de tal forma que la información del documento pueda ser extraída en RDF, ya sea por medio de un Parser o una Hoja de estilos XSLT (XSL -Extensible Stylesheet Language- Transformations). <br />Para que un documento HTML le sea reconocido la existencia de eRDF se debe declarar la adhesión a un perfil especial. Este perfil declara que el documento se adapta a las convenciones para embeber-incrustar- RDF. Esto se logra sumando el atributo profile=quot; http://purl.org/NET/erdf/profilequot; al head del documento. Lo siguiente que se debe hacer es indicar los esquemas a ser usados para añadir las tripletas. Cada esquema representa una colección de nombres de propiedades, esto es análogo a los namespaces usados en los documentos XML. <br />eRDF permite que muchas partes importantes del modelo RDF sean incluidas, pero no es un intento para extenderlo a todo el modelo eRDF, esto puede ser resumido en que: Todo RDF embebible en HTML es RDF válido, pero no todo RDF puede ser RDF embebible. [9]<br />Figura 5. Uso de eRDF para mostrar una página About, usando FOAF.<br /><html> <head profile=quot; http://purl.org/NET/erdf/profilequot; > <title>Hola mundo</title> <base href=quot; http://mipagina.com/aboutquot; /> <meta name=quot; dc.creatorquot; content=quot; Martin Coronelquot; /> <meta name=quot; dc.titlequot; content=quot; Hola mundoquot; /> <link rel=quot; schema.dcquot; href=quot; http://purl.org/dc/elements/1.1/quot; /> <link rel=quot; schema.foafquot; href=quot; http://xmlns.com/foaf/0.1/quot; /> <link href=quot; #annaquot; rev=quot; foaf-homepage foaf-madequot; rel=quot; foaf-makerquot; /> </head> <body> <h2>About me...</h2> <p id=quot; martinquot; > Hola, Soy <span class=quot; foaf-namequot; ><span class=quot; foaf-firstNamequot; >Martin</span> <span class=quot; foaf-surnamequot; >Coronel</span></span>. <img style=quot; float: rightquot; src=quot; pic.jpgquot; class=quot; foaf-depictionquot; alt=quot; Yoquot; /> Mi nick de Messenger es <span class=quot; foaf-nickquot; >martinc</span>. </p> </body></html> <br />RDFa<br />Resource Description Framework-in-attributes es la recomendación de la W3C para añadir metadatos enriquecidos a nivel de atributos en páginas Web. RDFa se diferencia de eRDF en que utiliza atributos para incluir los metadatos semánticos, mientras que eRDF “incrusta” la información de las tripletas utilizadas, requiriendo la descripción de perfiles y esquemas a ser utilizados por el documento.<br />RDFa permite que, usando algunos simples atributos los autores de XHTML, puedan marcar datos legibles por humanos con indicadores permitiendo que los navegadores y/u otros programas los entiendan. Una página Web puede contener metadatos que expresen desde el título de un artículo, hasta algo complejo como la red social completa del autor del mismo. Para el uso de RDFa se deben de usar los atributos detallados en la tabla 3.<br />Con RDFa las reglas para interpretar los datos son genéricas, por lo tanto no hay necesidad de diferentes reglas para diferentes formatos; facilitando a los autores y publicadores de datos definir sus propios formatos sin tener que actualizar software, o registrarlos ante una autoridad central o preocuparse que dos formatos interfieran entre sí.<br />Tabla 3. Lista de atributos de RDFa<br />AtributoEspecificaaboutLa URI (Uniform Resource Identifier) o CURIE (Compact URI) del recurso del que son los metadatos. Por defecto el documento actual.rel, revRelación o relación inversa con otro recurso.href, src, resourceEl recurso asociado a este.propertyLa propiedad del contenido de un elemento.contentSobrecarga el contenido del elemento cuando se usa el atributo anterior. Opcional.datatypeTipo de datos del texto especificado con el atributo propiedad. Opcional.typeofTipo de RDF del sujeto. Opcional. <br />Según el RDFa Primer, a la fecha dada la extensibilidad de XHTML contrario a HTML, RDFa ha sido sólo especificado para XHTML 1.1. Sin embargo, se puede usar RDFa en HTML4, ya que no se han reportado problemas con los Web Browsers al presentar documentos que contienen dichas anotaciones. Al momento, RDFa no se validará en HTML4. Los atributos RDFa se validan en XHTML, usando la DTD –Document Type Definition- XHTML1.1+RDFa. [10]<br />Al marcar los documentos con RDFa se usan anotaciones de Dublin Core (DC) para describir documentos o Friend of a Friend (FOAF) para la información de contactos, entre otros; la representación abstracta subyacente a RDFa es RDF, lo cual le faculta construir su propio vocabulario o extender otros. En la figura 6 se hace uso de DC para anotar semánticamente una página que detalla la revisión de un libro, nótese el uso de las CURIES para facilitar la mención a los metadatos.<br />Figura 6. Uso de RDFa en HTML.<br /><html xmlns=quot; http://www.w3.org/1999/xhtmlquot; xmlns:biblio=quot; http://example.org/quot; xmlns:dc=quot; http://purl.org/dc/elements/1.1/quot; > <head> <title>Edgar Allan Poe, Maestro del Terror</title> </head> <body> El relato de Poe <span about=quot; urn:ISBN:0091808189quot; typeof=quot; biblio:bookquot; property=quot; dc:titlequot; > El escarabajo de Oro </span> nos lleva a la búsqueda de una reliquia misteriosa, entre un ambiente que nos transporta al tiempo en que fue escrito. Si lo disfrutaste, te recomiendo <span about=quot; urn:ISBN:1596913614quot; typeof=quot; biblio:bookquot; property=quot; dc:titlequot; > La mascara de la Muerte Roja </span>. </body></html><br />Una barrera para la rápida introducción de RDFa, es el uso de una nueva sintaxis para el URI Uniform Resource Identifier, pues la tradicional, es reemplazada en RDFa con la sintaxis CURIE, la cual simplifica el trabajo con los enlaces en la URI y acorta la codificación. CURIE es una Recomendación Candidata de la W3C; se pretende su uso en SPARQL, RDFa y XHTML 2. Sin embargo, esta tecnología todavía está en una fase temprana de desarrollo. [31]<br />DIFERENCIAS ENTRE eRDF y RDFa<br />Siendo eRDF y RDFa propuestas alternativas basadas RDF para marcado semántico presentan algunas características comunes, pero es necesario centrarnos en las diferencias entre las dos alternativas, que según diversos criterios se presentará como ventajas/desventajas:<br />eRDF se valida en HTML4 / XHTML 1.0 y RDFa sólo en XHTML 1.1, a la espera de la implementación de HTML5.<br />eRDF sólo es parcialmente apoyando por la W3C, a diferencia de RDFa que la recomendación del consorcio.<br />RDFa provee soporte explícito el uso de nodos vacíos –blank nodes–, mientras que eRDF requiere que cada nodo deba de especificar un URI válido o una cadena de de texto.<br />RDFa podría ser integrando en lenguajes (no-HTML) con namespaces XML.<br />RDFa y los Microformatos a nivel semántico.<br />Desde el punto de vista de descripción de los datos la principal diferencia es que microformatos puede usar sólo un vocabulario, el cual es aprobado por la comunidad y no puede ser modificado de forma independiente por desarrolladores. RDFa es el caso contrario, pues sus vocabularios no están limitados por un set de datos específico.<br />La simplicidad y unicidad del vocabulario de los Microformatos aumenta la facilidad y probabilidad que el software aproveche la presencia de los mismos en páginas Web. Con RDFa la situación cambia radicalmente. Algunos pluggins para Firefox proclaman la habilidad de trabajar con RDFa, pero al momento sólo son capaces de encontrar código RDFa presente en la página. Lo cual se presenta obviamente como una ventaja para los desarrolladores, no tanto para los usuarios finales de la página. <br />Estas observaciones junto a las capacidades tecnológicas se resumen en la tabla 4, realizada con base en el Trabajo de Tomberg y Lampere[31], aunque con la adición del soporte que posteriormente a la publicación de su trabajo, Yahoo! ha incorporado.<br />Tabla 4. Comparación entre Microformatos y RDFa.<br />MicroformatosRDFaPropiedades Tecnológicas Puede ser aplicado aHTML, XHTMLXHTML 2 y en forma limitada para XHTML 1.1Implementaciones útiles para el usuario finalSí, existen plugins para diferentes navegadoresNo son útiles para el usuario final.Puede ser usado en mash-upsSíSíUso en la práctica de ejemplos indexado semánticoGoogle y Yahoo indexan microformatosYahoo! sí, Google ha comenzado a usarlo.EstandarizadoNoSíInconvenientesMuy difícil de usar un solo vocabulario para todos los propósitos.XHTML 2 todavía está en desarrollo.Propiedades Semánticas VocabularioUnoMuchosVocabulario puede ser extendidoSí, por medio de la comunidadSí, librementeNivel de InteroperabilidadAltoPosible solo si se aplican vocabularios comunes son usadosPosibilidad de añadir valores semánticos a los datosPromedioAlto<br />RDFa, SPARKS O3 BROWSER.<br />Sparks es un framework JavaScript diseñado para el manejo de capas y datos semánticos. Entre sus funcionalidades tenemos [36]:<br />Sincronización y manipulación de Tripletas Cliente/Servidor.<br />Analizador RDFa/ Procesador SPARQL y Almacen de tripletas “Client-Side”<br />Soporte para JSON/JSONP SPARQL.<br />O3 (Ozone Browser) es una herramienta JavaScript que usa la semántica embebida en documentos Web para mejorar el entendimiento de un documento por parte del usuario.<br />Características:<br />Bookmarklet +Semantic Overlay.<br />Plugins de Visualización dinámica (Twitter, GeoEvents, etc.)<br />Visualización de conceptos relacionados.<br />Vista Desarrollador –Developer view- que muestra las tripletas y las consultas SPARQL. Ver figura 7.<br />Figura 7. Ozone Browser en acción: Parte izquierda resumen de un evento contenido en una página Web y derecha la vista Desarrollador respectiva. [36]<br />Alternativas para Publicar Información Estructurada.<br />Structured Blogging.<br />Structured Blogging es una forma de agregar metadatos semánticos a las entradas en los blogs, particularmente a eventos, revisiones y avisos clasificados (Ver figura 8). Soporta microformatos basados en XML o xHTML y que puedan ser convertidas entre los dos tipos. Los Plugins que ofrece Structured Blogging disponibles para Wordpress y MovableType permiten la publicación de contenido xHTML estructurado, con marcado de página compatible con microformatos y con bloques de XML fácilmente analizables. También están diseñados para transportar microcontenidos en todos los tipos de feeds XML, como RSS 2.0, Atom y RSS 1.0.<br />Otra característica bastante importante es la capacidad de conversión automática en RDF. <br />Figura 8. Microcontenidos soportados en Structured Blogging.<br />Blog EntryReviewsEventsPeople<br />En su versión 1.0pre18 soporta los siguientes microformatos:<br />hCard<br />hCalendar<br />hReview<br />relLicense<br />relTag<br />XFN<br />XOXO<br />RDF<br />FOAF<br />vCard-in-RDF<br />iCal <br />Vocabulario CaptSolo para Currículos.<br />RDF reviews de Danny Ayers<br />Drupal.<br />Drupal es un CMS open source bastante popular. Drupal facilita la creación de sitios web simplificando y manejando el flujo de datos, control de acceso, cuentas de usuarios y la codificación y almacenamiento de datos en la base de datos.<br />Dada la importancia y el sector del mercado que drupal acoge, se han desarrollado algunos módulos con el fin de integrar los contenidos de drupal a la Web Semántica, en la tabla 5 se describe los más significativos.<br />Tabla 5. Módulos Drupal con soporte RDF [34]<br />MóduloDescripciónRDFProvee funcionalidad RDF para la plataforma 6.x de DrupalSemantic Markup Editor Editor de marcado para adición de RDFa. Aún en desarrollo.SPARQLHabilita el uso de consultas SPARQL con la API RDF para Drupal 6.x.Rdf External Vocabulary ImporterEVOC. Módulo que permite el uso de cualquier vocabulario RDF y expone sus clases y propiedades a otros módulos. Requiere de los módulos RDF y SPARQL.NeologismEditor de vocabularios y herramienta de publicación para Drupal. Puede crear un vocabulario, añadir las clases y sus propiedades para instantáneamente publicarlo y hacerlo disponible a otros vía online. Soporta los formatos: HTML, RDF/XML y N3.CalaisEs la integración del Web Service Calais que automáticamente crea metadatos semánticos enriquecidos para sus contenidos. Usa procesado de lenguaje natural, aprendizaje automatizado y otros métodos. Para su uso se requiere obtener una clave API de manera libre en su sitio web.<br />Proyectos de Tagging Semántico<br />Diferentes servicios de marcado social ahora usan etiquetas semánticas, cada una de las cuales con un modelo diferente para la relación y con su criterio que los hace “semánticos”.<br />ZigTag. Servicio que provee etiquetas –tags- semánticas obtenidas de su propia base de datos, recolectada automáticamente desde fuentes públicas. Provee una extensión para el navegador FireFox para facilitar su uso.<br />Fuzzy. Es un proyecto que permite la representación de la semántica de las relaciones entre etiquetas con el uso de Mapas de temas –Topic Maps-. Aspecto interesante de este proyecto es que además de los aspectos característicos de los servicios de tagging tradicionales añade información más específica, tal como el tipo de recurso (video, página web, herramienta, etc.) el contexto geográfico, el tipo de conocimiento<br />GOOGLE y el Marcado Semántico<br />Con el fin de mejorar la experiencia de búsqueda Google a partir de mayo del presente año implementó los Snippets enriquecidos (Rich Snippets). El Snippet como tal es un pequeño ejemplo del contenido de la página asociada a los términos de la búsqueda. Para poder desplegar un Rich Snippet, Google busca la presencia de formatos de marcado, en principio algunos microformatos y RDFa para mostrar información referente a Revisiones, personas, Negocios, Organizaciones, productos y Ratings.<br />Conjuntamente con la extensa documentación sobre los Rich Snippets, los microformatos y el soporte a RDFa que hace posible la explotación de esta nueva característica implementada en los resultados provistos por el buscador, se ha puesto a disposición una herramienta de Previsualización (Rich Snippets Testing Tool) de una página con la presencia de Microformatos o RDFa. Ver figura 9. [18]<br />Figura 9. Vista previa de ejemplo en Rich Snippets Testing Tool.<br />Esta herramienta examina su página y las respectivas anotaciones presentes en la misma. Como parte del proceso para obtener los Rich Snippets, se requiere el relleno de una forma, para con el tiempo habilitar esta innovación. [19]<br />Por otro lado, Google no garantiza la presentación de Rich Snippets como resultado de una búsqueda, aún cuando, existan las anotaciones respectivas y la herramienta de extracción no muestre inconvenientes al realizar las respectivas pruebas. Dentro de estas circunstancias contamos [13]:<br />Las anotaciones (datos estructurados de marcado) son incorrectas, engañosas o no son relevantes para el contenido de la página.<br />El site no es atractivo para el sistema de Google, (tiene muy pocas páginas publicadas o pocas con anotaciones).<br />Las anotaciones se encuentran ocultas al usuario. (usando “hidden” divs).<br />Revisiones.<br />Para tomar en consideración a las revisiones, Google soporta hReview y RDFa Review con las siguientes propiedades. En paréntesis el nombre de la propiedad hReview si difiere de RDFa Review. Además algunas veces en la página no se incluye directamente, sino que se muestran imágenes con el rating, usualmente estrellas; en cuyo caso se debe añadir la clase rating (class= “rating”), de esta forma Google extraerá el valor del texto alternativo. [GO-REVW]<br />Tabla 6. Propiedades RDFa Review y hReview soportadas por Google.<br />PropiedadDescripciónitemreviewed (item)El ítem en revisión.name (fn)El nombre del ítem en revisión. Hijo de item.ratingCualidad numérica que valora al ítem, por ejemplo en una escala 1-5. Opcionalmente se puede definir el valor worst (default: 1) o best (default: 5) reviewerEl autor de la revisión.dtreviewedLa fecha en la que el ítem fue revisado.descriptionEl cuerpo –contenido- de la revisión.summaryUn corto resumen de la revisión.<br />También se reconoce las revisiones agregadas, las cuales muestran una valoración ponderada de todas las revisiones para el elemento, con este fin se agregan propiedades a considerar para una evaluación conjunta.<br />Tabla 7. Propiedades de las Revisiones Agregadas.<br />PropiedadDescripciónitemreviewed (item)El ítem en revisión.name (fn)El nombre del ítem being reviewed. Hijo de item.ratingContenedor para la información de rating. averageRating promedio de todas las revisiones. Hijo de rating. countNumero total de revisiones para el elemento.summaryCorto resumen de las revisiones hechas al ítem.<br />Productos<br />Tabla 8. Propiedades de producto reconocidas, en paréntesis el nombre de la propiedad en el Microformato.<br />PropiedadDescripciónbrandMarca del producto. Ej. ACME.categoryLa categoría a la que el producto pertenece. Ej. quot; Books—Fictionquot; , quot; Heavy Objectsquot; , o quot; Carsquot; .descriptionDescripcion del productname (fn)Nombre del productpricePrecio. Número flotante, también acepta formato moneda.photoURL de la foto del productourlURL de la página del producto.<br />Últimos aportes.<br />El formato Person RDFa, fue el primero, pero, se han adicionado el soporte a los campos correspondientes a FOAF y vCard. De la misma forma para mejorar el indexando de video, los formatos de marcado de Facebook Share y el usado por Yahoo! SearchMonkey RDFa Video ahora son reconocidos. [22]<br />YAHOO!<br />Yahoo! desde el primer trimestre del 2008 cuenta con SearchMonkey, un framework para la creación de pequeñas aplicaciones que mejoren los resultados de búsqueda con datos y estructura adicional, como imágenes, pares clave/valor y enlaces adicionales. Estos resultados serán mostrados basados en dos templates: <br />Infobar. Resultado “sencillo”, difiere de la manera tradicional de mostrar los resultados con la presencia de un panel expandible con información adicional. <br />Enhanced Result. Un resultado más elaborado, que esta limitado a un conjunto de elementos específicos: título Title, resumen Summary, imagen Image, enlace Link que debe pertenecer al sitio para mayor información o para alguna acción posterior que el usuario desee hacer. El componente final es Dict, que es un par clave/valor que provee información concisa y estructurada tal como revisiones, especificaciones técnicas u horas de operación. Puede contener 4 dicts como máximo. Ver figura 10.<br />Figura 10. Resultado de búsqueda Yahoo! como Infobar (superior) y como Enhanced Result.<br />Los beneficios de SearchMonkey para los usuarios del buscador: <br />Mejora de los resultados de búsqueda de sitios y marcas establecidas.<br />Personalización de la experiencia de búsqueda, permitiéndoles añadir aplicaciones opcionales.<br />Proveer enlaces relevantes y datos estructurados, para agilizar las tareas efectuadas. <br />Para el propietario del site, los beneficios incluyen:<br />La explotación de las anotaciones semánticas incluidas en sus páginas, exponiendo esa información a una audiencia masiva.<br />Incrementar la cantidad y calidad del tráfico, suministrando mejor información y ayudando a los usuarios a determinar la relevancia de las páginas.<br />Una aplicación SearchMonkey consta de dos partes: <br />Data Services uno o más servicios de datos, que le provee información estructurada para mostrar como resultado en las búsquedas. <br />presentation application, que define como deben ser mostrada. Esto es definido mediante funciones PHP que serán almacenadas en el servidor de Yahoo.<br />Figura 11. Relación entre componentes de una aplicación SearchMonkey. [24]<br />HTML5<br />HTML, “Hypertext Markup Language” o Lenguaje marcado de hipertexto llega a su versión 5 con cambios. HTML 5 especifica dos variantes de sintaxis para HTML: un “clásico” HTML (text/html), la variante conocida como HTML5 y una variante XHTML conocida como sintaxis XHTML5 que deberá ser servida como XML (XHTML) (application/xhtml+xml). Esta es la primera vez que HTML y XHTML se han desarrollado en paralelo.<br />Los nuevos elementos estructurales que eran implementados con div, ahora tienen su propio elemento HTML5. En breves rasgos son:<br />section: Puede ser un capítulo, una sección de un capítulo o básicamente cualquier cosa que incluya su propio encabezamiento.<br />header: La cabecera de una página. No confundir con el elemento head<br />footer: El final de la página.<br />nav : Una colección de links a otras páginas<br />article: Una entrada independiente en un blog, revista, etc. Ver figura 8.<br />Figura 12. Elementos HTML5 incorporados en relación a la versión anterior.<br />Aunque HTML5 es un trabajo en proceso Firefox 3.5, Safari, Opera, Chrome e incluso IE8 ya soportan algunas cosas y en muchas páginas ya se presentan ejemplos, principalmente del soporte a video y audio como elemento de HTML.<br />Otra característica importante, es la incorporación de elementos para resaltar el carácter semántico del contenido mostrado. [30]<br />aside: Es un bloque semántico que representa una nota, un consejo una explicación….<br />figure: Se utilizará para representar una imagen<br />dialog: Se utilizará para representar una conversación entre varias personas<br />time: Se utilizará para marcar un momento temporal en una historia<br />meter: Se utilizará para indicar ciertas medidas dependiendo de los atributos<br />progress: Representará el estado de cierto proceso<br />video: Un video<br />audio: En este caso un archivo de audio<br />details: Más detalles sobre alguna cosa<br />datagrid: Una tabla, una recopilación de datos formateados<br />menu: Un listado, un menú…<br />MICRODATA: La propuesta para marcado semántico parte del Draft de HTML5.<br />En los últimos aportes de los desarrolladores de HTML5 se ha presentado la inclusión de los microdatos -Microdata- que suponen una especie de híbrido entre las sintaxis de microformatos y RDFa incorporado en la de HTML5 con el uso de los nuevos atributos ítem y sus propiedades respectivas.<br />Un ítem es un grupo de pares nombre-valor o propiedades -itemprop-. Para la creación de ítems se usa el atributo itemscope, cada propiedad, puede tomar un valor string o URL, para lo cual se requiere de los elementos a y su atributo href, al igual que se usa el elemento img y su atributo src para elementos que referencian o incrustan recursos externos. El uso de microdatos para añadir semántica a HTML es bastante sencillo, en la figura 13 se muestra el marcado de información referente a una persona añadiendo el elemento time para marcar una fecha en el ítem birthday.<br />Figura 13. Ejemplo del uso de microdata.<br /><div itemscope> <p>Hola, Mi nombre es <span itemprop=quot; namequot; >Martin</span>.</p> <p>Mi banda favorita es <span itemprop=quot; bandquot; itemscope> <span itemprop=quot; namequot; >Metallica</span></div><div itemscope> Nací el <time itemprop=quot; birthdayquot; datetime=quot; 1986-11-21quot; > 21 de Noviembre de 1986</time>.</div><br />Los vocabularios como tales están regidos por los tipos de ítems que pueden ser representados. Los tipos (Types) son identificados como URL descritas dentro del atributo itemscope, por lo que un ítem sólo puede ser de un tipo, ya que este le da el contexto para las propiedades que posee dicho ítem. <br />En algunos casos, un ítem debe de ser identificado inequívocamente, por lo que surge la necesidad de un id para dicho elemento, como es el caso de un libro, persona, clase o curso. El atributo itemid añade esta capacidad mostrando la individualidad de un ítem. Véase la figura 14, que detalla a un libro, además mostrado el type que identifica el vocabulario, cuestión abordada anteriormente.<br />Figura 14. Representación de un libro con microdata asociada.<br /><dl itemscope itemtype=quot; http://vocab.example.net/bookquot; itemid=quot; urn:isbn:0-330-34032-8quot; > <dt>Title <dd itemprop=quot; titlequot; >The Reality Dysfunction <dt>Author <dd itemprop=quot; authorquot; >Peter F. Hamilton <dt>Publication date <dd><time itemprop=quot; pubdatequot; datetime=quot; 1996-01-26quot; >26 January 1996</time></dl><br />Vale recalcar que la especificación mostrada aquí sobre esta propuesta es parte del draft (3 de Noviembre 2009), el cual todavía se encuentra en etapa de discusión, por lo cual ciertos aspectos están muy poco detallados y sujetos a continuo cambio, tal es el caso de itemprop, que anteriormente se citaba como property. [32]<br />OBSERVACIONES<br />La adopción del soporte de Microformatos y RDF por parte de Yahoo! y últimamente Google constituye el mejor incentivo para que los Websites implementen rápidamente las anotaciones Semánticas.<br />La presencia de elementos de marcado, no garantiza la presentación de Rich Snippets de su Web debido a que la naturaleza de las anotaciones que usa Google para generarlos esta orientada a Web con información referente a revisiones, redes sociales y en un futuro cercano se irá ampliando el espectro a otros tipos de sites.<br />La implementación de aplicaciones SearchMonkey presentará los resultados de búsqueda como más atractivos y útiles, pero no cambiará el rankeado algorítmico para su web.<br />La propuesta de Google para ofrecer sus rich Snippets es más sencilla al sólo requerir la inclusión de anotaciones semánticas en su site y difiere de Yahoo! SearchMonkey, pues, al ser un framework, implica un trabajo adicional, a tal punto que ofrece la funcionalidad tanto para publicadores de contenidos como desarrolladores de aplicaciones SM, así como un repositorio de Aplicaciones disponibles para cualquier usuario Yahoo!.<br />Las nuevas características del HTML5 vislumbran un gran cambio en la web, ya que acorde con su adopción por parte de los principales navegadores, permitirán que los contenidos estén mejor estructurados, siendo un paso más hacia la web semántica.<br />REFERENCES<br />[1] Microformatos Wiki [Consultado a 2 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/microformats<br />[2] Extensiones para Firefox [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/firefox-extensions<br />[3] RDFa vs Microformatos [Consultado a 9 de Noviembre 2009] [En línea] Disponible en: http://evan.prodromou.name/RDFa_vs_microformats<br />[4] Microformat [Consultado a 4 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Microformat<br />[5] Accessibility problems with Microformats SNEE [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.snee.com/bobdc.blog/2008/03/accessibility-problems-with-mi.html<br />[6] LAWLESS, Derek. An Introduction to Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://dereklawless.ie/articles/<br />[7] Discussion Moribund Microformats. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://microformats.org/wiki/exploratory-discussions#Moribund<br />[8] RDF [Consultado a 31 de Octubre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/Resource_Description_Framework<br />[9] Rdf in HTML [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml<br />[10] RDFa XHTML [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/xhtml-rdfa-primer/<br />[11] RDFa [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://en.wikipedia.org/wiki/RDFa<br />[12] RDFa Syntax [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/rdfa-syntax<br />[13] Google Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://knol.google.com/k/google-rich-snippets/google-rich-snippets/32la2chf8l79m/1#<br /> [14] Introducing Rich Snippets [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html<br />[15] hReview [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.microformats.org/wiki/hreview<br />[16] An Update on Snippets [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/10/help-us-make-web-better-update-on-rich.html<br />[17] Reviews [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=146645<br />[18] Rich Snippets Testing Tool [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/webmasters/tools/richsnippets<br />[19] Form Interested in Rich Snippets[Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/request.py?contact_type=rich_snippets_feedback<br />[20] Products [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=146750<br />[21] Person [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.google.com/support/webmasters/bin/answer.py?answer=146646<br />[22] Facebook Share and RDFa video [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://googlewebmastercentral.blogspot.com/2009/09/supporting-facebook-share-and-rdfa-for.html<br />[23] Yahoo embraces semantic Web [Consultado a 26 de Octubre 2009] [En línea] Disponible en: http://www.techcrunch.com/2008/03/13/yahoo-embraces-the-semantic-web-expect-the-web-to-organize-itself-in-a-hurry/<br />[24] SearchMonkey Guide [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/smguide/<br />[25] SearchMonkey Framework [Consultado a 22 de Octubre 2009] [En línea] Disponible en: http://developer.yahoo.com/searchmonkey/<br />[26] Gallery SearchMonkey [Consultado a 7 de Noviembre 2009] [En línea] Disponible en: http://gallery.search.yahoo.com/<br />[27] HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.w3.org/TR/html5/<br />[28] A preview of HTML5 [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://www.alistapart.com/articles/previewofhtml5/<br />[29] HTML5 guide [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://dev.w3.org/html5/html-author/<br />[30] Nuevos elementos HTML5 [Consultado a 05 de Noviembre 2009] [En línea] Disponible en: http://techlosofy.com/nuevos-elementos-en-html-5-la-quinta-version-del-lenguaje-de-la-web/<br />[31]TOMBERG Vladimir, LAANPERE Mart: RDFa versus Microformats: Exploring the Potential for Semantic Interoperability of Mash-up Personal Learning Environments [Consultado a 02 de Noviembre 2009] [En línea] Disponible en: http://ceur-ws.org/Vol-506/tomberg.pdf <br />[32] HTML5 Draft Standard – Microdata. [Consultado a 24 de Noviembre 2009] [En línea] Disponible en: http://www.whatwg.org/specs/web-apps/current-work/multipage/microdata.html#microdata<br />[33] CORLOSQUET Stéphane, CYGANIAK Richard, POLLERES Axel y DECKER Stefan: RDFa in Drupal: Bringing Cheese to the Web of Data. [Consultado a 24 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/short_3.pdf<br />[34] Van TOMME, Kristof .Semantic Web: an introduction. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/kvantomme/semantic-web-and-drupal-an-introduction <br />[35] Drupal RDF Project [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://drupal.org/project/rdf<br />[36] Grégoire Burel, Amparo E. Cano, Vitaveska Lanfranchi: Ozone Browser: Augmenting the Web with Semantic Overlays [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.semanticscripting.org/SFSW2009/challengesubmissions/submission1.pdf<br />[37] Ozone Browser [Consultado a 16 de Enero 2010] [En línea] Disponible en: http://www.slideshare.net/evhart/sparks-o3-browser-augmenting-the-web-with-semantic-overlays<br />[38] LACHICA Roy, Metadata Creation in Socio Semantic Tagging Systems. [Consultado a 13 de Enero 2010] [En línea] Disponible en: http://roy.lachica.no/docs/TMRA07-RoyLachica-Metadata-Creation-in-Socio-semantic-Tagging-Systems.pdf <br />