Los ficheros sitemap.xml contienen un esquema con todo el contenido de un sitio web. Mediante este fichero se le presenta a los rastreadores una “lista” de todas las páginas que queremos que sean indexadas, incluyendo no sólo el enlace a la página, sino también aportando alguna información extra.
Los sitemaps son ficheros que contienen etiquetas XML y que deben tener codificación UTF-8. Todas la url que se muestren en él deben pertenecer a un único host. A continuación mostramos un ejemplo de como sería el sitemap.xml
de nuestro dominio:
http://www.developando.com/
2012-04-24
monthly
0.8
http://www.developando.com/categoria?post=1
weekly
Etiquetas xml utilizadas para definir sitemaps
Para la generación de estos ficheros se pueden utilizar las siguientes etiquetas XML:
- urlset: campo requerido, es la etiqueta raíz del fichero y contiene al resto de elementos.
- url: campo requerido que añade un nuevo enlace al sitio. El resto de etiquetas se utilizarán dentro de elementos de este tipo
- loc: campo requerido que indica la URL de la página. Deberá empezar indicándose el protocolo y termina con una ‘/’ en caso de que el servidor lo necesite.
- lastmod: este un campo opcional que indica cuando se fue modificada por última vez una página. La fecha se deba añadir utilizando el patrón ‘AAAA-MM-DD‘
- changefreq: campo opcional que indica la frecuencia con la que se suele cambiar una página. Los valores soportados son: always, hourly, daily, weekly, monthly, yearly o never.
- priority: campo opcional que sirve para indicar la importancia de una página respecto a las demás URLs. El posible rango de valores va desde 0.0 a 1.0. Este número única indica al rastreador que páginas consideras que son más relevantes de tu sitio web. No afectará a la posición en la que aparecerá posteriormente en los resultados de búsqueda de los navegadores.
CODIFICACIÓN Y CARACTERES DE ESCAPE
Como se indicaba anteriormente, el fichero debe tener una codificación UTF-8. A la hora de añadir nuevos elementos al fichero hay que tener en cuenta que es necesira escapar una serie de caracteres de entidad al igual que ocurre en los ficheros XML.
UBICACIÓN DE LOS SITEMAPS
La ubicación de estos ficheros dentro del servidor va a determinar los grupos de URLs que se pueden incluir en ellos.
Por ejemplo, si tenemos un sitemap.xml en ‘http://www.midominio.com/ejemplo/test/sitemap.xml‘ se tendría que tener en cuenta que:
- Se podrán incluir URLs que empiecen por ‘http://www.midominio.com/ejemplo/test/‘ que es donde está ubicado el fichero sitemap.xml
- NO se podrán incluir URLs que empiecen por ejemplo por ‘http://www.midominio.com/ejemplo2/‘ ya que no es el definido para el sitemap
- Todas las URLs que se incluyan deben tener el mismo protocolo: http, https… Siguiendo con ejemplo anterior, no se podría incluir una URL que empezase por ‘https://www.midominio.com/ejemplo/test/‘ ya que el protocolo ‘https’ no es el asociado al fichero sitemap.xml
AGRUPAR VARIOS SITEMAPS, ARCHIVOS DE INDICE DE SITEMAPS
Se puede configurar un archivo de índice de sitemaps que se encargue de registar la ubicación de diferentes sitemaps dentro de un servidor. Esto es útil por ejempolo para solventar las restricciones de tamaño que exiten. Si por ejemplo tenemos que meter más de 50.000URLs, en un sólo sitemap no podríamos ya que está limitado el número máximo. Por eso, si se utilizan dos sitemaps resolveríamos este problema.
Un fichero de índice se Sitemap sólo podrá especificar la ubicación de otros sitemap que se encuentren en su misma ubicación, y al igual que los sitempas deberá también estar codificado en UTF-8. Ejemplo de un índice de sitemaps en el que se incluye la ubicación de dos:
http://www.midominio.com/sitemap1.xml
2013-01-02
http://www.midominio.com/ejemplo/sitemap2.xml
2013-04-11
INFORMAR A LOS RASTREADORES
Tras crear un sitemap y colocarlo en el servidor es necesario informar a los motores de búsqueda acerca de su ubicación. Para esto existen 3 mecanismos que explicaremos a continuación:
1- Enviar el sitemap mediante la interfaz del motor de búsquedas
Cada motor de búsqueda tiene su mecanismo de envío, será necesario consultar la documentación de cada uno para saber como se debe envíar. En el caso de Google, habría que darse de alta en la herramienta Google Webmasters Tools y a través de ella indicar los ficheros.
2 – MEDIANTE ROBOT.TXT
Añadir una línea al fichero ‘robot.txt’ con la ubicación de los ficheros de sitemap, se pueden incluir varias líneas en un mismo fichero:
Sitemap: http://www.midominio.com/ejemplo/sitemap.xml
3 – ENVÍO MEDIANTE UNA PETICIÓN HTTP
Si el fichero sitemap está en http://www.midominio/sitemap.xml habría que realizar una petición a:
/ping?sitemap=http://www.midominio.com/sitemap.xml
Si seguimos este tutorial habremos conseguido que los buscadores indexen nuestro contenido. Recordar también que si se quiere indicar alguna URL para que no sea rastreada se deberá hacer con el fichero ‘robot.txt’. Puede consultar más información en el siguiente enlace, formato XML de los Sitempaps.
También os dejamos un enlace a una herramienta para crear y validar los Sitemaps.
Deja tu comentario