Nuestra misión consiste en organizar la información del mundo y hacer que resulte útil y accesible para todos los usuarios. En esta ambiciosa tarea, a veces nos encontramos con archivos que no son HTML, como archivos PDF, hojas de cálculo y presentaciones. Nuestros algoritmos no se detienen ante formatos de archivo diferentes; trabajamos duro para extraer el contenido relevante e indexarlo de forma adecuada para poder incluirlo en los resultados de búsqueda. Pero, si estos formatos de archivo suelen diferenciarse tanto de los archivos HTML estándar, ¿cómo indexamos realmente estos archivos y qué directrices aplicamos? ¿Y si un webmaster no quiere que los indexemos?
Google empezó a
indexar archivos PDF en 2001 [
inglés] y actualmente cuenta con
cientos de millones de archivos PDF indexados. Hemos recopilado las preguntas más frecuentes sobre la indexación de archivos PDF y estas son las respuestas:
P: ¿Google puede indexar cualquier tipo de archivo PDF?
R: Normalmente, podemos indexar contenido textual (escrito en cualquier idioma) de los archivos PDF que utilizan diferentes tipos de codificación de caracteres, siempre que no estén cifrados ni protegidos por contraseña. Si el texto está insertado en forma de imágenes, podemos procesar las imágenes con algoritmos
OCR [
inglés] para extraer el texto. La norma general es que si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, deberíamos ser capaces de indexarlo.
P: ¿Qué ocurre con las imágenes de los archivos PDF?
R: Actualmente, las imágenes no se indexan. Para que podamos indexarlas, deberías crear páginas HTML para las imágenes. Para aumentar las probabilidades de que podamos incluir tus imágenes en los resultados de búsqueda, consulta las sugerencias que te ofrecemos en el
Centro de asistencia.
P: ¿Cómo se tratan los enlaces incluidos en los documentos PDF?
R: Normalmente, los enlaces incluidos en los documentos PDF se tratan de forma similar a los enlaces que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo "
nofollow" en los enlaces de un documento PDF.
P: ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Y, si ya aparecen, ¿cómo puedo eliminarlos?
R: La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir una etiqueta X-Robots "noindex" en la cabecera HTTP utilizada para mostrar el archivo. Si ya se han indexado, dejarán de aparecer con el tiempo si utilizas la etiqueta X-Robots con la directiva "noindex". Para acelerar la eliminación, puedes utilizar la
herramienta de solicitud de eliminación de URL de las Herramientas para webmasters de Google.
P: ¿Pueden obtener los archivos PDF una buena clasificación en los resultados de búsqueda?
R: Por supuesto. Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Por ejemplo, en el momento de esta publicación, [
mortgage market review], [
irs form 2011] o [
paracetamol expert report] devuelven documentos PDF que obtienen una buena posición en los resultados de búsqueda gracias a su contenido y a la forma en la que están insertados y vinculados desde otras páginas web.
P: ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF?
R: Siempre que sea posible, te recomendamos que muestres una única copia de tu contenido. Si no es posible, asegúrate de indicar cuál es tu versión preferida. Para ello, puedes incluir la URL que prefieras en tu sitemap o especificar la versión canónica en el archivo HTML o en las
cabeceras HTTP del PDF. Para obtener más sugerencias, consulta el artículo del Centro de asistencia sobre
canonicalización.
P: ¿Cómo puedo influir en el título que aparece en los resultados de búsqueda de mi documento PDF?
R: Utilizamos dos elementos principales para determinar el título que mostramos: los metadatos del título que contiene el archivo y el texto de anclaje de los enlaces que dirigen al archivo PDF. Para que nuestros algoritmos capten claramente el título que deben utilizar, te recomendamos que actualices ambos elementos.
Si quieres obtener más información, ve el vídeo de Matt Cutts
sobre optimización de archivos PDF para búsquedas y visita la página del
Centro de asistencia para obtener información relacionada con los tipos de contenido que podemos indexar.
Si tienes comentarios o sugerencias, comunícanoslo a través del
Foro de ayuda para webmasters.
Publicado por
Gary Illyes, Webmaster Trends Analyst