El Blog para Webmasters
Noticias en castellano sobre el rastreo e indexación de sitios web en el buscador Google
Site Clinic II. Página de inicio, títulos y contenido duplicado
jueves, 19 de noviembre de 2009
Bienvenidos a la segunda parte del Site Clinic. Esperamos que hayas disfrutado de la primera parte en la que
analizamos el sitio web argentino Fundación Huésped
. En esta ocasión hemos seleccionado a la organización gubernamental colombiana "
Computadores para Educar
". Efectuaremos un análisis similar al que ya se hizo en la primera parte.
Nuevamente esperamos que los temas discutidos en estos artículos sean útiles tanto para los webmasters que nos enviaron sus sitios web como para todos los lectores de este blog que deseen mejorar la rastreabilidad e indexación de sus páginas web por los distintos motores de búsqueda. En esta entrada discutiremos errores de DNS, las descripciones y los títulos, contenido duplicado y otros temas relacionados con este sitio web. Esperamos que lo disfrutes y recuerda que tus comentarios son siempre bienvenidos. ¡Así que manos a la obra!
Versión sin www
Una de las primeras pruebas que se deben hacer al analizar un sitio web es determinar si se puede acceder al sitio por la versión con www del dominio y por su versión sin www (por ejemplo si la versión sin www redirige a la versión con www). En el caso de Computadores para Educar, el primer problema que se observa es que la versión sin www del dominio computadoresparaeducar.gov.co no resuelve a ningún servidor. Es interesante porque parece que el registro de DNS que apunta a la dirección IP donde se encuentran los contenidos del sitio está asociado únicamente a la versión www. En esta imagen se puede ver el error que se obtiene al cargar la versión sin www en el navegador Chrome:
Por otra parte, a través de la utilidad
ping
podemos comprobar la conexión entre mi computador y el dominio que apunta al servidor que aloja el sitio que deseo revisar. Al colocar la línea de comandos "ping -c www.computadoresparaeducar.gov.co" obtenemos una respuesta, mientras que con la versión sin www se obtiene un error:
No todos los visitantes añadirán el prefijo www al nombre del dominio cuando lo colocan en el navegador. Además, tener distintos subdominios para distintos tipos de contenido puede ser útil.
Normalmente, el registro del dominio se hace directamente ante el NIC, en este caso el
NIC Colombiano
, pero las DNS se configuran normalmente con el servicio de hospedaje. Así que recomendamos comprobar que ambas versiones apuntan al servidor donde se encuentra alojado el contenido con el servicio de alojamiento que ofrece la configuración de las DNS. Es importante tener en cuenta que esto no va a afectar al rastreo o la indexación, sino que se trata más de una cuestión de usabilidad del sitio web.
Metaetiquetas de título de página y de descripción
La segunda prueba que realizamos sobre el sitio web fue determinar que tan descriptivos eran los títulos de las diferentes páginas, así como el contenido de las metaetiquetas "description". Como explicamos en el artículo "
Cambio del título y la descripción del sitio en los resultados de búsqueda
", normalmente preferimos mostrar las descripciones provenientes de las metaetiquetas para generar los snippets o fragmentos que aparecen en los resultados de búsqueda. Asimismo, un buen título ayuda a sus visitantes a entender rápidamente de qué se trata el contenido de cada página.
En este caso, observamos que algunos títulos son descriptivos, como la página de "Testimonios" que tiene un título muy útil: "Testimonios - PORTAL COMPUTADORES PARA EDUCAR". Sin embargo, al examinar otras páginas en los resultados de búsqueda, encontramos que hay varias páginas con el mismo título y algunas descripciones no son tan útiles, como por ejemplo: "Inicio Arrow CENTRO DE RECURSOS". La imagen a continuación es lo que se ve en este momento:
Y al revisar el código fuente de un par de páginas como las mencionadas anteriormente, nos dimos cuenta de que en ellas, tanto la etiqueta "title" como la metaetiqueta "description" son bastantes genéricas:
Recomendaríamos revisar las distintas páginas que componen el sitio para asegurarse de que cada página contiene un título y una descripción única y adecuada. Como hemos señalado antes, un título adecuado para cada página ayuda tanto a los motores de búsqueda como a los usuarios a entender de qué trata una página. También es útil asegurarse de que se combinan mayúsculas y minúsculas, ya que el uso exclusivo de mayúsculas dificulta la lectura. En la gran mayoría de sistemas de administración de contenidos (CMS) se pueden configurar estas funciones automáticamente.
Indexación del foro
Algo que nos llamó la atención en los resultados de búsqueda de Computadores para Educar fue que el sitio ofrece un foro y algunos recursos multimedia como archivos de audio y de vídeo. Un foro puede ser útil, ya que permite a sus visitantes interactuar con otros usuarios y discutir los contenidos que encuentran, así como tener respuestas a sus preguntas. Sin embargo, es necesario administrar estos foros y evitar que sean abusados por spammers. Una buena estrategia para determinar si este fenómeno ha ocurrido en el foro es efectuar una consulta en Google utilizando el operador site:, acompañado de alguna palabra "sospechosa".
Por ejemplo, utilicemos la abreviatura wow (World of Warcraft). Al efectuar la búsqueda [site:computadoresparaeducar.gov.co wow], aparecen unos resultados sospechosos:
Es probable que algunos usuarios falsos hayan abusado de este foro para colocar enlaces hacia sus sitios web. Me imagino que el webmaster se dio cuenta de este problema porque estos temas han sido eliminados y ya no se encuentran en el foro, pues aparece un mensaje que dice "El tema requerido no existe". Esto está muy bien, pero dado que estos temas ya no se encuentran disponibles es importante que el servidor devuelva un código de estado HTTP 404, para informar a los rastreadores de los motores que búsqueda que estas páginas ya no existen. Existen ciertas herramientas en línea, como
http://web-sniffer.net/
, que permiten comprobar qué respuesta devuelve el servidor ante una petición HTTP.
Al iniciar sesión en el foro, también hemos visto que está vacío y no hay temas disponibles en este momento. Es importante decidir si deseas mantener el foro o no. Si no deseas continuar teniendo un foro, recomendamos eliminar la instalación phpBB sin contenido. Si deseas mantenerlo, recomendamos crear contenido relevante, así como actualizar a la última versión disponible, para evitar posibles problemas de pirateo (y esto se puede aplicar a cualquier sistema de gestión de contenidos). En general, es importante
evitar los perfiles spam
.
Contenido duplicado, robots.txt y sitemaps
El siguiente paso en el análisis del sitio Computadores para Educar fue comprobar si existía contenido duplicado y si se le indicaba a los rastreadores qué partes del sitio deberían ser rastreadas o indexadas.
La utilización del operador [site:] es una de las formas de tener una indicación aproximada del volumen de páginas indexadas por los motores de búsqueda para un sitio determinado. En ese caso, efectuamos la búsqueda [site:computadoresparaeducar.gov.co]. Los resultados muestran que, en el caso del buscador Google, hay cientos de miles de documentos indexados. Sin embargo, desde la página principal, da la impresión que el sitio no contenía tantas páginas diferentes. Así que una de las preguntas que surgen es si el webmaster desea que alguna de las páginas no sea indexada.
Al hacer clic en algunos de los resultados, encontramos que daba un error "No está autorizado para ver este recurso. Necesita conectarse." Al hacer una búsqueda exacta con esta frase [site:computadoresparaeducar.gov.co "No está autorizado para ver este recurso"], se puede observar que hay
unas 42.000 páginas
de este tipo que no deberían ser indexadas, dado que el usuario se encuentra con un error cada vez que intenta acceder a estos recursos desde los resultados de búsqueda:
Una solución a este problema sería colocar una metaetiqueta "noindex" en cada una de estas páginas. Otro buen consejo es asegurarse de que este tipo de contenido devuelve un código de estado 403 cuando los usuarios o los robots acceden a estas páginas.
También es importante comprobar si este sitio dispone de un archivo robots.txt y cómo está configurado (si existe se debe hallar en la raíz del dominio). Al analizar el archivo robots.txt de Computadores para Educar encontramos:
User-Agent: *
Allow: /
Este archivo le dice a todos los rastreadores de todos los motores de búsqueda (*) que pueden rastrear e indexar TODO el contenido de este sitio web (/). Una buena recomendación sería modificar este archivo
robots.txt
y añadir un enlace al archivo sitemap "Sitemap: ".
Por otra parte, es conveniente
crear
un archivo
Sitemap
[inglés]
para informar a los rastreadores de las URL que se encuentran disponibles. El
protocolo Sitemap
[inglés]
permite especificar cierta información, como por ejemplo cuándo fueron actualizadas las URL, que tan frecuentemente cambian o la prioridad que deberían tener en relación al sitio completo.
Un punto final que nos gustaría destacar en esta sección es que hay algún problema con el calendario situado al final de la página de inicio. Debido a que el calendario está generado automáticamente y enlaza día a día y mes a mes en un
bucle infinito
, está generando muchas páginas que no deberían ser ni rastreadas ni indexadas. Si quieren conocer la magnitud del problema, recomendaría utilizar la búsqueda [site:computadoresparaeducar.gov.co inurl:date]. Encontraremos más de 180.000 páginas y la mayoría de ellas, vacías. Nuestra recomendación sería añadir el atributo HTML "nofollow" a los enlaces que salen del calendario, o como alternativa, añadir la metaetiqueta "noindex" a las páginas del calendario. Si ninguna de estas dos soluciones es conveniente, se podría añadir la siguiente línea al archivo robots.txt:
Disallow: /*&date=
Sitio en inglés 100% en Flash
Es útil ofrecer una versión en inglés del sitio para los visitantes que no comprenden la lengua española. Sin embargo, una de las diferencias que existen entre la versión original y la versión en inglés de este sitio web es que esta última versión fue desarrollada completamente en Flash. Si bien es cierto que Google ha mejorado la indexación de este tipo de sitios, en general es recomendable usar texto para los contenidos y usar Flash para animaciones y elementos gráficos. Por ejemplo, con el operador
"cache:"
, es posible observar la versión que Googlebot ha almacenado de esta página Flash. Como se puede ver, la versión de texto está desocupada.
La solución ideal sería traducir el mismo contenido de la versión española al inglés. Otra solución más rápida y efectiva para resolver este problema es utilizar la etiqueta <noembed>. Esta etiqueta permite especificar un contenido alternativo para los navegadores que no son capaces de interpretar objetos incrustados en las páginas. En este caso sería conveniente colocar en esta etiqueta el mismo contenido que se encuentra en Flash, pero en modo de texto.
No sé si ya conoces esto, pero nos gustaría recordar que Google ofrece la posibilidad de instalar un
widget para realizar traducciones automáticas en la misma página
. Esto puede ser una alternativa a la versión inglesa tan sólo en Flash. Puedes usar esta función para crear opciones multilingües.
Un par de consejos acerca de las imágenes
Para finalizar el Site Clinic de Computadores para Educar, quisiéramos hablar de las imágenes. Por ejemplo, las que se utilizan en páginas como:
http://www.computadoresparaeducar.gov.co/website/es/index.php?option=com_content&task=view&id=258&Itemid=1
El tamaño de las fotografías que se publican es de alrededor de 400 x 300 pixeles, pero su tamaño original es de casi 3000 x 2000 pixeles y de 1.5 megabytes. Dado que hay un par de fotos en esta página con este tamaño, si éstas estuvieran en la página principal, el navegador debería cargar más de 3 megabytes tan sólo parar mostrar estos dos elementos gráficos. Con un editor gráfico gratuito como GIMP [inglés] es posible reducir el tamaño en pixeles de la imagen al espacio que se desea que ocupe en la página y su tamaño en bytes se reducirá también (seguramente pesará menos de 100 kilobytes). Este consejo es útil para reducir ostensiblemente la latencia que experimentan sus visitantes en este tipo de páginas.
Un punto final acerca de las imágenes es que sería conveniente añadir contenido alternativo para los visitantes que utilizan lectores de texto
a través del atributo alt
. Este texto debería ser tan descriptivo como sea posible de acuerdo al contenido de la imagen.
Texto actual en alguna de las imágenes:
alt="Orlando Ayala en CPE"
Hasta aquí llega la segunda parte de nuestro proyecto Site Clinic. Nuevamente, quisiéramos recalcar que estas publicaciones no son un estudio detallado de todos los puntos relacionados con el sitio, sino una serie de recomendaciones generales que podrían ser útiles para muchos webmasters. Si deseas realizar alguna sugerencia, por favor dirígela a nuestro
foro
, o escríbela en nuestros comentarios.
Publicado por Juan Convers, equipo de Calidad de búsqueda.
Etiquetas
Academia para webmasters
4
accesibilidad
27
acciones
1
acciones manuales
4
ajax
1
alt
1
amp
10
analíticas de Google
1
angular universal
1
anomalias
1
api
2
api psi
1
api search analytics
2
articulos
2
artículos
1
asistente
1
avanzado
16
blog
2
Botón +1
7
búsqueda
2
busqueda de google
1
calidad
1
casos de exito
1
centro de ayuda
1
centro de datos
1
certificación
1
certificado
1
chrome
3
chromium
1
cobertura del índice
3
cocina
1
codelab
1
codigo fuente
1
colaboradores principales
1
comentarios
1
comunicación
23
comunidad
1
conexión cifrada
1
consejos
99
consola de firebase
1
contenido
1
contenido duplicado
1
criterios de posicionamiento
2
cuadro de busqueda
2
danny sullivan
1
data-nosnippet
1
datos agregados
1
datos de campo
1
datos de experimentos
1
datos estructurados
16
dcl
1
desarrolladores
2
devtools
1
diagnostico
1
directrices para webmasters
30
directrices tecnicas
1
discover
1
diseño adaptable
1
DOM Content Loaded
1
dominio
1
empleo
3
empresa local
1
enlaces
9
enlaces artificiales
1
enlaces fraudulentos
1
errores de marcado
1
evaluadores
1
event
1
eventbrite
1
evento global
1
eventos
23
experiencia de usuario
1
experto de producto
1
experto producto
1
expertos de producto
2
expertos producto
2
express.js
1
facturacion
1
faq
1
fcp
1
fechas
2
ficha de empresa
1
First Contentful Paint
1
flujo de validación de problemas
1
foro
26
foro de editores
1
fragmentos de texto
1
fragmentos destacados
1
github
1
google analytics
1
google cloud platform
1
google i/o
1
google imágenes
2
google news
1
google noticias
1
google play instant
1
guía inicio rápido
1
guia seo
1
herramientas para webmasters
123
home
1
horas
1
html
5
http
1
https
3
imagenes
1
indexacion
2
indexing
1
informe de recetas
1
informe de rendimiento
5
informe de transparencia
1
informe spam
1
inspección de url
4
iso 8601
1
javascript
1
jobposting
2
jobrapido
1
kitten corner
1
lighthouse
3
logotipo
2
max-image-preview
1
max-snippet
1
max-video-preview
1
metaetiqueta
1
mfi
1
middleware
1
móvil
21
moviles
1
navegación segura
2
no segura
1
no seguro
1
nosnippet
1
optimizar sitio web
1
oro
1
pagespeed
3
penguin
1
pki
1
plata
1
platino
1
politicas de contenido
1
prácticas recomendadas
2
preguntas y respuestas
1
producto
1
productos y servicios
40
prueba de optimizacion para moviles
1
rakuten
1
rastreo e indexación
100
recaptcha
1
receta
1
recetas
1
reconsideraciones
2
renderizado dinamico
1
Rendertron
1
rendimiento
12
reseña
1
resultados de búsqueda
94
resultados enriquecidos
2
robot
1
robot noindex
1
ruta de navegacion
1
safe browsing
1
Search Console
20
seguridad
13
servidor
1
site clinic
10
Site Reliability Engineering
1
sitemaps
14
sitios pirateados
1
software malicioso
1
software no deseado
1
spam
2
ssl
1
symantec
1
tarifas
1
titulares
1
tls
1
twitter
4
url
1
url canonica
1
url canonicas
1
url de referencia
1
usuarios destacados
1
velocidad
3
verificacion dns
1
vídeo
82
videos
1
web light
1
webmaster
2
webspam
3
youtube
1
zona horaria
1
Archivo del blog
2020
nov
sept
ago
jul
jun
may
abr
mar
feb
ene
2019
dic
nov
oct
sept
jun
abr
mar
feb
ene
2018
dic
nov
oct
jul
jun
may
abr
feb
ene
2017
dic
nov
sept
ago
jul
jun
abr
mar
ene
2016
nov
sept
ago
may
abr
mar
ene
2015
dic
nov
oct
sept
ago
jul
may
abr
mar
ene
2014
nov
oct
sept
ago
jun
may
abr
mar
feb
ene
2013
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2012
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2011
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2010
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2009
dic
nov
CSS versus tablas en SEO. Vídeos de Matt Cutts
Usos recomendados de Flash
Notificación de "nueva versión de software" para t...
Los enlaces en los blogroll. Vídeos de Matt Cutts
Accede directamente a la información que deseas de...
Gestiona tu reputación online en los resultados de...
Las marcas de agua digital: Ventajas e inconvenientes
Site Clinic II. Página de inicio, títulos y conten...
Traduce tu sitio web con Google y amplia tu audiencia
Mantente alejado de estafas
Nueva interfaz de palabras claves
Utilización de feeds de RSS/Atom para descubrir UR...
¡A ver dónde está ese malware!
Una actualización sobre los "Rich Snippets"
Propuesta para hacer AJAX rastreable
Verificación de blogs de Blogger en las Herramient...
Contenido duplicado y problemas de sitios múltiples
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2008
dic
nov
oct
sept
Feed
Follow @googlewmc
Recursos para webmasters
Foro para Webmasters
Centro de Asistencia
Google Search Console
Google Webmaster en castellano