El Blog para Webmasters de Google [ES] : Rastreo mediante formularios HTML

El Blog para Webmasters

Noticias en castellano sobre el rastreo e indexación de sitios web en el buscador Google

Rastreo mediante formularios HTML

martes, 12 de mayo de 2009

Huelga decir que este experimento sigue las buenas prácticas de "ciudadanía" de Internet. Sólo un pequeño número de sitios particularmente útil recibe este tratamiento, y nuestro agente de rastreo, el siempre amigable Googlebot [inglés], siempre se adhiere a las directivas robots.txt, nofollow y noindex. Esto significa que si un formulario de búsqueda está prohibido en robots.txt, no rastrearemos ninguna de las URL que se generarían con un formulario. Del mismo modo, sólo recuperamos formularios GET y evitamos los que requieren cualquier tipo de información del usuario. Por ejemplo, omitimos todos los formularios con contraseña o que utilizan términos comúnmente asociados con información personal como nombres de usuario, ID de usuario, contactos, etc. También somos conscientes de los efectos que esto puede tener en el sitio web y nos limitamos a un número muy pequeño para un sitio concreto.

No descubrimos páginas web con este rastreo mejorado a expensas de páginas web normales que ya forman parte del rastreo, así que este cambio no reduce el PageRank de tus otras páginas. Sólo debería aumentar la exposición de tu sitio web en Google. Este cambio tampoco afecta al rastreo, al posicionamiento o a la selección de otras páginas web de manera significativa.

Esto forma parte de un mayor esfuerzo por parte de Google para incrementar la cobertura de la web. De hecho, se creyó durante mucho tiempo que los formularios HTML eran la puerta de acceso a grandes volúmenes de datos más allá del alcance normal de los motores de búsqueda. Los términos web profunda (Deep Web), web oculta (Hidden Web) o web invisible (Invisible Web) [inglés] se han utilizado de forma colectiva para referirse a estos contenidos que hasta ahora habían sido invisibles para los usuarios de los motores de búsqueda. Mediante el rastreo con formularios HTML (y obedeciendo a robots.txt), somos capaces de llevar a los usuarios del motor de búsqueda a documentos que, de otro modo, no se encontrarían fácilmente y que proporcionan tanto a los webmasters como a los usuarios una mejor y más completa experiencia de búsqueda.

Publicado por Jayant Madhavan y Alon Halevy, Crawling and Indexing Team. Traducido por Cristina, equipo de Calidad de búsqueda.

Etiquetas: rastreo e indexación

Etiquetas

Archivo del blog

2020
- nov
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2019
- dic
- nov
- oct
- sept
- jun
- abr
- mar
- feb
- ene

2018
- dic
- nov
- oct
- jul
- jun
- may
- abr
- feb
- ene

2017
- dic
- nov
- sept
- ago
- jul
- jun
- abr
- mar
- ene

2016
- nov
- sept
- ago
- may
- abr
- mar
- ene

2015
- dic
- nov
- oct
- sept
- ago
- jul
- may
- abr
- mar
- ene

2014
- nov
- oct
- sept
- ago
- jun
- may
- abr
- mar
- feb
- ene

2013
- oct
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2012
- dic
- nov
- oct
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2011
- dic
- nov
- oct
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2010
- dic
- nov
- oct
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2009
- dic
- nov
- oct
- sept
- ago
- jul
- jun
- may
- abr
- mar
- feb
- ene

2008
- dic
- nov
- oct
- sept

Feed

Recursos para webmasters

Foro para Webmasters
Centro de Asistencia
Google Search Console
Google Webmaster en castellano

Google
Privacy
Terms