El Blog para Webmasters
Noticias en castellano sobre el rastreo e indexación de sitios web en el buscador Google
Rastreo mediante formularios HTML
martes, 12 de mayo de 2009
Google prueba constantemente nuevas ideas para mejorar la cobertura que ofrecemos de la web. Exploramos JavaScript y Flash para descubrir enlaces a páginas nuevas, pero hoy nos gustaría hablar de otra tecnología con la que hemos experimentado.
Exploramos algunos formularios HTML para tratar de descubrir nuevas páginas web y URL que de otra manera no podríamos haber encontrado ni indexado para los usuarios que realizan búsquedas en Google. En concreto, cuando nos encontramos con un elemento en un sitio de calidad, podemos optar por hacer un pequeño número de consultas mediante el formulario. Para cuadros de texto, nuestras máquinas seleccionan automáticamente palabras del sitio que contiene el formulario. Para menús de selección, casillas de verificación y botones de opción en el formulario, se elige de entre los valores del HTML. Después de haber elegido los valores para cada entrada, generamos e intentamos rastrear las URL que correspondan a una posible consulta que un usuario podría hacer. Si comprobamos que la página web como resultado de nuestra consulta es válida e interesante, y con contenido que aún no está en nuestro índice, es posible que la incluyamos en nuestro índice de la misma manera que podríamos incluir cualquier otra página.
Huelga decir que este experimento sigue las buenas prácticas de "ciudadanía" de Internet. Sólo un pequeño número de sitios particularmente útil recibe este tratamiento, y nuestro agente de rastreo,
el siempre amigable Googlebot
[inglés]
, siempre se adhiere a las directivas robots.txt, nofollow y noindex. Esto significa que si un formulario de búsqueda está prohibido en robots.txt, no rastrearemos ninguna de las URL que se generarían con un formulario. Del mismo modo, sólo recuperamos formularios GET y evitamos los que requieren cualquier tipo de información del usuario. Por ejemplo, omitimos todos los formularios con contraseña o que utilizan términos comúnmente asociados con información personal como nombres de usuario, ID de usuario, contactos, etc. También somos conscientes de los efectos que esto puede tener en el sitio web y nos limitamos a un número muy pequeño para un sitio concreto.
No descubrimos páginas web con este rastreo mejorado a expensas de páginas web normales que ya forman parte del rastreo, así que este cambio no reduce el PageRank de tus otras páginas. Sólo debería aumentar la exposición de tu sitio web en Google. Este cambio tampoco afecta al rastreo, al posicionamiento o a la selección de otras páginas web de manera significativa.
Esto forma parte de un mayor esfuerzo por parte de Google para incrementar la cobertura de la web. De hecho, se creyó durante mucho tiempo que los formularios HTML eran la puerta de acceso a grandes volúmenes de datos más allá del alcance normal de los motores de búsqueda. Los términos web profunda (
Deep Web)
, web oculta (
Hidden Web
) o web invisible (
Invisible Web)
[inglés]
se han utilizado de forma colectiva para referirse a estos contenidos que hasta ahora habían sido invisibles para los usuarios de los motores de búsqueda. Mediante el rastreo con formularios HTML (y obedeciendo a robots.txt), somos capaces de llevar a los usuarios del motor de búsqueda a documentos que, de otro modo, no se encontrarían fácilmente y que proporcionan tanto a los webmasters como a los usuarios una mejor y más completa experiencia de búsqueda.
Publicado por Jayant Madhavan y Alon Halevy, Crawling and Indexing Team. Traducido por Cristina, equipo de Calidad de búsqueda.
Etiquetas
Academia para webmasters
4
accesibilidad
27
acciones
1
acciones manuales
4
ajax
1
alt
1
amp
10
analíticas de Google
1
angular universal
1
anomalias
1
api
2
api psi
1
api search analytics
2
articulos
2
artículos
1
asistente
1
avanzado
16
blog
2
Botón +1
7
búsqueda
2
busqueda de google
1
calidad
1
casos de exito
1
centro de ayuda
1
centro de datos
1
certificación
1
certificado
1
chrome
3
chromium
1
cobertura del índice
3
cocina
1
codelab
1
codigo fuente
1
colaboradores principales
1
comentarios
1
comunicación
23
comunidad
1
conexión cifrada
1
consejos
99
consola de firebase
1
contenido
1
contenido duplicado
1
criterios de posicionamiento
2
cuadro de busqueda
2
danny sullivan
1
data-nosnippet
1
datos agregados
1
datos de campo
1
datos de experimentos
1
datos estructurados
16
dcl
1
desarrolladores
2
devtools
1
diagnostico
1
directrices para webmasters
30
directrices tecnicas
1
discover
1
diseño adaptable
1
DOM Content Loaded
1
dominio
1
empleo
3
empresa local
1
enlaces
9
enlaces artificiales
1
enlaces fraudulentos
1
errores de marcado
1
evaluadores
1
event
1
eventbrite
1
evento global
1
eventos
23
experiencia de usuario
1
experto de producto
1
experto producto
1
expertos de producto
2
expertos producto
2
express.js
1
facturacion
1
faq
1
fcp
1
fechas
2
ficha de empresa
1
First Contentful Paint
1
flujo de validación de problemas
1
foro
26
foro de editores
1
fragmentos de texto
1
fragmentos destacados
1
github
1
google analytics
1
google cloud platform
1
google i/o
1
google imágenes
2
google news
1
google noticias
1
google play instant
1
guía inicio rápido
1
guia seo
1
herramientas para webmasters
123
home
1
horas
1
html
5
http
1
https
3
imagenes
1
indexacion
2
indexing
1
informe de recetas
1
informe de rendimiento
5
informe de transparencia
1
informe spam
1
inspección de url
4
iso 8601
1
javascript
1
jobposting
2
jobrapido
1
kitten corner
1
lighthouse
3
logotipo
2
max-image-preview
1
max-snippet
1
max-video-preview
1
metaetiqueta
1
mfi
1
middleware
1
móvil
21
moviles
1
navegación segura
2
no segura
1
no seguro
1
nosnippet
1
optimizar sitio web
1
oro
1
pagespeed
3
penguin
1
pki
1
plata
1
platino
1
politicas de contenido
1
prácticas recomendadas
2
preguntas y respuestas
1
producto
1
productos y servicios
40
prueba de optimizacion para moviles
1
rakuten
1
rastreo e indexación
100
recaptcha
1
receta
1
recetas
1
reconsideraciones
2
renderizado dinamico
1
Rendertron
1
rendimiento
12
reseña
1
resultados de búsqueda
94
resultados enriquecidos
2
robot
1
robot noindex
1
ruta de navegacion
1
safe browsing
1
Search Console
20
seguridad
13
servidor
1
site clinic
10
Site Reliability Engineering
1
sitemaps
14
sitios pirateados
1
software malicioso
1
software no deseado
1
spam
2
ssl
1
symantec
1
tarifas
1
titulares
1
tls
1
twitter
4
url
1
url canonica
1
url canonicas
1
url de referencia
1
usuarios destacados
1
velocidad
3
verificacion dns
1
vídeo
82
videos
1
web light
1
webmaster
2
webspam
3
youtube
1
zona horaria
1
Archivo del blog
2020
nov
sept
ago
jul
jun
may
abr
mar
feb
ene
2019
dic
nov
oct
sept
jun
abr
mar
feb
ene
2018
dic
nov
oct
jul
jun
may
abr
feb
ene
2017
dic
nov
sept
ago
jul
jun
abr
mar
ene
2016
nov
sept
ago
may
abr
mar
ene
2015
dic
nov
oct
sept
ago
jul
may
abr
mar
ene
2014
nov
oct
sept
ago
jun
may
abr
mar
feb
ene
2013
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2012
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2011
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2010
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2009
dic
nov
oct
sept
ago
jul
jun
may
Mitos y realidades sobre el motor de búsqueda de G...
¿Cuántos enlaces por página?
Blog oficial de las herramientas de medición de Go...
Descripciones y los "Rich Snippets"
Google Trends para tu sitio web
Google y SMX Madrid 2009
Google Friend Connect: otras formas de crear comun...
Rediseño en las WMT
Rastreo mediante formularios HTML
Foro de ayuda para webmasters en más idiomas
Consejos para la solicitud de reconsideración
Estudio de investigación sobre sitemaps
abr
mar
feb
ene
2008
dic
nov
oct
sept
Feed
Follow @googlewmc
Recursos para webmasters
Foro para Webmasters
Centro de Asistencia
Google Search Console
Google Webmaster en castellano