Blogia

dokumenta - marketing on-line, SEO, usabilidad y recuperación de información

Quaero: Europa vs.Google

Al parecer el desafio europeo , impulsado por Francia y Alemania, a Google está dando sus primeros pasos. Algunos de los socios del proyecto son: France Télécom y Deutsche Telekom, el Instituto Nacional francés de Investigación Informática y Automática, y la Universidad de Karlsruhe. El grupo mediático alemán Bertelsmann está cerca de un acuerdo para convertirse en el líder alemán del proyecto.

Uno de los elementos de dicho proyecto contará con aplicaciones de transcripción, indexación y traducción automática de documentos audiovisuales.

Según se apunta en el artículo publicado el día 15 de enero en el País por Andrea Rizzi, se observa este nuevo buscador de iniciativa pública, como una defensa a la hegemonía cultural estadounidense: "defender la diversidad de culturas ante la amenaza de la uniformidad".

Aunque Google parece presentar pluralidad ideológica y cultural como lo refleja el que cuente con más de cien dominios diferentes, aunque google también sea reflejo de lo que está pasando en la red en general, la hegemonía anglosajona es latente. 

Japón también está trabajando en la creación de un portal de búsquedas nacional, auspiciado por compañías como Nec, Fujitsu y Matsushita, entre otras.

 

Google Base

Google Base

Gracias a Tony Ruscoe y su "buscador de subdominios" éste descubre: google base . Se describía como una gran base de datos en la que podía añadirse cualquier tipo de contenido, de forma que fuera fácilmente recuperable en línea de forma gratuita (pronto dejaría de estar disponible). Algunos de los ejemplos mostrados de los registros que podían ser incluidos: Descripción de próximos eventos de la web, ventas, descripción de la organización de una celebración ... A los items se les podría añadir atributos para ayudar a los usuarios a buscar en Google Base.

Se comentaba que  Google pretende añadir resultados de feeds (de 1 a 3) sobre los resultados de búsqueda y que éstos se mostraran de forma combinada con los resultados al ejecutar las búsqueda.

Google contestaba que el nuevo "test site" pretendía investigar en hacer más sencillo a los usuarios de Google el envío de contenido así como hacerlo fácilmente recuperable ...: "Like our Web crawl and the recently released Google Sitemaps program, we are working to provide content owners an easy way to give us access to their content. We're continually exploring new opportunities to expand our offerings, but we don't have anything to announce at this time."  Así que de momento no parece haber nada anunciado "oficialmente".

 

TRUST RANK

TRUST RANK

Desde hace algún tiempo se habla de una renovación del PageRank de Google que intentaría ser más eficaz contra el “spam”, se denominaría como Trust Rank.

El Trust Rank en lugar de valorar la importancia de un enlace en función del PageRank de la página citante, lo hace a partir de una serie de páginas web que han sido valoradas como relevantes. A estas páginas consideradas como importantes se las consideraría “web semilla” y a sus enlaces se les asignaría un valor.

Aún no parece claro si las “webs semillas” serán determinadas por algún tipo de algoritmo o si serán valoradas por evaluadores de webs. La “evaluación humana” parece, en principio, subjetiva, lenta y costosa. Quizás se mezclen ambos métodos ...

Montserrat Peñarroya, refleja el proceso con el siguiente ejemplo: “Supongamos que disponemos de una web semilla A. A transmitirá un valor de 100 Trust Rank a todas las webs a las que enlace. Estas páginas, a su vez, transmitirán un Trust Rank de 99 a todas las webs a las que enlacen. Y éstas últimas, transmitirán un Trust Rank de 98 a las que ellas enlace.”

Las webs consideradas spam transmitirán un Trust Rank negativo. Tampoco está claro como sería supervisada una web una vez conseguido un determinado nivel de Trust Rank...

Más en -->

http://dbpubs.stanford.edu:8090/pub/2004-17
http://www.alt64.com/noticia_alt64.php?id=33
http://www.spiderbait.com/seo-expert/2005/05/trust-worthy-sites-trust-rank.asp

Google Sitemaps

Google Sitemaps

Google Sitemaps tiene la misión de informar de una forma más eficiente a su robot para una mejor navegación de las páginas, en aspectos tales como el grado de actualización de las páginas, relavancia de las mismas respecto al resto del site ... También tiene el objetivo de aumentar su cobertura.
Se trata de un nuevo "experimento" de navegación que pretende aumentar el vol de págs y mejorar el tiempo de inclusión el el "index". Se trata la creación de un fichero estandarizado en el servidor (bajo licencia "Attribution-Share Alike Creative Commons".)
Para generar el fichero, Google ha creado un pequeño script en Python que debe ser ejecutado en nuestro servidor.
Supone un rastreo de las páginas acorde con los cambios que se producen en las mismas. Google resumen el proceso en 2 pasos:
1. Generar Sitemap en el formato adecuado
2. Actualizar el Sitemap cuando se producen cambios.

Google recomienda especialmente su utilización para: webs que requieren un mayor rastreo de sus páginas y para webs que requieren indicar el grado de actualización de sus páginas.
Su utilización es gratuita y no influencia sobre el PageRank.
Pretende enseñar a Google sobre la estructura de los sites produciendo una mejora en el trabajo de rastreo.
Utiliza el "Sitemap Protocol" en XML. Puede usuarse para la inclusión del Sitemap de forma automática el "Sitemap Generator script", también podría usarse una solicitud http (para su localización ): www.google.com/webmaster/sitemaps/ping?sitemap=http://wwww. (...)
Se pueden incluir en el Sitemap el listado de URLs o los hosts correspondientes a las mismas (para facilitar la tarea en casos de págs dinámicas).
Otros formatos que también soportaría son: OAI protocol for metadata harvesting, RSS 2.0, Atom 0.3
Aunque ser recomienda el formato XML (aporta más información) también puede incluirse simplemente un fichero de texto (UTF-8) que contenga una lista de URLs.
Por tanto, Google utiliza un esquema XML para definir los elementos y atributos que pueden aparecer el fichero Sitemap.

El "Sitemap Generator" puede crear sitemaps desde una lista de URLs, acceso logs, directorio de los host ... (requiere Phythom 2.2 o superior).
Así, la información principal que ofrece "XML Sitemap Format" es:
- Grado de actualización
- Últimas modificaciones
- Pesos de relevancia de las urls
A partir de los siguientes tags: changefreq, lastmod, loc, priority, url, urlset
Cada fichero sitemap no debe contener más de 50.000 urls y no pesar más de 10 MB.
Aumentará significativamente su volúmen de información? Será más rapido en la indexación de las págs si su navegación es más eficiente? Cómo afectará en el posicionamiento ? ..........
Más información:
Dirson: http://google.dirson.com/noticias.new/1374/
Google: https://www.google.com/webmasters/sitemaps/docs/en/about.html
N.Kennedy:
http://www.niallkennedy.com/blog/archives/2005/06/google_sitemaps.html

Diferentes resultados

Diferentes resultados

Algunas de las posibles herramientas, para seguir conociendo mejor el distinto comportamiento de los buscadores y ayudar al usario a seleccionar los que mejor se ajusten a sus necesidades, son:

-Yagoohoogle, comentado en el blog irsweb sobre Recuperción de Información, permite visualizar simultáneamente los resultado obtenidos para una misma búsqueda en Yahoo y Google.
-También comentado en esta bitácora encontramos la referencia de una recurso interesante que permite visualizar de forma rápida, debido a su formato gráfico, el comportamiento de dos grandes buscadores (Yahoo y Google) es: http://www.langreiter.com/exec/yahoo-vs-google.html (para los 100 primeros resultados).
-Jux2 que como bien comentan en Deakialli posibilita ver los resultados que se recuperan en los buscadores estudiados, resultados que no presenta el buscador seleccionado, etc ... Se trataría de un buscador que ofrece la posibilidad de ordenar los recursos según el número de coincidencias de resultados con los buscadores seleccionados. A partir de las búsquedas ejecutadas por los usuarios realizan estadísticas con el fin de reflejar las diferencias entre los mismos (aunque las estadísticas que ofrecen son escasas).
-Otros recurso interesante es Turbo10 (sobretodo las opciones "topic clusters", "edit my collection" y "engine filtering").

Clasificadores inductivos

Clasificadores inductivos

En el intento de averiguar en qué medida se tienen en cuenta diferentes factores (cabeceras, etiquetas meta, PageRank ...) Francisco José Soltero Domingo y Diego José Bodas Sagi, en su artículo "Clasificadores inductivos para el posicionamiento" proponen la utilización de clasificadores inductivos arbóreos.
Intentan acercarse a conocer la relación entre los distintos elementos que componen la página y el peso que cada uno de ellos aporta al posicionamiento final. Conocer la relación entre los atributos, el peso de los mismos, y su variabilidad en el tiempo son los factores que han de determinarse para conseguir algunos de los criterios seguidos por los buscadores en el posicionamiento.
Para su trabajo ejecutaron las búsquedas en Google. En su estudio utilizan dos técnicas: Clasificador LMT y Clasificador Random Forest
Algunas de las conclusiones obtenidas tras el experimento realizado utilizando árboles de decisión fueron: es muy importante que la palabra clave aparezca en negrita dentro del cuerpo del texto, muy relevante la primera cabecera, importancia de la frecuencia y peso de la clave en el título son factores muy importantes ...
Observan este estudio como una primera aproximación a la confección de una aplicación cuyo parámentro de entrada fuera un recurso web que diera como salida lo valores de aquellos factores que deben ser mejorados así como indicar los elementos que sólo aportan ruido.
Estudio publicado en: El profesional de la información Vol. 14 nº 1

Blog móvil

Blog móvil

Nokia ofrece una nueva herramienta para PC y para el teléfono móvil para la creación de contenidos multimedia. Esta herramienta permite la elaboración de una bitácora (Nokia Lifeblog 1.5).
Organiza fotos, vídeos, mensajes de texto y mensajes multimedia de forma cronológica permitiendo navegar, buscar, editar y guardar fácilmente contenido,organiza los elementos creados y recibidos, logrando la realización de un blog.
Los modelos compatibles con esta aplicación son: 7610, 6670 y 6630 y está disponible en 15 idiomas. En cuanto a los requisitos del sistema cabe destacar que no sirve para Linux debido a que Nokia solo ha lanzado su "Nokia Lifeblog" para el sistema operativo de Microsoft.
Un paso más para que nada escape a la memoria ...

El misterio Sandbox

El misterio Sandbox

El efecto Sandbox sigue siendo un misterio. Al parecer, páginas en principio optimizadas para un posicionamiento
adecuado se ven situadas en bajos puestos.

Este fenómeno parece afectar a recursos de nueva creación y solo para determinados términos de búsqueda (el número de
resultados sería uno de los elementos a tener en cuenta, es decir, la competitividad de los términos). Este posible nuevo factor de evaluación parece ser un elemento que facilitara a Google el confiar unas óptimas posiciones a los sitios web.

A partir de las Faqs de Xeoweb se observa como
otorgan la mayor responsabilidad de dicho efecto en los enlaces entrantes y la semántica de los mismos. También recalca
que afecta a webs para determinadas búsqueda (no afectando a todos los términos). Así, observan como algunos de los
elementos esenciales los siguientes: enlaces entrantes, contenidos y enlaces salientes (esta fórmula explicaría porqué
los blogs no se ven afectados por casi ninguna búsqueda) señalando más peso para los dos primeros elementos.

Benjamin Tolman propone en su teoría una
curva de referencia de evolución, en la que se relaciona la cantidad de enlaces entrantes ("backlinks") y el tiempo de
vigencia del web. Los sitios web se someterían a un coeficiente de progresión que mediría si su evolución es normal.

También se están realizando trabajos que pretenden desmentir la existencia del Sandbox, como es el experimento realizado para la web Arquys,
pero este estudio tampoco ha sido determinante. Algunas de las conclusiones que han obtenido son: El PR es el factor más
importante para clasificar la importancia de los resultados de una búsqueda pero no señala la posición de los mismos en
determinadas palabras claves; el tiempo de carga de la página es más importante para el usuario final(que afectará a su
popularidad, indicando una influencia indirecta) que para los robots; el sitio o no estaba afectado por el sandbox o el
sandbox no existe ...

En cuanto al tiempo que dura el efecto Olivier
Duffez
señala un tiempo estimado entre unas semanas y 6 meses. Dicho autor señala la dificultad de saber si se está
afectado por el Sandbox pero propone una herramienta que detecta los factores asociados a dicho efecto (""Sandbox Detection Tool"")

Mientras no sepamos con exactitud en que consiste dicho efecto seguiremos las diferentes iniciativas y teorías al
respecto.