Copio y Pego de Ojobuscador
Buscando entre contenidos que son accesibles via formularios web
Inventado por Alon Y. Halevy, Jayant Madhavan, y David H. Ko
US Patent Application 20060230033
Publicado el 12 de Octubre de 2006
Entregado el 5 de Abril de 2006
Resumen
El presente invento provee de un sistema, que facilita la búsqueda en contenido que es accesible via formularios web. Durante este proceso, el sistema recibe una búsqueda conteniendo palabras claves. Seguidamente, el sistema analiza la búsqueda para crear un una búsqueda estructurada. El sistema luego ejecuta una búsqueda basandose en la búsqueda estructurada en una base de datos que contiene entradas, que describen los formularios. A continuación, el sistema ordena los formularios y utliza los rankings y las entradas de la base de datos asociada, para facilitar la búsqueda en el contenido que es accesible via formularios.
Mi impulso para leer la patente, fue considerar que razones existen para que muchos sitios oculten información, para la cual se necesita acceso con clave, y fui tan lejos que me he preguntado si Googlebot podría registrarse en esos sitios con el nombre de Goglebot; preguntas que surgieron de este extracto:
Los buscadores traducionales no tienen la capacidad de buscar entre datos que estan ocultos tras formularios web. Como consecuencia, un gran tamaño de datos posiblemente no pueda ser accedido por los buscadores tradicionales.
Lo que se necesita es un método y un aparato que facilite la búsqueda eficiente en información que está oculta trás formularios web.
Descripción general
Algunas de las cosas que he observado de la patente:
1. Cómo se encuentran los formularios que pueden ser indexados, incluyendo How forms are found on the web that can be indexed, incluyend crawling, submisión manual y otros métodos posibles.
2. Qué tipo de información es coleccionada e indexada sobre las páginas en las que se encuentra formularios.
3. Cómo se colecta información sobre el contenido de los formularios, incluyendo cuando se usa declaraciones “get”; y completando formualrios para extraer luego la información que resulta de esos formularios.
4. Recolección de meta-datos sobre la fuente del formulario, tales como el tipo de fuente, la “ubicación geográfica más relevante a la fuente” y quizá un pagerank para la fuente.
5. Recolección de meta-datos sobre el formulario mismo, como el tipo de formulario, ubicación geográfica más relevante de los objetos recuperados, campos, que campos requieren ser rellenados obligatoriamente, y posiblemente un mapeo entre los campos y clases de propiedades asociacos a esos campos.
6. Cómo rankear un formulario, incluyendo:
-aproximando un valor de page-rank basado en los enlaces entrantes de la página del formulario,
-valores de las palabras claves, basados en la relevancia del texto de la página
-un valor ontológico, basado en la relevancia de la clase ontológica de la búsqueda, para una búsqueda asociada con la página,
-un valor para el formulario, basado en la habilidad del formulario para responder a una búsqueda, y/o;
-un valor para la ubicación, basado en la distancia entre la ubicación más relevante para la página asociada con el formulario, desde ubicaciones identificadas en la búsqueda.
Tipos de información recolectadas sobre los formularios
1. Campos en el formulario-para cada uno de los campos:
- el nombre del parámetro (usado para llamar algunos server-side scripts)
- el texto visible del campo que puede ser leido por el humano
- tipos de campos (text, select box, radio button, o checkbox), y;
- valores ejemplares del campo (ejemplo, opciones en un select box)
2. El tipo de formularo-Los tipos de objetos que se obtienen al completar el formulario, como libros, hoteles, restaurantes. Una fuente puede tener varios formularios, que pueden relacionarse con deferentes clases de objetos. Por ekemplo, los diarios a veces tienen formularios para mirar casas, trabajos y autos en venta.
3. Ubicación geográfica: la ubicación geográfica especifica de los objetos recupersdos utilizando el formulario. Un hote, l por ejemplo, puede estar asociado a una dirección.
4. Campos obligatorios: qué campos son obligatorios para submitir el formulario. Puede exisitir más de una combinación.
5. Los tipos de informaciones obtenidos luego de completar el formulario exitosamente. Son descriptos como “Search Ontology” (búsqueda ontológica).
6. Schema mapping: el mapeto entre campos de un formulario y la búsqueda ontológica. Por ejemplo, un campo podría requerir el código postal, o la ciudad o estado.
7. Palabras clave adicionales: pueden ser palabras adicionales que describem el formulario.
Conclusión
Hay un núnmero de estrategias usadas en este documento para entregarle resultados a un usuario que busca en una gran base de datos. En general, estas estrategias intentan entender la fuente de la información, los formularios utilizados y cómo funcionan, información asociada con cada campo de cada formulario, contenido que puede ser recuperado ejecutando los formularios, cómo rankear la información que devuelve el formulario, y la ubicación asociada con la información, de ser necesario.
Si tienes interés en como se puede indexar la “web invisible”, esta patente muestra algunas estrategias para lograr ese objetivo. El coinventor, Dr. Halevy, describe en un paper que ha escrito llamado “Why Your Data Won’t Mix”, algunos de los problemas que impiden indexar tal variedad de información, organizada en diferentes maneras, basadas en reglas de negocio que no anticipan la necesidad de indexar de los buscadores.
En dicho documento, describe algunas de las estrategias implementadas para crear exitosamente www.everyclassified.com, que agrega contenido de miles de fuentes diferentes y de más de 5 mil mapeos semánticos de formularios web, en categorias comúnes de anuncios clasificados. Su empresa, Transformic Inc., que fue adquirida por Google probablemente en Septiembre de 2005, fue la creadora de everyclassified.com.
Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Diving into Indexing the Deep Web
Todo lo que desconozco y encuentro. Todo lo que me parece curioso. Todo lo que por algún motivo me llama la atención. Todo o casi todo lo relacionado con la Vigilancia Tecnológica y la Inteligencia Competitiva.
viernes, octubre 20, 2006
jueves, octubre 19, 2006
Seminario: Vixiancia tecnolóxica - Intelixencia competitiva
Introducción á vixiancia tecnolóxica / intelixencia competitiva
23 de octubre - Lunes
16:15.- Presentación.
16:30.- Introducción á Vixiancia Tecnolóxica/Intelixencia Competitiva.
17:15.- Casos prácticos:
• O caso dos biomateriais.
• Identificación de oportunidades de negocio na acuicultura chilena.
• Identificación de oportunidades tecnolóxicas nos sectores do calzado, textil e xoguetesplástico.
18:15.- Pausa-café.
18:30.- Casos prácticos:
• Sistema aberto de vixiancia tecnolóxia para pymes
• Identificación de tendencias en I+D no sector eléctrico
• Monitorización de información relevante para o negocio en boletíns oficiais.
19:30.- Introducción ás tecnoloxías de aplicación no ámbito da Vixiancia
Tecnolóxica e de Mercado.
19:45.- Demostracións:
• Mathéo Analyzer
• Solucións de indexación e búsqueda
• Solucións de extracción e estructuración de información.
Imparten: Denodo Technologies e Iale
23 de octubre - Lunes
16:15.- Presentación.
16:30.- Introducción á Vixiancia Tecnolóxica/Intelixencia Competitiva.
17:15.- Casos prácticos:
• O caso dos biomateriais.
• Identificación de oportunidades de negocio na acuicultura chilena.
• Identificación de oportunidades tecnolóxicas nos sectores do calzado, textil e xoguetesplástico.
18:15.- Pausa-café.
18:30.- Casos prácticos:
• Sistema aberto de vixiancia tecnolóxia para pymes
• Identificación de tendencias en I+D no sector eléctrico
• Monitorización de información relevante para o negocio en boletíns oficiais.
19:30.- Introducción ás tecnoloxías de aplicación no ámbito da Vixiancia
Tecnolóxica e de Mercado.
19:45.- Demostracións:
• Mathéo Analyzer
• Solucións de indexación e búsqueda
• Solucións de extracción e estructuración de información.
Imparten: Denodo Technologies e Iale
miércoles, octubre 18, 2006
La libreria de mis sueños
Despues de esto ya nada volverá a ser igual. Si es que somos unos aficionadillos.
Un amiga que anda por el cono sur (Chile, Argentina...) me envia estas dos fotos de una libreria en Buenos Aires. Mas bien diria yo "LA LIBRERIA"....
El Ateneo, Buenos Aires
Un amiga que anda por el cono sur (Chile, Argentina...) me envia estas dos fotos de una libreria en Buenos Aires. Mas bien diria yo "LA LIBRERIA"....
El Ateneo, Buenos Aires
martes, octubre 17, 2006
Blogrolls sobre PI
* BLOG@IP::JUR -- Patent Attorney Axel H Horns' Blog on Intellectual Property Law (Blog de un agente de patentes europeo sobre derecho de propiedad industrial e intelectual)
* Patently-O -- Patent law blog (Patently-O: Blog sobre derecho de patentes de un abogado estadounidense especializado en esta materia)
* The Invent Blog: Stephen M. Nipper´s Patent Blog
* IP Blog News, Notes and Opinions on Intellectual Property Policy from a Market-Oriented Perspective
*Werblog
* Patently-O -- Patent law blog (Patently-O: Blog sobre derecho de patentes de un abogado estadounidense especializado en esta materia)
* The Invent Blog: Stephen M. Nipper´s Patent Blog
* IP Blog News, Notes and Opinions on Intellectual Property Policy from a Market-Oriented Perspective
*Werblog
Como redactar una patente
La verdad es que no hay mucha información sobre el tema asi que os dejo este enlace por si os interesa:
Thinking about writing a patent application?
Comentar tambien que la Oficina de Patentes Inglesa ha cambiado la Web. Es más rápida y de más facil acceso que la anterior....
The UK Patent Office
Thinking about writing a patent application?
Comentar tambien que la Oficina de Patentes Inglesa ha cambiado la Web. Es más rápida y de más facil acceso que la anterior....
The UK Patent Office
Suscribirse a:
Entradas (Atom)
¿Renacimiento del contenido propio?
Llevo ya un tiempo reflexionando sobre los contenidos propios frente a contendios creados a traves de IA. Los blogs tuvieron su máxima expre...
-
Siento escribir estas palabras en un "blog" supuesta profesional pero no puedo contenerlas en mi cabeza. Porque de alguna forma te...
-
via Kirai.NET Me entero que el día 20 se cumplen 10 años de la muerte de Carl Sagan. Para mi Cosmos (la serie) es algo que me recuerda a mi...
-
Se apaga un país. Se apaga un continente. Se apaga el mundo. Toda esta sensación de irrealidad. Esta sensación extraña. De no poder abrazar,...