La evolución de la innovación. Una historia visual de los registros de patente en las últimas décadas

From Medialab Prado

Jump to: navigation, search


Contents

Descripción del proyecto / Description of the project

El objetivo principal del proyecto es facilitar la exploración y comprensión del proceso de desarrollo científico y técnico en el mundo durante las últimas décadas.

Usamos para ello un cuerpo de datos detallado, accesible y homogéneo: los regisros de patente en los Estados Unidos, que documentan un aspecto fundamental de la innovación tecnológica, no sólo en ese país sino en todo el mundo.

Utilizamos análisis de texto y relaciones de cita entre patentes para identificar tendencias y relaciones de influencia según campos tecnológicos y períodos. Estos análisis han tomado cuerpo en varias visualizaciones interactivas que permiten la exploración dinámica de rasgos salientes y regularidades de gran escala en este cuerpo de datos gigantesco y difícil de abordar.


En este taller hemos desarrollado tres visualizaciones:


Registrations Chart:


Image:Registrations_Chart.jpg


Es una gráfica de tipo "streamgraph" que muestra la cantidad total de registros de patente a través del tiempo.

egables de la parte superior los criterios de filtrado:

- Por fecha: Fecha de aplicación o fecha de otorgamiento. La fecha de aplicación corresponde al momento en que el inventor solicita la patente. La fecha de otorgamiento depende del proceso burocrático de aprobación que puede llevar dos o más años.

- Por segmento: Categoría y subcategoría tecnológica, país o estado de los Estados Unidos.

Al pasar el puntero del ratón sobre cualquier intersección de año y segmento, se puede ver el número exacto de registro de patente que corresponde. Un click recupera una lista de las diez patentes más relevantes (más citadas) para ese segmento y año en particular.


Citations network:

Image:Citations_network.jpg


Es un grafo dinámico que visualiza las citas entre patentes, siempre a partir de una en particular. Cada patente aparece como un círculo, cuyo tamaño es proporcional a la cantidad de citas que recibe. Las citas están representadas con líneas curvas. La ubicación de la patente en el eje horizontal representa su fecha de otorgamiento, y en el eje vertical depende de la categoría tecnológica a la que pertenece.

Un click del ratón en cualquiera de las patentes la pone en foco y recupera la red de citas que le corresponde.


Keyword map:

Image:Keyword_Map.jpg


Es un mapa conceptual de las palabras más usadas en los títulos y resúmenes de todo el cuerpo de patentes analizado. El tamaño de las palabras ene l mapa es proporcional a la cantidad de veces que aparece, y la ubicación es el resultado de relaciones de cercanía relativa entre ellas, calculada a partir de la cantidad de patentes en las que cada par de palabras aparecen juntas.



Preguntas iniciales / First day questionary

1. Describe the goal of the project in 3 sentences (which message do you want to carry? to whom?)

Nos propondremos construir una herramienta para facilitar la exploración y comprensión del proceso de desarrollo científico y técnico en el mundo durante las últimas décadas.

Trabajaremos sobre los registros de patente en los Estados Unidos, que constituyen un cuerpo de datos abundante y homogéneo que documenta un aspecto fundamental de la innovación tecnológica, no sólo en ese país, sino en todo el mundo. Como éste es un campo que ha sido bastante estudiado, podremos basar nuestra tarea en estudios metodológicos y bases de datos ya existentes.

La idea es poner en juego herramientas de análisis de texto y relaciones de cita entre patentes para identificar tendencias a través del tiempo, filiaciones de los inventos y relaciones de influencia. A partir de eso, desarrollaremos una o más visualizaciones interactivas que permitan a los usuarios navegar la historia reciente de los inventos de manera fluida y dinámica, poniendo de relieve los rasgos salientes y regularidades a gran escala de este cuerpo de datos enorme y difícil de abordar.


The main goal is to develop a dynamic exploration tool for the patent registration data of the last few decades and make it available on the Web.

This tool should fullfill two main objectives: (a) offering a broad historic view of the recent technological evolution process that brings to the surface the change of trends and subjects on time and/or the most relevant inventions, and (b) allow the exploration and discovery of these same trends and inventions on a finer tematic, chronological or relevance scale.

The target audience would be anyone interested in the process of scientific and technological evolution and the 'flow of knowledge' in modern industrial society.


2. What are the inspiring projects and theories; background, context, references

We are thinking of

Streamgraphs

Network visualizations

Network exploration tools

Text analysis tools


Patent registrations are a subject with historic and economic interest. As such, there is already a methodological and theoretical body of work around it. Especiall interesting are two documents:


3. What is the short-term objective (what do you expect to finish in 2 weeks)?

One or more working visualizations, comprised of a PHP/MySQL backend and a Processing or ActionScript front end.

They might be working on just a sample subset of the data and have pending design or functionality details, but we expect them to be a full implementation of the interaction dynamic that has been decided.


4. What is the long term objective (what posterior development do you think of)?

  • Plug in the full available data set
  • Bring up to date the citations and full text databases
  • Optimally, deploy an automatic data actualization process from the files published every week by the US Patent Office
  • Finish design and functionality details
  • Wrap the application in a site with relevant information about it and publish/publicize it on the Web
  • Work on further ideas and possibilities that have been considered but not implemented in the course of the workshop


5. What are the data (status, where do they come from, who specifically owns the data?)

The original source for the data set is the US Patents and Trademarks Office: http://uspto.gov

However, we will work on two databases available elsewhere:

We might link to (but not draw data from) the Google Patent search engine at http://google.com/patent, as a way to give the user access to the full patent data, including illustrations, when she wants to see a particular case.


6. How will you convert data into some perceptual experience

A previous data mining will bring to the surface broad trends and relevance rankings in what is otherwise a huge, complex and difficult to tackle data body. Number of incoming citations, citation 'genealogy', word frequency and proximity are some of the strategies that will allow us to extract meaning and hierarchy from the data pool.

The challange will be to find an effective, accessible and engaging visual expression and interaction dynamics to convey this large-scale structures to the user.

See #Objectives and #Ideas


7. Do you have any assumptions or previous hypothesis?

No. This is not a thesis work that aims to verify or make evident some idea about the world. Is a purely explorative tool that aims to give everyone access to a data body that is potentially interesting but currently inaccesible for anyone who is not a specialized professional.


Desarrollo / Development process

Initial objectives list

This is a tentative list of things the visualization(s) could do or insights they could offer into the data:


WORD-CENTERED

  • Show the most frequent (relevant?) words at each moment in time (in a timeline / timespace) This could be: simple word count per week or month, or something more elaborated, like: words in patents that get many citations get a higher "relevance score" words are not associated to the date of the original patent, but to the date of the citing patent (or play with the gap between the two)
  • Show relative word closeness by analyzing word proximity in full text This could be either 'physical' proximity (10 or 20 word range) or just 'being in the same patent' The point of this would be to display a dynamic 'word map', as opposed to a 'word cloud': not just a bunch of words together, but a space where word location is a result of semantic links.


PATENT-CENTERED

  • Show patent relevance as a function of incoming link count Pay attention to the problems and quirks of this method Display most important patents at each moment in time -> Sort of an "invention gallery" Perhaps, allow digging deeper: click on a patent, see linked patents, also sorted by relevance Star field / constellation with most important = brighter / larger
  • Show patent closeness as a function of linkage Parents of the same patent would become closer
  • Show patent closeness as a function of text similarity Use some text similarity analysis algorithm


OTHER

  • Use technology area classification to add another visual / sorting / ordering dimension to the above

Questions

  • Make one visualization or more?

See for example http://labs.digg.com/: many perspectives on the same data
or, on the other hand, http://www.tate.org.uk/netart/bvs/thedumpster.htm: a complex tool with several ways to filter / sort the data

  • If one, make it word-centered or patent-centered? Or both?

In the latter case, how to mix / switch between both entity types?
See http://wishcafe.net for a mixed graph (users/wishes)
It could be words that link patents that link words
(but there are also links among patents that are independent of the words)


Preliminary data analysis

pat63_99.csv file

Patents granted per year
Image:Patents by year.png

http://manyeyes.alphaworks.ibm.com/manyeyes/visualizations/granted-patent-registrations-per-y


Patents per country
Image:Patents by country.png

http://manyeyes.alphaworks.ibm.com/manyeyes/visualizations/number-of-patent-registrations-per


Patents per number of citations received
Image:Patents by citation.png

http://manyeyes.alphaworks.ibm.com/manyeyes/visualizations/us-patents-per-number-of-citations

Word Frequency in time

1977 sample week Image:Wordle 19771220.png
1987 sample week Image:Wordle 19871222.png

Database structure

First version
Image:Db structure.jpg



Datos, referencias y otro material / Dates, references and other material

Presentation slideshow


DATA SOURCES

http://www.uspto.gov/

ftp://bulk.resource.org/patent/

http://www.nber.org/patents/

http://www.google.com/patents/



REFERENCES

http://www.wipo.int/ipstats/en/statistics/patents/index.html


Tecnologías / Technologies

  • PHP
  • MySQUL
  • Processing
  • Flash


Estado actual y seguimiento del proceso / Current status and next steps

Contamos ya con una base de datos de tres millones de patentes y dieciséis millones de citas, más el resultado de un trabajo de minería de datos que nos ha permitido obtener cinco palabras clave para cada patente. A través de estos datos hemos desarrollado tres visualizaciones que permiten abordar distintos aspectos de esta información.

Algunas tareas que iremos desarrollando en el futuro próximo:

  • Actualizar el cuerpo de datos desde la última fecha con que contamos ahora (1999) hasta el día de hoy.
  • Implementar un mecanismo de actualización automático para las patentes que publica cada semana la oficina de patentes y marcas de los Estados Unidos.
  • Optimizar la base de datos para mejorar los tiempos de respuesta.
  • Trabajar sobre las visualizaciones existentes para implementar ideas pendientes y mejorar detalles de diseño y funcionalidad.
  • Añadir otras visualizaciones que no hemos llegado a desarrollar en el curso del taller.


Autor del proyecto / Author of the project


Colaboradores / Collaborators

Asistencia Técnica / Technical Assistance


Links

http://www.uspto.gov/

http://www.nber.org/patents/

http://www.google.com/patents/

Personal tools