La evolución de la innovación. Una historia visual de los registros de patente en las últimas décadas

From Medialab Prado
Jump to: navigation, search


Descripci?n del proyecto / Description of the project

El objetivo principal del proyecto es facilitar la exploraci?n y comprensi?n del proceso de desarrollo cient?fico y t?cnico en el mundo durante las ?ltimas d?cadas  Usamos para ello un cuerpo de datos detallado,  accesible y homog?neo: los regisros de patente en los Estados Unidos, que documentan un aspecto fundamental de la innovaci?n tecnol?gica,  no s?lo en ese pa?s sino en todo el mundo.

Utilizamos an?lisis de texto y relaciones de cita entre patentes para identificar tendencias y relaciones de influencia seg?n campos tecnol?gicos y per?odos . Estos an?lisis han tomado cuerpo en varias visualizaciones interactivas que permiten la exploraci?n din?mica de rasgos salientes y regularidades de gran escala en este cuerpo de datos gigantesco y dif?cil de abordar.

En este taller hemos desarrollado tres visualizaciones:

Registrations Chart:

Registrations Chart.jpg

Es una gr?fica de tipo "streamgraph" que muestra la cantidad total de registros de patente a trav?s del tiempo. 

egables de la parte superior los criterios de filtrado:

- Por fecha: Fecha de aplicaci?n o fecha de otorgamiento. La fecha de aplicaci?n corresponde al momento en que el inventor solicita la patente. La fecha de otorgamiento depende del proceso burocr?tico de aprobaci?n que puede llevar dos o m?s a?os. 

- Por segmento: Categor?a y subcategor?a tecnol?gica, pa?s o estado de los Estados Unidos.

Al pasar el puntero del rat?n sobre cualquier intersecci?n de a?o y segmento, se puede ver el n?mero exacto de registro de patente que corresponde. Un click recupera una lista de las diez patentes m?s relevantes (m?s citadas) para ese segmento y a?o en particular.

Citations network:

Citations network.jpg

Es un grafo din?mico que visualiza las citas entre patentes, siempre a partir de una en particular. Cada patente aparece como un c?rculo, cuyo tama?o es proporcional a la cantidad de citas que recibe. Las citas est?n representadas con l?neas curvas. La ubicaci?n de la patente en el eje horizontal representa su fecha de otorgamiento y en el eje vertical depende de la categor?a tecnol?gica a la que pertenece.

Un click del rat?n en cualquiera de las patentes la pone en foco y recupera la red de citas que le corresponde. 

Keyword map:

Keyword Map.jpg 

Es un mapa conceptual de las palabras m?s usadas en los t?tulos y res?menes de todo el cuerpo de patentes analizado. El tama?o de las palabras ene l mapa es proporcional a la cantidad de veces que aparece y la ubicaci?n es el resultado de relaciones de cercan?a relativa entre ellas, calculada a partir de la cantidad de patentes en las que cada par de palabras aparecen juntas.

Preguntas iniciales / First day questionary

1. Describe the goal of the project in 3 sentences (which message do you want to carry? to whom?)

Nos propondremos construir una herramienta para facilitar la exploraci?n y comprensi?n del proceso de desarrollo cient?fico y t?cnico en el mundo durante las ?ltimas d?cadas.

Trabajaremos sobre los registros de patente en los Estados Unidos, que constituyen un cuerpo de datos abundante y homog?neo que documenta un aspecto fundamental de la innovaci?n tecnol?gica, no s?lo en ese pa?s, sino en todo el mundo. Como ?ste es un campo que ha sido bastante estudiado, podremos basar nuestra tarea en estudios metodol?gicos y bases de datos ya existentes.

La idea es poner en juego herramientas de an?lisis de texto y relaciones de cita entre patentes para identificar tendencias a trav?s del tiempo, filiaciones de los inventos y relaciones de influencia. A partir de eso, desarrollaremos una o m?s visualizaciones interactivas que permitan a los usuarios navegar la historia reciente de los inventos de manera fluida y din?mica, poniendo de relieve los rasgos salientes y regularidades a gran escala de este cuerpo de datos enorme y dif?cil de abordar. 

The main goal is to develop a dynamic exploration tool for the patent registration data of the last few decades and make it available on the Web.

This tool should fullfill two main objectives: (a) offering a broad historic view of the recent technological evolution process that brings to the surface the change of trends and subjects on time and/or the most relevant inventions, and (b) allow the exploration and discovery of these same trends and inventions on a finer tematic, chronological or relevance scale.

The target audience would be anyone interested in the process of scientific and technological evolution and the 'flow of knowledge' in modern industrial society.

2. What are the inspiring projects and theories; background, context, references

We are thinking of


Network visualizations

Patent registrations are a subject with historic and economic interest. As such, there is already a methodological and theoretical body of work around it. Especiall interesting are two documents:

3. What is the short-term objective (what do you expect to finish in 2 weeks)?

One or more working visualizations, comprised of a PHP/MySQL backend and a Processing or ActionScript front end.

They might be working on just a sample subset of the data and have pending design or functionality details but we expect them to be a full implementation of the interaction dynamic that has been decided.

4. What is the long term objective (what posterior development do you think of)?

  • Plug in the full available data set
  • Bring up to date the citations and full text databases
  • Optimally, deploy an automatic data actualization process from the files published every week by the US Patent Office
  • Finish design and functionality details
  • Wrap the application in a site with relevant information about it and publish/publicize it on the Web
  • Work on further ideas and possibilities that have been considered but not implemented in the course of the workshop

5. What are the data (status, where do they come from, who specifically owns the data?)

The original source for the data set is or and also the US Patents and Trademarks Office:

However, we will work on two databases available elsewhere:

  • The citations database compiled by the National Bureau of Economic Research:

We might link to (but not draw data from) the Google Patent search engine at, as a way to give the user access to the full patent data, including illustrations, when she wants to see a particular case.

6. How will you convert data into some perceptual experience

A previous data mining will bring to the surface broad trends and relevance rankings in what is otherwise a huge, complex and difficult to tackle data body. Number of incoming citations, citation 'genealogy', word frequency and proximity are some of the strategies that will allow us to extract meaning and hierarchy from the data pool.

The challange will be to find an effective, accessible and engaging visual expression and interaction dynamics to convey this large-scale structures to the user.

See #Objectives and #Ideas 

7. Do you have any assumptions or previous hypothesis?

No. This is not a thesis work that aims to verify or make evident some idea about the world. Is a purely explorative tool that aims to give everyone access to a data body that is potentially interesting but currently inaccesible for anyone who is not a specialized professional.

Desarrollo / Development process

Initial objectives list

This is a tentative list of things the visualization(s) could do or insights they could offer into the data:


  • Show the most frequent (relevant?) words at each moment in time (in a timeline / timespace) This could be: simple word count per week or month or something more elaborated, like: words in patents that get many citations get a higher "relevance score" words are not associated to the date of the original patent, but to the date of the citing patent (or play with the gap between the two)
  • Show relative word closeness by analyzing word proximity in full text This could be either 'physical' proximity (10 or 20 word range) or just 'being in the same patent' The point of this would be to display a dynamic 'word map', as opposed to a 'word cloud': not just a bunch of words together, but a space where word location is a result of semantic links.


  • Show patent relevance as a function of incoming link count Pay attention to the problems and quirks of this method Display most important patents at each moment in time -> Sort of an "invention gallery" Perhaps, allow digging deeper: click on a patent, see linked patents, also sorted by relevance Star field / constellation with most important = brighter / larger
  • Show patent closeness as a function of linkage Parents of the same patent would become closer
  • Show patent closeness as a function of text similarity Use some text similarity analysis algorithm


  • Use technology area classification to add another visual / sorting / ordering dimension to the above


  • Make one visualization or more?

See for example many perspectives on the same data
or, on the other hand, a complex tool with several ways to filter / sort the data

  • If one, make it word-centered or patent-centered? Or both?

In the latter case, how to mix / switch between both entity types?
See for a mixed graph (users/wishes)
It could be words that link patents that link words
(but there are also links among patents that are independent of the words)

Preliminary data analysis

pat63_99.csv file

Patents granted per year
Patents by year.png

Patents per country
Patents by country.png

Patents per number of citations received
Patents by citation.png

Word Frequency in time

1977 sample week Wordle 19771220.png
1987 sample week Wordle 19871222.png

Database structure

First version
Db structure.jpg

Datos, referencias y otro material / Dates, references and other material



Tecnolog?as / Technologies

  • PHP
  • MySQUL
  • Processing
  • Flash

Estado actual y seguimiento del proceso / Current status and next steps

Contamos ya con una base de datos de tres millones de patentes y diecis?is millones de citas, m?s el resultado de un trabajo de miner?a de datos que nos ha permitido obtener cinco palabras clave para cada patente. A trav?s de estos datos hemos desarrollado tres visualizaciones que permiten abordar distintos aspectos de esta informaci?n.

Algunas tareas que iremos desarrollando en el futuro pr?ximo:

  • Actualizar el cuerpo de datos desde la ?ltima fecha con que contamos ahora (1999) hasta el d?a de hoy. 
  • Implementar un mecanismo de actualizaci?n autom?tico para las patentes que publica cada semana la oficina de patentes y marcas de los Estados Unidos.
  • Optimizar la base de datos para mejorar los tiempos de respuesta.
  • Trabajar sobre las visualizaciones existentes para implementar ideas pendientes y mejorar detalles de dise?o y funcionalidad.
  • A?adir otras visualizaciones que no hemos llegado a desarrollar en el curso del taller.

Autor del proyecto / Author of the project

  • Leonardo Solaas -

Colaboradores / Collaborators

Asistencia T?cnica / Technical Assistance

  • Rodrigo Santamar?a -