En la noche del sneak peak de Final Cut Pro X del Supermeet 2011 me dijeron que esta era la “base para los próximos 10 años”. Bueno, a partir de la semana pasada, siete de los nueve han transcurrido. No creo, ni por un minuto, que Apple tenga la intención de transmitir un límite de diez años para el desarrollo continuo de Final Cut Pro X, pero tal vez sea inteligente planificar la obsolescencia para limitar el tiempo que se continúa desarrollando una aplicación antes de que se vuelva a evaluar su idoneidad para la tarea.

El “sneak peak” de Final Cut Pro X durante el Supermeet 2011

Final Cut Pro X fue el resultado de un proceso de varios años en Apple para “reimaginar” lo que debería ser un NLE en un mundo post-tape y post-film. Entiendo que no fue fácil transitar el proceso. En última instancia, se pensó algo muy inteligente en el diseño (como ve en el documental Off the Tracks de Bradley Olsen, Estreno en Los Ángeles hace dos años).

Han pasado nueve años

En los nueve años desde que se lanzó FCP X, hemos tenido otro cambio radical que será tan importante como la transición digital lejos de la cinta y el celuloide. La Inteligencia artificial, o más exactamente, Machine Learning.

Adobe ya ha incluido algunos avances de Adobe Sensei (su marca para el aprendizaje automático aplicado en su ecosistema) en los lanzamientos recientes de Premiere Pro CC para cosas aparentemente mundanas. Si bien hemos estado tratando de determinar si la inteligencia artificial, o “AI“, reemplazará o no a los editores, Adobe ha demostrado cómo puede ayudar a los editores con las tareas cotidianas, como el balance de color o el nivelado automático de audio.

Esto plantea las siguientes preguntas: ¿Cuánto de esto se puede integrar sin que la aplicación se desmorone? No me refiero específicamente a Premiere Pro CC, sino en general, ¿Cuántos asistentes inteligentes pueden integrarse en un NLE de una manera que se integren con las estructuras existentes?

Ahora, FCP X no está mal posicionado para la extracción inteligente de metadatos. Gracias a la inclusión de Content Auto Analysis en la primera versión, los cimientos básicos para analizar el contenido y devolver rangos de palabras-clave están ahí y podría, creo, reutilizarse fácilmente para un análisis automático de contenido más inteligente que se ejecuta en modelos de Machine Learning a través de CoreML, que se ejecuta en GPU. Para empezar, sería lo suficientemente rápido como para que sea útil.

No tengo dudas de que los ingenieros de Adobe, Blackmagic Design e incluso Avid podrían implementarlo. Sería el enfoque correcto.

Inteligencia Artificial y Machine Learning

A medida que obtengo una visión cada vez más clara de cómo se va a integrar Machine Learning, lo veo como una alianza humano/máquina. Los modelos de máquinas capacitados incorporan cierta experiencia (limitada). El conjunto de herramientas de coincidencia de color de Adobe parece mucho mejor que cualquier cosa de la que yo sea capaz de lograr manualmente, pero probablemente no sea mejor que lo que logre un colorista profesional.

Pero si obtiene el 95% del objetivo con un clic del botón (y una máquina capacitada para la tarea), ¿cuántas personas lo harán manualmente?. (Agregaré que Adobe tiene la posibilidad de anular manualmente en forma completa los resultados). Si puedo automatizar la el ducking de la música en un cuadro de diálogo, ¿me molestaría en hacerlo manualmente?

Llevando esto un poco más lejos, tomando algunas de las herramientas que desarrollan ahora en un laboratorio y extrapolando un poco, puedo ver una herramienta futura que tiene la capacidad de reconocer el contenido de las tomas automáticamente: identificar a las personas y etiquetar el b-roll; tiene una conversión de voz a texto integrada y una identificación completa de palabra clave, concepto, producto y entidad. La mayoría de los procesos más técnicos se han automatizado con un asistente inteligente integrado en la aplicación (y probablemente basado en la tecnología de base del sistema operativo).

Con este conjunto de herramientas (aún imaginario), el editor podría, literalmente, pedir todas las tomas donde la persona X habló sobre el sujeto D en una línea de tiempo. Podrías pedirle al asistente otras tomas que contengan a la persona, el concepto o la palabra que estás buscando.

Podrías solicitar b-roll coincidente que tenga espacio en la composición sobre la derecha para componer algún gráfico.

Con un solo clic o solicitud, el color coincidiría en su línea de tiempo con la configuración de color que eligió (o copiado de una imagen de stock, película, etc.). De manera similar, el audio tendría niveles y tonalidades coincidentes a pedido.

Habrá muchas cosas más con las que nuestro asistente de edición incorporado podrá ayudar, de modo que el editor tendrá la libertad de concentrarse en la creatividad. Esta será una gran ayuda para la mayoría de los editores y será completamente lo contrario de lo que quieren los “Editores Profesionales de Hollywood”. Estoy de acuerdo con eso, pues es un nicho de mercado importante que requiere herramientas muy especializadas, y Avid es el proveedor consolidado y lo será en el futuro previsible. No es donde están los millones de usuarios de Premiere Pro CC y FCP X.

Los millones de usuarios que no trabajan en “Hollywood” estarán presentes en esta próxima generación de herramientas de edición profesional con asistencia inteligente. (Por supuesto, espero que sus contrapartes del consumidor vayan aún más lejos con el concepto de asistente inteligente en plantillas inteligentes).

Pero no creo que ningún NLE actual esté listo para tener todas esas modificaciones. Entonces, tal vez diez años desde el nacimiento de una aplicación es suficiente tiempo antes de que también deba ser reinventada para una nueva generación. Final Cut Pro Classic tardó 12 años desde el lanzamiento hasta que fue discontinuado. Nuestra industria está evolucionando cada vez más rápido. ¿Por qué no deberían hacerlo nuestras herramientas?

Esta nota ha sido traducida del inglés con autorización del autor: Philip Hodgetts.