Noticia

Por qué la disrupción de la IA de DeepSeek representa una oportunidad para las empresas

Innovación inspiradora

Ha llegado el amanecer de los modelos de razonamiento que ocupan una huella más pequeña.

La startup DeepSeek, una empresa china relativamente desconocida, ha captado la atención por el desarrollo de un modelo de lenguaje extenso (LLM), DeepSeek R1. Su enfoque desafía la creencia popular en la formación de LLM y plantea interesantes preguntas sobre el futuro de la IA generativa (GenAI). Si bien su impacto a largo plazo está por verse, el modelo de código abierto, optimizado y energéticamente eficiente de DeepSeek, que utiliza un enfoque centrado en el razonamiento en lugar de depender de una formación exhaustiva, podría brindar nuevas oportunidades en diversas empresas e industrias.

Esto podría reducir significativamente la barrera de entrada para la IA en todos los sectores y acelerar su adopción al mejorar la accesibilidad y la asequibilidad. Más empresas tendrán la oportunidad de experimentar con casos de uso de GenAI para obtener una ventaja competitiva mediante nuevos productos, servicios y eficiencias.

El enfoque de DeepSeek demuestra un nuevo arte de lo posible en la construcción de modelos de lenguaje grandes de código abierto: una forma más eficiente que potencialmente consume una menor cantidad de recursos computacionales pero que aún así promete ofrecer un rendimiento poderoso.

Naresh MehtaDirector de Tecnología e Innovación, Fabricación, TCS

DeepSeek afirma tener un coste de entrenamiento considerablemente menor (menos de 6 millones de dólares) en comparación con otros modelos que pueden costar 200 millones de dólares o más. La metodología de entrenamiento se centra en el aprendizaje por refuerzo, lo que reduce la dependencia del ajuste fino supervisado. Si bien este enfoque puede reducir los costes, es importante comprender los detalles: los parámetros de entrenamiento, los conjuntos de datos utilizados y la forma en que se mide el rendimiento influyen en el posible impacto en la velocidad de comercialización de los experimentos y las pruebas de concepto. Estas diferencias pueden influir considerablemente en las comparaciones con los modelos centrados en el conocimiento.

“El enfoque de DeepSeek demuestra un nuevo arte de lo posible en la creación de grandes modelos de lenguaje de código abierto: una forma más eficiente que potencialmente consume menos recursos computacionales, pero que aún promete ofrecer un rendimiento excepcional”, afirma Naresh Mehta, Director de Tecnología e Innovación del Departamento de Fabricación de TCS. “Al aprovechar lo que llamamos un modelo de razonamiento de menor tamaño, DeepSeek logró optimizar su infraestructura de costos computacionales”.

En el ámbito tecnológico, el enfoque de DeepSeek podría tener un impacto positivo en el desarrollo de la IA agencial, donde los sistemas de IA pueden realizar tareas y tomar decisiones de forma autónoma. Esto puede permitir la creación de agentes de IA más sofisticados que puedan implementarse en diferentes contextos empresariales, lo que conduciría a SaaS 2.0 (servicio como software), con capacidades de IA integradas directamente en los servicios. Es posible que las empresas deban reconsiderar sus inversiones en infraestructura de IA para adaptarse a estos avances.

Este enfoque optimizado permite implementar la IA de borde mediante la optimización de modelos de IA más pequeños y eficientes, incluyendo modelos de lenguaje especializados, un factor clave para ampliar las capacidades de la IA de borde. Estos modelos pueden optimizarse para las limitaciones de recursos de los dispositivos de borde, lo que permite realizar tareas de IA más complejas localmente.

Los modelos de código abierto también se aprovechan mejor al permitir más ofertas para satisfacer un conjunto más amplio de necesidades, y las alianzas desempeñarán un papel clave para facilitar su innovación continua y su implementación exitosa. Este desarrollo de la IA abre nuevas vías para empresas medianas del sector de semiconductores, integradores de servicios, proveedores de servicios en la nube y startups.

Debajo del capó

Un enfoque que prioriza el razonamiento y luego el conocimiento cambia radicalmente la historia de la IA.

¿Qué hace que los modelos de razonamiento de menor tamaño representen un gran cambio? Revierten el enfoque tradicional de «conocimiento primero, razonamiento después», adoptando el enfoque opuesto: razonamiento primero, conocimiento después. Para ilustrarlo, imaginemos un escenario de ajedrez: Se entrena un modelo de IA con las reglas del juego (razonamiento) en lugar de con los datos de 5000 partidas (conocimiento). A medida que el modelo de razonamiento juega más partidas según las reglas (razonamiento) y acepta el resultado (conocimiento), se le anima a explorar diferentes movimientos, pero también se le enseña a favorecer los que dan la victoria mediante un mecanismo de recompensa/penalización. Con el tiempo, este enfoque de aprendizaje por refuerzo construye de forma autónoma el conocimiento necesario para ganar más partidas.

Este enfoque de razonamiento primero, conocimiento después, es el factor más importante en la enorme ventaja en el costo de entrenamiento. Cuando un modelo no requiere conjuntos de datos masivos con miles de millones de parámetros, los costos de entrenamiento se reducen. Sin embargo, el modelo se entrena para razonar con un conjunto de datos mínimo y crítico. Este enfoque optimizado se traduce en el valor entregado (Fig. 1).

Figura 1: Los enfoques centrados en el razonamiento y en el conocimiento ofrecen ventajas distintas, y la elección óptima depende de la aplicación específica.

Figura 1: Una comparación de los enfoques de razonamiento primero, conocimiento después versus conocimiento primero, razonamiento después y sus fortalezasVer descripción  Figura 1: Una comparación de los enfoques de razonamiento primero, conocimiento después versus conocimiento primero, razonamiento después y sus fortalezas

Ambos enfoques ofrecen ventajas distintivas, y la elección óptima depende de la aplicación específica. Un modelo centrado en el razonamiento demuestra fortalezas en la deducción lógica y la resolución de problemas estructurados. Un modelo centrado en el conocimiento, gracias a su entrenamiento con grandes conjuntos de datos, es más hábil en la comprensión contextual, el procesamiento lingüístico matizado y la captura de relaciones del mundo real. Sin embargo, es importante destacar que las prácticas efectivas de privacidad de datos son cruciales para todos los modelos, independientemente del enfoque de entrenamiento. La protección de los datos de los usuarios requiere políticas sólidas de gobernanza de datos, técnicas adecuadas de preservación de la privacidad y una cuidadosa atención a la gestión de datos durante todo el ciclo de vida de la IA.

En nuestro análisis comparativo y pruebas iniciales, DeepSeek nos impresionó si las indicaciones eran matemáticas, científicas o relacionadas con tareas de codificación. Sin embargo, los modelos centrados en el conocimiento superaron a DeepSeek cuando una indicación requería conocimiento necesario.

Si bien no es exclusivo de DeepSeek, el uso de varias técnicas en el desarrollo de LLM puede contribuir a mejorar la transparencia, el aprendizaje y la accesibilidad cuando se implementa de manera eficaz:

  1. La inducción de la cadena de pensamiento (CdP) mejora la transparencia al proporcionar información sobre los pasos de razonamiento de un modelo. El modelo genera su CdP junto con la respuesta final.
  2. El aprendizaje por refuerzo (AR) permite a los modelos aprender de la retroalimentación y perfeccionar su rendimiento. Si bien el AR puede ser una herramienta poderosa para la autosuperación, requiere un diseño y un ajuste cuidadosos.
  3. La destilación de modelos permite crear versiones más pequeñas y eficientes de LLM. Esta mayor eficiencia podría mejorar la accesibilidad para la implementación en dispositivos con recursos limitados.

Una victoria del código abierto

Gracias a la contribución de la comunidad de desarrolladores al desarrollo del modelo DeepSeek, este se encuentra en una vía rápida hacia mejoras y actualizaciones continuas.

DeepSeek ha adoptado un enfoque de código abierto para DeepSeek R1, poniendo el modelo a disposición del público para su uso y modificación. Esta decisión ofrece varias ventajas:

  • Desarrollo impulsado por la comunidad: la naturaleza de código abierto del modelo permite a los desarrolladores e investigadores contribuir a su desarrollo, lo que potencialmente conduce a mejoras más rápidas, correcciones de errores y nuevas funciones.
  • Crecimiento del ecosistema: el acceso abierto puede fomentar el desarrollo de un ecosistema circundante de herramientas, bibliotecas y aplicaciones que aprovechen las capacidades del modelo.
  • Personalización y adaptación: Los desarrolladores pueden modificar y adaptar el modelo para casos de uso específicos, fomentando la innovación y las soluciones personalizadas.

Sin embargo, es importante reconocer que el éxito de un proyecto de código abierto depende de varios factores, incluido el nivel de participación de la comunidad, la calidad de las contribuciones y la gestión eficaz del proyecto.

Desde los principales fabricantes de chips hasta los grandes hiperescaladores de la nube, el modelo de razonamiento de menor tamaño contribuye a un panorama en constante evolución en toda la industria. Esta evolución inspirará más innovación.

Impacto en los fabricantes de chips y dinámica en evolución

La tendencia hacia modelos de IA más eficientes y computación de borde presenta tanto desafíos como oportunidades para los fabricantes de chips. Si bien la demanda de chips de IA está creciendo, el mercado se está diversificando y la competencia se está intensificando.

  • Transición hacia chips de IA optimizados: Esta tendencia es real, pero no se debe únicamente a un tipo de modelo. Los chips especializados para inferencia y computación de borde son cada vez más importantes.
  • Las fundiciones priorizan la fabricación de chips de IA: las fundiciones están aumentando su capacidad para la fabricación de chips de IA, pero esto es parte de una tendencia más amplia en la producción de semiconductores, no únicamente una consecuencia de modelos de razonamiento de menor tamaño.

Impacto en los hiperescaladores de la nube y estrategias de adaptación

Los proveedores de la nube están adaptando sus estrategias de IA en respuesta a las tendencias cambiantes del hardware y la creciente demanda de implementaciones de IA eficientes.

  • Falacia del costo hundido: Los hiperescaladores han invertido mucho en infraestructura basada en GPU, pero no es necesariamente una falacia seguir aprovechando esas inversiones. Las GPU siguen siendo relevantes para muchas cargas de trabajo de IA, y los hiperescaladores también están invirtiendo en nuevas arquitecturas.
  • Ley de rendimientos decrecientes: los rendimientos decrecientes en modelos más grandes son un factor, pero el cambio hacia la inferencia y la computación de borde está impulsado por múltiples factores, incluidos el costo, la latencia, la privacidad de los datos y los requisitos de la aplicación.
  • Cambio de poder: El equilibrio de poder entre fabricantes de chips e hiperescaladores está evolucionando, pero es un proceso gradual, no un cambio repentino. Los hiperescaladores están aumentando su influencia, pero los fabricantes de chips siguen siendo actores cruciales.

La industria tiende hacia un enfoque dominado por la inferencia.

Una tendencia significativa es que la industria está evolucionando de un enfoque centrado en el entrenamiento a uno centrado en la inferencia. El auge de la computación en el borde es un aspecto clave de este cambio. Por ejemplo, en lugar de que el entrenamiento de modelos de vehículos autónomos se realice exclusivamente en grandes centros de datos, la inferencia se realiza cada vez más en cada vehículo con computación en el borde. El vehículo ejecuta el modelo localmente, lo que reduce la dependencia de la conectividad constante en la nube. Esta es una tendencia válida, y los modelos de monetización específicos para la IA en el borde siguen evolucionando y no se limitan a suscripciones mensuales.

Perspectiva en profundidad sobre la IA

La innovación DeepSeek ha alterado las hojas de ruta cuidadosamente diseñadas para la madurez de la IA y ha abierto una multitud de nuevas posibilidades para la creación de valor y el crecimiento.

La evolución del modelo de razonamiento de menor tamaño ha impulsado la historia de la IA a un nivel superior, con un énfasis creciente en la eficiencia y la accesibilidad. Inspirará innovación y posibles efectos dominó, entre ellos:

  • Mayor adopción de IA: menores costos y una mayor eficiencia podrían hacer que la IA sea más accesible para una gama más amplia de organizaciones.
  • Menor barrera de capacitación: los investigadores y desarrolladores están explorando cada vez más técnicas para construir modelos más pequeños y eficientes y mostrando a las empresas cómo adoptarlos y experimentar con ellos.
  • Inferencia más barata: Se estima que los costos de inferencia son 10 veces más bajos y esto puede impulsar a los hiperescaladores a adoptar arquitecturas de menor tamaño, lo que obligaría a las empresas de código cerrado a igualar los costos, especialmente porque la demanda de una inferencia de IA eficiente actualmente está impulsando la innovación en el diseño y las arquitecturas de chips.
  • Evolución de los modelos de negocio de la IA: las empresas están explorando nuevas formas de monetizar la IA, incluidos servicios basados ​​en la nube, implementaciones de borde y soluciones especializadas.

El enfoque de DeepSeek destaca un cambio importante hacia modelos de código abierto más compactos y eficientes. Esta innovación transformará el panorama de la IA, impulsando la creación de modelos más potentes y mejorando la accesibilidad y la asequibilidad. El lanzamiento de nuevos modelos de IA ya está contribuyendo a mejoras en términos de costes de desarrollo, rendimiento y velocidad de comercialización.

Si bien es imposible predecir el próximo evento disruptivo, podemos compartir las tendencias que observamos de cerca. A medida que los modelos de código abierto dominen la industria, las colaboraciones se convertirán en un elemento crucial del panorama de la IA. Con menores costos, las empresas medianas se volverán universalmente atractivas para todos, desde fabricantes de chips hasta hiperescaladores. La aceleración de la IA agéntica impulsará, a su vez, el SaaS 2.0 (servicio como software). Y la gran velocidad de los modelos de razonamiento de menor tamaño requerirá el personal y la infraestructura adecuados para escalar.

La disrupción de DeepSeek ha abierto un abanico de posibilidades y ha obligado a todos a replantear sus planes de desarrollo de IA, cuidadosamente diseñados. Es un caso práctico que ilustra por qué las empresas necesitan adaptarse constantemente para mantenerse a la vanguardia tecnológica. La forma en que una empresa responda a todo esto, ya sea tomando decisiones para el presente o el futuro, podría determinar el éxito o el fracaso de su negocio.