DeepMind has a security plan for the artificial intelligence of the future/DeepMind tiene un plan de seguridad para la inteligencia artificial del futuro

in Project HOPE20 hours ago

image.png

Source

Day after day, we are threatened with the power of artificial intelligence, which will make a cell phone smarter than all of humanity, which will leave us all jobless and destitute, and which will ultimately destroy us. Every day, we are also threatened with the creation of new regulatory frameworks because it is necessary to regulate and control this unprecedented power. But meanwhile, they continue to create new models that are ever more powerful, more accessible, and cheaper, which is tremendously paradoxical.

Día tras día nos amenazan con el poder de la inteligencia artificial que hará que un teléfono móvil sea más inteligente que toda la humanidad, que nos dejará a todos sin trabajo y en la indigencia y que finalmente acabará con nosotros. También cada día nos amenazan con crear nuevos marcos regulatorios porque es necesario regular y controlar este inusitado poder. Pero mientras tanto siguen creando nuevos modelos cada vez más potentes, más accesibles y más barato, lo cual no deja de ser tremendamente paradójico.

Now it's the turn of DeepMind, a Google subsidiary, which has presented its security plan for the artificial intelligence of the future, focused primarily on anticipating and mitigating the risks that artificial general intelligence (AGI) could pose before they emerge. The approach aims to be preventive and collaborative, understanding that AGI can have transformative benefits but also severe risks, including possible serious harm to humanity and scenarios where AI far surpasses human capabilities even before 2030.

Ahora le toca el turno a DeepMind, la compañía filial de Google, que ha presentado su plan de seguridad para la inteligencia artificial del futuro, enfocado principalmente en anticipar y mitigar los riesgos que podría generar la inteligencia artificial general (AGI) antes de que estos aparezcan. El enfoque pretende ser preventivo y colaborativo, entendiendo que la AGI puede tener beneficios transformadores pero también riesgos severos, incluyendo posibles daños graves a la humanidad y escenarios donde la IA supere ampliamente las habilidades humanas incluso antes de 2030.

image.png

Source

DeepMind seeks to proactively identify dangerous AI capabilities and design security measures before mass deployment, so that protection can be quickly integrated into existing models. The plan focuses on detecting misuse by detecting situations where users use AI to cause harm, such as scams or cyberattacks. To mitigate this, they have created the "Frontier Safety Framework," which assesses the models' dangerous capabilities and implements techniques such as additional training, suppression of harmful skills, and restricting access to verified users only.

DeepMind busca identificar de forma proactiva las capacidades peligrosas de la inteligencia artificial y diseñar medidas de seguridad antes de su despliegue masivo, para que la protección pueda integrarse rápidamente en los modelos actuales. El plan se centra en buscar, por un lado, el mal uso detectando situaciones donde usuarios emplean la IA para causar daño, como por ejemplo estafas o ataques cibernéticos. Para mitigarlo han creado el "Frontier Safety Framework", que evalúa las capacidades peligrosas de los modelos e implementa técnicas como entrenamiento adicional, supresión de habilidades dañinas y restricción de acceso solo a usuarios verificados.

Furthermore, it detects when there is a misalignment and when the AI fails to meet the objectives defined by its creators and can deceive human supervisors, and applies access controls, audits, anomaly detection, and hierarchical monitoring reinforced by more advanced models. Of course, all of this also includes active monitoring and stress testing to strengthen security. To achieve all of this, a series of key technical strategies have been designed to be developed.

Por otra parte detectar cuando hay una desalineación y la IA no cumple los objetivos definidos por sus creadores y puede engañar a los supervisores humanos y aplicarle controles de acceso, auditorías, detección de anomalías y monitoreo jerárquico reforzado por modelos más avanzados. Por su puesto todo esto también incluyen monitoreo activo y pruebas de estrés para fortalecer la seguridad. Para poder llevar a cabo todo esto se han diseñado una serie de estrategias técnicas principales a desarrollar.



Source

Among the strategies mentioned is AI-assisted supervision, where two instances of the model can be pitted against each other to detect errors before a human judge, improving supervision. The goal is for models to learn to avoid unwanted behavior in dynamic and complex environments. Access to dangerous features is restricted, and attempts at misuse or unauthorized access are monitored. DeepMind emphasizes that many solutions will require not only technical measures but also institutional and regulatory collaboration.

Entre las estrategias mencionadas se incluye la supervisión asistida por IA, enfrentando dos instancias del modelo pueden enfrentarse para detectar errores ante un juez humano, mejorando la supervisión. Se busca que los modelos aprendan a evitar comportamientos indeseados en entornos dinámicos y complejos. Se restringe el acceso a funcionalidades peligrosas y se monitorean intentos de mal uso o accesos no autorizados. DeepMind enfatiza que muchas soluciones requerirán no sólo medidas técnicas, sino también colaboraciones institucionales y regulatorias.

In short, more of the same. What I don't understand is why they design and manufacture things that can ultimately crush us. I understand that Asimov's laws of robotics can't be instilled, but I think the antidote should be manufactured before the poison. But hey, it's a given that history takes its course and doesn't ask us what we think. Let's hope it's not as serious as some people make it out to be, although collateral damage will inevitably occur, as happens with any drastic change.

En definitiva, más de lo mismo. Lo que no entiendo por qué diseñan y fabrican cosas que al final nos pueden machacar, entiendo que no se pueden inculcar las leyes de la robótica de Asimov pero creo que se debería fabricar antes el antídoto que el veneno. Pero bueno, es sabido que la historia sigue su curso y no nos pregunta que nos parece, esperemos que no sea tan grave como algunos lo pintan, aunque siempre será inevitable que se produzcan víctimas colaterales como pasa en cualquier cambio drástico.

More information/Más información
https://vocal.media/journal/deep-mind-unveils-its-security-plan-for-the-artificial-intelligence-of-the-future

https://www.infobae.com/tecno/2025/08/16/deepmind-presenta-su-plan-de-seguridad-para-la-inteligencia-artificial-del-futuro/