Cryptocurrency news

Исследователи Anthropic допустили саботаж ИИ против человечества

Forklog / 19.10.2024 / 13:03
Исследователи Anthropic допустили саботаж ИИ против человечества

Искусственный интеллект может однажды саботировать человечество, но пока все в порядке. Об этом сообщили эксперты ИИ-стартапа Anthropic в новом исследовании.

New Anthropic research: Sabotage evaluations for frontier models

How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH

— Anthropic (@AnthropicAI) October 18, 2024

Специалисты исследовали четыре различных вектора угроз со стороны искусственного интеллекта и определили, что «минимальные меры смягчения последствий» были достаточными для текущих моделей.

«Достаточно способные модели могут подорвать человеческий надзор и принятие решений в важных контекстах. Например, в контексте разработки ИИ модели могут тайно саботировать усилия по оценке собственных опасных возможностей, мониторингу их поведения или принятию решений об их развертывании», — говорится в документе.

Однако хорошая новость в том, что исследователи Anthropic видят возможности смягчения таких рисков, по крайней мере на текущий момент.

«Хотя наши демонстрации показали, что в современных моделях, возможно, есть низкоуровневые признаки способности к саботажу, мы считаем, что минимальные меры по смягчению последствий достаточны для устранения рисков. Тем не менее по мере улучшения возможностей ИИ, вероятно, будут необходимы более реалистичные и жесткие меры по снижению рисков», — говорится в отчете.

Ранее эксперты взломали ИИ-роботов и заставили их выполнять запрещенные протоколами безопасности и этическими нормами действия. Например, детонировать бомбы.

Source
Recently News

© Token Radar 2024. All Rights Reserved.
IMPORTANT DISCLAIMER: All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.