У Claude AI теперь есть возможность завершить разговор: новый механизм для решения экстремальных ситуаций

В последние месяцы компания Anthropic усилила меры по обеспечению безопасности, внедряя новые функции и проводя исследования, направленные на повышение безопасности ИИ. Последняя функция, похоже,… Клод Это одна из самых отличительных особенностей.

В Claude Opus 4 и 4.1 (последних версиях Anthropic) теперь есть возможность завершать разговоры в интерфейсе чата пользователя. Хотя эта функция не получит широкого распространения, она реализована для редких и крайних случаев «постоянно вредоносного или оскорбительного взаимодействия с пользователем».

В Запись в блоге, посвященная новой функции«Мы всё ещё не уверены в потенциальном этическом статусе Claude и других крупных языковых моделей, как сейчас, так и в будущем», — заявила команда Anthropic. «Однако мы относимся к этому вопросу очень серьёзно».

В ходе испытаний, предшествовавших выпуску последних моделей Anthropic, компания провела оценку благополучия модели. Это включало изучение самоотчётов Клода и его поведенческих предпочтений, и выявило у него сильное и устойчивое неприятие вреда.

Мы всё ещё не до конца уверены в потенциальном этическом статусе Клода и других крупных языковых моделей, как сейчас, так и в будущем. Тем не менее, мы относимся к этому вопросу серьёзно.

Антропный

Другими словами, Клод фактически блокировал или отказывался участвовать в этих обсуждениях. Среди них были запросы пользователей на сексуальный контент с участием несовершеннолетних и попытки запросить информацию, которая могла бы способствовать масштабному насилию или террористическим актам.

Во многих из этих случаев пользователи продолжали отправлять вредоносные или оскорбительные запросы, несмотря на активное нежелание Клода выполнять их. Новая функция, позволяющая Клоду фактически завершить разговор, призвана обеспечить некоторую защиту в подобных ситуациях.

Anthropic поясняет, что эта функция не будет применяться в ситуации, когда пользователи могут подвергаться непосредственной опасности причинения вреда себе или другим.

«Во всех случаях Claude должен использовать свою возможность завершения разговора только в качестве крайней меры, когда многочисленные попытки перенаправления не увенчались успехом и всякая надежда на продуктивное взаимодействие исчезла, или когда пользователь явно просит Claude завершить чат», — продолжает команда Anthropic в сообщении в блоге.

«Сценарии, в которых это может произойти, являются экстремальными и редкими — подавляющее большинство пользователей не заметят и не будут затронуты этой функцией при обычном использовании продукта, даже при обсуждении весьма спорных вопросов с Клодом».

Хотя пользователь больше не сможет отправлять новые сообщения в этой переписке, это не помешает ему начать другую переписку в своей учётной записи. Чтобы избежать возможной потери длинной цепочки переписки, пользователи по-прежнему смогут редактировать предыдущие сообщения и повторять их, создавая новую ветку переписки.

Это довольно уникальное приложение от Anthropic. ChatGPT и Gemini и GrokУ трех ближайших конкурентов Клода не было ничего подобного, и хотя все они предлагали другие меры защиты, они не зашли так далеко.

Клод