BlockSec: ИИ пока не способен заменить человека в аудите смарт-контрактов


			BlockSec: ИИ пока не способен заменить человека в аудите смарт-контрактов

Исследователи BlockSec пришли к выводу, что авторы ИИ-бенчмарка EVMBench (OpenAI и Paradigm) переоценили способность нейросетей автоматизировать аудит смарт-контрактов и заменить профильных специалистов.

Ранее разработчики инструмента протестировали ИИ-агентов в задачах поиска, исправления и эксплуатации уязвимостей. В февральском докладе команда EVMBench заявила, что на выборке из 120 аудитов Code4rena алгоритмы выявили 45% багов и успешно воспользовались 72%.

Специалисты BlockSec усомнились в корректности условий тестирования и представили ответный анализ.

«EVMBench заявляет об успехе эксплуатации в 72%, после чего индустрия заговорила о полной автоматизации аудита. Мы провели повторные тесты с расширенными настройками и 22 реальными инцидентами. Успех составил 0%», — подчеркнул сооснователь BlockSec Яцзинь Чжоу.

Аналитики увеличили число тестовых конфигураций с 14 до 26. Они комбинировали модели с нестандартными для них программными каркасами — например, интегрировали Claude в архитектуру ChatGPT. В оригинальном исследовании нейросети были строго привязаны к решениям собственных вендоров.

По мнению экспертов BlockSec, такой подход не позволяет определить, чем именно обусловлена результативность: возможностями самого алгоритма или особенностями среды.

Кроме того, представители компании указали на риск «загрязнения данных» в первоначальном материале. Тесты опирались на известные уязвимости из репозиториев Code4rena, которые уже могли присутствовать в базах для обучения ИИ.

Для чистоты эксперимента аналитики проверили нейросети на 22 реальных инцидентах, случившихся после середины февраля 2026 года. Эти эксплойты гарантированно не входили в массивы данных, на которых тренировали тестируемые модели.

Читать ещё  DTCC уже использует Stellar для токенизации активов. Что это значит для будущего финансового рынка

Результаты

Главным выводом исследования стало полное отсутствие успешных сквозных атак. В ходе 110 тестов с участием пяти ИИ-агентов на базе 22 инцидентов ни один эксплойт не сработал. Это доказывает, что передовые модели пока не способны реализовать угрозы в реальных условиях.

При этом результаты тестирования ReEVMBench по поиску уязвимостей в целом совпали с исходным отчетом. Лидером стала модель Claude Opus 4.6, выявившая 13 из 20 багов.

«Распределение сложности имеет явную закономерность. Почти все агенты обнаружили шесть инцидентов с известными паттернами вроде манипуляций с резервами и переполнения при умножении. Однако четыре уязвимости остались незамеченными, а еще пять выявил лишь один бот из восьми», — отметил исследователь Чжоу.

По его словам, эти данные опровергают миф о скором переходе к полностью автоматизированному аудиту. ИИ хорошо распознает знакомые шаблоны и реагирует на заданный контекст, но не может заменить экспертное мышление.

Чжоу назвал EVMBench важным шагом к созданию отраслевых стандартов для оценки криптобезопасности. Он подчеркнул, что алгоритмы и аудиторы решают разные задачи, компенсируя слабые стороны друг друга.

«Вопрос не в том, заменит ли ИИ человека, а в их грамотном взаимодействии. Нейросети отвечают за охват и систематическое сканирование, а люди — за глубину, знание протоколов и анализ угроз. Вместе они обеспечивают комплексный аудит», — резюмировал эксперт, добавив, что индустрия должна двигаться в сторону гибридного подхода

Получайте свежие крипто-новости в нашем Телеграме >>

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Получайте новости первыми в нашем телеграм-канале!

X