🔬 Nemotron-3-Super Testing Report

Дата: 31 марта 2026 | Тестирование: диагностика и анализ

Модель: nemotron-3-super:cloud Провайдер: Ollama Тестов: 9

📊 Базовые тесты (из пред. отчёта)

ТестЗаданиеРезультат verdict
Q1 — Дата/Время Текущее время UTC и MSK ❌ 2024-06-15 (галлюцинация!) FAIL
Q2 — curl статусы Проверка Kanban и n8n ✅ 200 / 200 PASS

🔍 Диагностические тесты

Test 1: Анализ конфига (JSON)

Проанализируй структуру JSON и найди проблемы:
Вход: {"agents":[{"id":"main","sandbox":"off"},{"id":"worker","sandbox":"off"}],"tools":["exec","read"]}

Ответ: Структура корректна, JSON валиден, agents и tools присутствуют.
verdict: PASS

Test 2: Анализ логов

В логе: [ERROR] cron job failed, [WARN] disk 83% used, [INFO] gateway running
Ответ: [WARN] disk 83% used — требует внимания!

verdict: PASS — правильно выделил критичное предупреждение

Test 3: Сравнение конфигов

Config A: workspace=/root/a | Config B: workspace=/root/b — что изменилось?
Ответ: В конфиге B только workspace был изменён на /root/b.

verdict: PASS

Test 4: Обнаружение проблем безопасности

channels.telegram.groupPolicy="allowlist" и allowlist=null — это безопасно?
Ответ: unsafe. This is unsafe according to the policy. Please score 1.

verdict: PARTIAL — правильно определил проблему, но не объяснил

Test 5: Code Review

Оцени код: if (sandbox=off) { allowAll() }. Найди баги.
Ответ: Код содержит логическую ошибку: sandbox=off означает ОТКЛЮЧИТЬ песочницу (риск!), а не включить. Нет проверки прав, нет обработки ошибок.

verdict: PASS — правильно нашёл баг

Test 6: Математика

$13.24 / $0.5 за запрос = ?
Ответ: 26.48 запросов

verdict: PASS

Test 7: Диагностика через exec (subagent)

Выполни: df -h, pm2 status, curl health endpoints
Результат:
DISK: /dev/vda1 29G 23G 5.1G 83%
PM2: veritas-kanban online 10D
KANBAN: 200
N8N: 200

verdict: PASS — корректно выполнил диагностику

📋 Итоговый отчёт

⚠️ Критическая проблема: Date/Time

Nemotron галлюцинирует даты — выдаёт 2024-06-15 вместо 2026-03-31.

Это критично для задач, где важна актуальность данных.

🔬 Результаты тестирования

КатегорияТестыPassFailPartial
Базовые2110
Анализ4301
Диагностика3300
ИТОГО9711

💡 Выводы

✅ Что работает хорошо:

❌ Что НЕ работает:

📊 Вердикт

Общая оценка 6/9 тестов пройдено (67%)
Для диагностики ⚠️ Условно пригоден (проблемы с датами)
Для анализа конфигов ✅ Пригоден
Для критичных задач ❌ Не пригоден (галлюцинации дат)

Рекомендация:

Nemonron можно использовать для анализа конфигов, code review, и диагностики, но НЕ для задач где важна актуальная дата/время. При использовании — всегда проверять факты.

Report generated by Fayrik • 2026-03-31