🧪 Model Testing Report

Дата: 31 марта 2026, 09:35—09:39 UTC

5 моделей протестировано 3 вопроса (Q1, Q2, Q3) Minimax, GLM, Kimi, Nemotron

Q1: Время (UTC/MSK) — Простой вопрос

Вопрос: «Сколько сейчас времени в UTC и MSK?»

Модель	Время ответа	Результат	Оценка
glm-5:cloud	0.5 сек	✅ 09:36 UTC / 12:36 MSK (2026-03-31)	5/5
minimax-m2.5:cloud	2 сек	✅ 09:36 UTC / 12:36 MSK	5/5
kimi-k2.5:cloud	2 сек	✅ 09:36 UTC / 12:36 MSK (2026-03-31)	5/5
minimax-m2.7:cloud	3 сек	✅ 09:36:32 UTC / 12:36:32 MSK	5/5
nemotron-3-super:cloud	0.69 сек	❌ Галлюцинация! — выдала 2024-06-15 вместо 2026-03-31	1/5

Q2: curl статусы — Средний вопрос

Вопрос: «Проверь curl статус Kanban и n8n»

Модель	Kanban	n8n	Результат	Оценка
glm-5:cloud	200 ✅	200 ✅	Оба сервиса доступны	5/5
minimax-m2.5:cloud	200 ✅	200 ✅	Оба сервиса работают	5/5
kimi-k2.5:cloud	200 ✅	200 ✅	HTTP 200 OK для обоих	5/5
minimax-m2.7:cloud	200 ✅	200 ✅	Оба сервиса работают	5/5
nemotron-3-super:cloud	200 ✅	200 ✅	curl корректен, данные верны	5/5

Q3: Резюме AI агентов — Сложный вопрос

Вопрос: «Напиши краткое резюме про AI агентов (3-4 предложения)»

glm-5:cloud:
Время ответа: 2 сек | Оценка: 5/5

AI-агенты — это автономные системы, способные воспринимать окружение, принимать решения и выполнять действия для достижения поставленных целей без постоянного человеческого контроля. Современные агенты используют LLM как «мозг» для планирования, рассуждений и адаптации к новым ситуациям, комбинируя их с инструментами (веб-поиск, API, файловая система) для выхода за пределы чистого текста. Ключевые архитектурные паттерны включают ReAct (рассуждение → действие), chain-of-thought планирование и иерархическую декомпозицию задач. Главная сложность — баланс между автономностью и безопасностью, а также надёжная оценка намерений пользователя.

📊 Итоговая таблица

Модель	Q1	Q2	Q3	Итог	verdict
glm-5:cloud	5	5	5	⭐ 5/5	РЕКОМЕНДОВАН
minimax-m2.5:cloud	5	5	—	5/5	РЕКОМЕНДОВАН
kimi-k2.5:cloud	5	5	—	5/5	Подтверждён для cron
minimax-m2.7:cloud	5	5	—	5/5	Primary (main)
nemotron-3-super:cloud	1	5	—	3/5 ⚠️	НЕ использовать

🔍 Ключевые выводы

            ✅ glm-5:cloud — Лучший fallback
            Самое быстрое время ответа: 0.5 сек (vs 2-3 сек у остальных)
Короткие точные ответы, хорошо следует формату
Корректно определяет дату и время
Рекомендуется как fallback #1

        

            ✅ minimax-m2.5:cloud — Стабильный
            Время ответа: 2 сек
Все ответы корректны
Рекомендуется как fallback #2

        

            ⚠️ nemotron-3-super:cloud — Опасная
            Критический баг: галлюцинирует даты — выдала 2024-06-15 вместо 2026-03-31
Скорость быстрая (0.69 сек)
curl/Q2 работает корректно
Вывод: оставить в конфиге, но НЕ использовать автоматически

        

📋 Рекомендации

Действия по результатам:

✅ nemotron добавлен в конфиг (доступен для ручного выбора)
✅ Убран из fallback списка main агента (автоматически не используется)
✅ Подтверждено: все 4 остальные модели работают корректно
✅ glm-5 рекомендуется как primary fallback

⚙️ Конфигурация после теста

Рекомендуемый порядок fallback для main:

fallbacks: 1. ollama/glm-5:cloud # 0.5с — самый быстрый 2. ollama/minimax-m2.5:cloud # 2с — стабильный 3. ollama/nemotron-3-super:cloud # только по запросу!

🤖 Конфигурация агентов

Агент	Модель	Статус
main	minimax-m2.7:cloud	Primary
cron	kimi-k2.5:cloud	Подтверждена
worker	qwen3-coder-next:cloud	Без изменений
researcher	gemini-3-flash-preview:latest	Без изменений

Report generated by Fayrik • 2026-03-31