Forwarded from Data Secrets
Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.
Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.
Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.
Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.
Что касается апдейтов в продукте:
– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.
– Из беты вышли Claude для Chrome и для Excel.
– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.
🔥 www.anthropic.com/news/claude-opus-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neural Kovalskii
Лучшие практики и подходы для RAG
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://t.me/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://t.me/neuraldeepchat/3176
2) https://t.me/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://t.me/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
(буду наполнять)
Очередной раз спросили в чате канала что почитать про RAG (https://t.me/neuraldeepchat)
Соберем тут все лучшее присылайте и ваши статьи и разборы
Тут материалы предыдущих ответов
1) https://t.me/neuraldeepchat/3176
2) https://t.me/neuraldeepchat/2953
1) Чанкование (sliding window) можно подглядеть концепты от langchain
2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)
3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B
4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B
5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0
Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)
Презентация от Дяди
Построение RAG систем от исследований до индустрии
Хорошо описанные подходы от Богдана
https://t.me/bogdanisssimo/2047
Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main
Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra
Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/
#RAG
#best_rag_practice
Сохраняй в избранное чтобы не потерять
Telegram
Чат Kovalskii Варианты?
Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!
Никакой политики
Мат, первое предупреждение, потом бан
Уважайте друг друга
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
Чат канала @neuraldeep
Kovalskii на все ответит!
Никакой политики
Мат, первое предупреждение, потом бан
Уважайте друг друга
Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76
🔥4👍1
Forwarded from БлоGнот
OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.
Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.
https://openai.com/index/gpt-5-2-for-science-and-math/
Openai
Advancing science and math with GPT-5.2
GPT-5.2 is our strongest model yet for math and science work.
❤1
Forwarded from эйай ньюз
Вышла Gemini 3 Flash
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.
Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.
Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).
Блогпост
@ai_newz
🤔1
Forwarded from Нейросети и Блендер
Media is too big
VIEW IN TELEGRAM
Документальный фильм «The Thinking Game»
Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).
😶🌫️ ☺️ Ниже приведены 10 аргументов, почему данная картина представляет ценность для всех, кто погружен в сферу AI:
Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.
Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.
Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.
Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.
Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.
Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.
Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.
Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.
Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.
Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.
Поглядеть можно тут.
Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).
Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.
Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.
Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.
Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.
Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.
Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.
Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.
Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.
Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.
Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.
Поглядеть можно тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from LLM под капотом
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
(2) Анализируем код, проглядываем журнал экспериментов и в файл
(3) реализуем код и запускаем
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
experiments/007-experiment.md(2) Анализируем код, проглядываем журнал экспериментов и в файл
experiments/007-experiment.md дописываем план для улучшения текущего score(3) реализуем код и запускаем
make eval. Если score стал лучше, то отправляем все в коммит с описанием(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"
for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
🔥3👍1
Forwarded from Радиорубка Лихачёва
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Cowork: агент для повседневных задач на компе
Компания тестирует агента на базе Claude с доступом к файлам и системным командам для нетехнических задач. Но пока только за сотку в месяц.
Anthropic анонсировала Claude Cowork — по сути это Claude Code, но для всех остальных задач, где не нужно программировать. Агент получает доступ к файлам на компьютере и может выполнять системные команды: разобрать завалы в документах, запланировать встречи в календаре, подготовить презентацию или прототип, обработать табличные данные.
Тул выходит в формате research preview: это намекает на то, что даже в Anthropic пока не до конца понимают, какие сценарии использования откроются. Запускают, смотрят, собирают фидбек: сначала выкатывают MVP, потом адаптируются под реальное поведение пользователей.
Claude Code за последние месяцы доказал свою полезность как инструмент для больших проектов: он берёт детальный план, разбивает на подзадачи и методично их выполняет, не отвлекаясь. Я сам на выходных распробовал его не только для программирования, но и для работы с большими массивами текстовых данных — штука реально экономит время там, где нужна последовательность и внимание к деталям.
Логично, что много нетехнических задач можно было бы делегировать похожему агенту. Вопрос всегда был в безопасности: Claude Code по умолчанию спрашивает разрешение перед любыми изменениями файлов или системных настроек. Судя по релизу Cowork, Anthropic нащупала баланс между автономностью агента и контролем пользователя.
Но есть нюансы. Во-первых, Claude Cowork доступен только подписчикам Max — это стоит $100 в месяц и выше. Во-вторых, агентные сценарии жрут токены как не в себя: на обычной подписке Pro я упираюсь в недельные лимиты почти моментально после того, как даю Claude Code серьёзную задачу. С Cowork, скорее всего, будет так же.
Тем не менее это ещё один маркер того, что 2026-й действительно становится годом агентов. Anthropic, OpenAI, Google, OpenCode — все двигаются в сторону того, чтобы дать AI не просто возможность отвечать на вопросы, но и выполнять многошаговые задачи с доступом к инструментам.
Вопрос только в том, насколько быстро эти инструменты станут доступны не только корпоративным клиентам и энтузиастам с жирными подписками, но и обычным пользователям. Пока что Anthropic тестирует спрос среди тех, кто готов платить.
Компания тестирует агента на базе Claude с доступом к файлам и системным командам для нетехнических задач. Но пока только за сотку в месяц.
Anthropic анонсировала Claude Cowork — по сути это Claude Code, но для всех остальных задач, где не нужно программировать. Агент получает доступ к файлам на компьютере и может выполнять системные команды: разобрать завалы в документах, запланировать встречи в календаре, подготовить презентацию или прототип, обработать табличные данные.
Тул выходит в формате research preview: это намекает на то, что даже в Anthropic пока не до конца понимают, какие сценарии использования откроются. Запускают, смотрят, собирают фидбек: сначала выкатывают MVP, потом адаптируются под реальное поведение пользователей.
Claude Code за последние месяцы доказал свою полезность как инструмент для больших проектов: он берёт детальный план, разбивает на подзадачи и методично их выполняет, не отвлекаясь. Я сам на выходных распробовал его не только для программирования, но и для работы с большими массивами текстовых данных — штука реально экономит время там, где нужна последовательность и внимание к деталям.
Логично, что много нетехнических задач можно было бы делегировать похожему агенту. Вопрос всегда был в безопасности: Claude Code по умолчанию спрашивает разрешение перед любыми изменениями файлов или системных настроек. Судя по релизу Cowork, Anthropic нащупала баланс между автономностью агента и контролем пользователя.
Но есть нюансы. Во-первых, Claude Cowork доступен только подписчикам Max — это стоит $100 в месяц и выше. Во-вторых, агентные сценарии жрут токены как не в себя: на обычной подписке Pro я упираюсь в недельные лимиты почти моментально после того, как даю Claude Code серьёзную задачу. С Cowork, скорее всего, будет так же.
Тем не менее это ещё один маркер того, что 2026-й действительно становится годом агентов. Anthropic, OpenAI, Google, OpenCode — все двигаются в сторону того, чтобы дать AI не просто возможность отвечать на вопросы, но и выполнять многошаговые задачи с доступом к инструментам.
Вопрос только в том, насколько быстро эти инструменты станут доступны не только корпоративным клиентам и энтузиастам с жирными подписками, но и обычным пользователям. Пока что Anthropic тестирует спрос среди тех, кто готов платить.
🤯2🔥1
Forwarded from Вайб-кодинг
Нашёл клад, а там этот skill: который лечит Cursor/Claude от типичного “AI-вайба” в интерфейсах.
Когда пишешь код с AI, то UI получается один и тот же: фиолетово-розовый градиент, шрифт😯
Этот oпенсорс проект просто упаковал базу знаний профессиональных UI-дизайнеров:
57 UI-стилей (glassmorphism, clay, минимализм, брутализм и т.д.)
95 наборов отраслевых цветовых схем
56 комбинаций шрифтов
100 дизайн-правил для разных индустрий
Поддерживает Cursor, Claude Code, Windsurf, Copilot, Kiro и почти все популярные AI-инструменты для программирования.
Установка одной командой:
Дальше просто пишешь
Когда пишешь код с AI, то UI получается один и тот же: фиолетово-розовый градиент, шрифт
Inter и белый фон, классический набор из трёх пунктов. Этот oпенсорс проект просто упаковал базу знаний профессиональных UI-дизайнеров:
57 UI-стилей (glassmorphism, clay, минимализм, брутализм и т.д.)
95 наборов отраслевых цветовых схем
56 комбинаций шрифтов
100 дизайн-правил для разных индустрий
Поддерживает Cursor, Claude Code, Windsurf, Copilot, Kiro и почти все популярные AI-инструменты для программирования.
Установка одной командой:
# Install CLI globally
npm install -g uipro-cli
# Go to your project
cd /path/to/your/project
# Install for your AI assistant
uipro init --ai claude # Claude Code
uipro init --ai cursor # Cursor
uipro init --ai windsurf # Windsurf
uipro init --ai antigravity # Antigravity (.agent + .shared)
uipro init --ai copilot # GitHub Copilot
uipro init --ai kiro # Kiro
uipro init --ai codex # Codex CLI
uipro init --ai qoder # Qoder
uipro init --ai roocode # Roo Code
uipro init --ai gemini # Gemini CLI
uipro init --ai trae # Trae
uipro init --ai all # All assistants
Дальше просто пишешь
/ui-ux-pro-max помоги сделать SaaS-лендинг и готово.Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤯3
Forwarded from DevOps
Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:
1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero
2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers
3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook
4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML
5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design
6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide
7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en
Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.
@DevOPSitsec
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🥰1
Forwarded from О чем молчит AI CTO
image_2026-01-19_09-03-37.png
444.3 KB
Агент == Бизнес-функция. Инженерный подход к проектированию
Рассмотрим проектирование агента поиска товаров в маркетплейсе по бенчмарку Store с ERC3. Попробуем подойти к проектированию агента с точки зрения структурного анализа.
Сначала посмотрим на схему #1 — из каких компонентов состоит Агент. Не буду их описывать, думаю вы и так понимаете, что они означают… НО что-то это напоминает… хм…
Да это вылитая схема
Если смотрели выступление Ильи у Валеры, то вспомните: он применил схему оркестратора с саб-агентами для решения бенчмарка store, и один из таких агентов был агент по поиску товаров, использующий ручку API
Давайте теперь опишем данного саб-агента с помощью методологии IDEF0:
1. Определим бизнес-функцию нашего агента как
2. На вход нашему агенту мы предоставляем
На этом этапе можно размышлять над краевыми случаями и собрать
3. Для функции «Подобрать товар» механизм представляет собой tool, назовем ее
4. В классическом менеджменте сверху находятся должностные инструкции, регламенты, ГОСТы и законы, но в нашем случае это будет Ролевая модель, Процедура поиска и Политики безопасности.
5. Ну и Вывод — это продукт или информация, полученная в результате работы функции. Это то, ради чего функция существует. В классическом чат-боте выводом считается текстовое сообщение пользователю. В инженерии автономных агентов выводом является структурированный ответ, передающий ответственность оркестратору.
Зачем это нужно?
Такая детализация позволяет еще до написания первой строки кода и промпта наглядно увидеть «дыры» в логике. Если вы не можете описать агента в этой схеме — значит, вы пока не знаете, что именно строите.
Хотите пример требований и кода по методологии? Поставьте реакцию, чтобы я знал, что вам это интересно 👇
Рассмотрим проектирование агента поиска товаров в маркетплейсе по бенчмарку Store с ERC3. Попробуем подойти к проектированию агента с точки зрения структурного анализа.
Сначала посмотрим на схему #1 — из каких компонентов состоит Агент. Не буду их описывать, думаю вы и так понимаете, что они означают… НО что-то это напоминает… хм…
Да это вылитая схема
IDEF0 (см. схему #2 для понимания) по описанию бизнес-функций! Слева вход — запрос пользователя или другого агента, сверху инструкции, правила поведения и навыки, снизу инструментарий для выполнения бизнес-функции, ну а справа выход.Если смотрели выступление Ильи у Валеры, то вспомните: он применил схему оркестратора с саб-агентами для решения бенчмарка store, и один из таких агентов был агент по поиску товаров, использующий ручку API
/products/list (см. схему #3).Давайте теперь опишем данного саб-агента с помощью методологии IDEF0:
1. Определим бизнес-функцию нашего агента как
«Подобрать товар» — анализ каталога товаров и выявление позиции, соответствующей запросу. Мы выбираем «Подобрать», а не просто «Найти» или «Сканировать», потому что агент выполняет сложную когнитивную работу: он не просто делает запрос в базу (как поисковик), а итеративно сканирует каталог, фильтрует результаты в памяти и валидирует их на соответствие нечетким критериям пользователя.
2. На вход нашему агенту мы предоставляем
«поисковый запрос с критериями фильтрации» — текстовая строка на естественном языке, содержащая как намерение («найди»), так и ограничения («дешевле 500», «красный»). Пример: «Нужна игровая видеокарта не дороже 60000 рублей, желательно Asus».
На этом этапе можно размышлять над краевыми случаями и собрать
Evaluation Dataset.3. Для функции «Подобрать товар» механизм представляет собой tool, назовем ее
get_product_list. В нашем случае это будет простая обертка вокруг API /products/list. Мы осознанно не упоминаем в механизмах LLM, так как это больше НФТ (нефункциональное требование), нежели бизнес-требование.
4. В классическом менеджменте сверху находятся должностные инструкции, регламенты, ГОСТы и законы, но в нашем случае это будет Ролевая модель, Процедура поиска и Политики безопасности.
Важно: мы не отбираем у исследователей работу с промптом, но указываем в требованиях общие рекомендации.
5. Ну и Вывод — это продукт или информация, полученная в результате работы функции. Это то, ради чего функция существует. В классическом чат-боте выводом считается текстовое сообщение пользователю. В инженерии автономных агентов выводом является структурированный ответ, передающий ответственность оркестратору.
Рекомендую сразу размышлять над негативными сценариями: как мы будем обрабатывать ошибки.
Зачем это нужно?
Такая детализация позволяет еще до написания первой строки кода и промпта наглядно увидеть «дыры» в логике. Если вы не можете описать агента в этой схеме — значит, вы пока не знаете, что именно строите.
Хотите пример требований и кода по методологии? Поставьте реакцию, чтобы я знал, что вам это интересно 👇
👍5
Forwarded from Machinelearning
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
@ai_machinelearning_big_data
#AI #ML #LLM #GLM #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🥰2
Forwarded from Вайб-кодинг
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи собрали новый подход к RAG, который:
* не требует vector DB
* не делает эмбеддинги
* не режет документы на чанки
* не выполняет similarity search
И он показал 98,7% точности на финансовом бенчмарке (SOTA).
Вот какую ключевую проблему классического RAG этот подход решает:
Обычный RAG режет документы на чанки, превращает их в векторы и достает фрагменты по семантической похожести.
Но похожесть ≠ релевантность.
Когда ты спрашиваешь: "Какие были тренды по долгу в 2023?", векторный поиск вернет куски, которые семантически похожи на запрос.
А реальный ответ может быть спрятан где-нибудь в Appendix, упомянут ссылкой на другой странице, в разделе, который вообще не пересекается по смысловым словам с твоим вопросом.
Классический RAG, скорее всего, это просто не найдет.
PageIndex это закрывает.
Вместо чанкинга и эмбеддингов PageIndex строит иерархическое дерево структуры документа, по сути умную "таблицу содержания".
А дальше модель рассуждением проходит по этому дереву.
То есть она не спрашивает: "Какой текст больше всего похож на мой запрос?"
Она спрашивает: "Судя по структуре документа, где бы человек-эксперт искал ответ?"
Это принципиально другой подход, у которого:
* нет произвольного чанкинга, который рвет контекст
* не нужно тащить и обслуживать vector DB
* retrieval трассируемый: видно, почему выбрали конкретный раздел
* можно нормально ходить по внутренним ссылкам документа ("см. Table 5.3"), как делает человек
Но глубже проблема вот в чем.
Векторный поиск воспринимает каждый запрос как независимый.
А документы имеют структуру и логику: разделы ссылаются друг на друга, контекст накапливается по страницам.
PageIndex уважает эту структуру, вместо того чтобы сплющивать все в эмбеддинги.
При этом важно: такой подход не везде имеет смысл, потому что классический vector search все еще быстрый, простой и отлично работает во многих кейсах.
Но для проф-документов, где нужна доменная экспертиза и многошаговые рассуждения, tree-based, reasoning-first подход реально раскрывается.
Например, PageIndex показал 98,7% точности на FinanceBench и заметно обогнал традиционные vector-based RAG системы в разборе сложных финансовых документов.
Все полностью в oпенсорс, можно посмотреть реализацию на GitHub и попробовать самому.
* не требует vector DB
* не делает эмбеддинги
* не режет документы на чанки
* не выполняет similarity search
И он показал 98,7% точности на финансовом бенчмарке (SOTA).
Вот какую ключевую проблему классического RAG этот подход решает:
Обычный RAG режет документы на чанки, превращает их в векторы и достает фрагменты по семантической похожести.
Но похожесть ≠ релевантность.
Когда ты спрашиваешь: "Какие были тренды по долгу в 2023?", векторный поиск вернет куски, которые семантически похожи на запрос.
А реальный ответ может быть спрятан где-нибудь в Appendix, упомянут ссылкой на другой странице, в разделе, который вообще не пересекается по смысловым словам с твоим вопросом.
Классический RAG, скорее всего, это просто не найдет.
PageIndex это закрывает.
Вместо чанкинга и эмбеддингов PageIndex строит иерархическое дерево структуры документа, по сути умную "таблицу содержания".
А дальше модель рассуждением проходит по этому дереву.
То есть она не спрашивает: "Какой текст больше всего похож на мой запрос?"
Она спрашивает: "Судя по структуре документа, где бы человек-эксперт искал ответ?"
Это принципиально другой подход, у которого:
* нет произвольного чанкинга, который рвет контекст
* не нужно тащить и обслуживать vector DB
* retrieval трассируемый: видно, почему выбрали конкретный раздел
* можно нормально ходить по внутренним ссылкам документа ("см. Table 5.3"), как делает человек
Но глубже проблема вот в чем.
Векторный поиск воспринимает каждый запрос как независимый.
А документы имеют структуру и логику: разделы ссылаются друг на друга, контекст накапливается по страницам.
PageIndex уважает эту структуру, вместо того чтобы сплющивать все в эмбеддинги.
При этом важно: такой подход не везде имеет смысл, потому что классический vector search все еще быстрый, простой и отлично работает во многих кейсах.
Но для проф-документов, где нужна доменная экспертиза и многошаговые рассуждения, tree-based, reasoning-first подход реально раскрывается.
Например, PageIndex показал 98,7% точности на FinanceBench и заметно обогнал традиционные vector-based RAG системы в разборе сложных финансовых документов.
Все полностью в oпенсорс, можно посмотреть реализацию на GitHub и попробовать самому.
👍4🤯4❤2
Forwarded from Denis Sexy IT 🤖
Тут в деталях разобрали, что входит в 200$ подписку на Claude Code:
За 200$ вы покупаете $2708 аналога трат по API,
За 100$ – $1354
За 20$ – $163
При этом, все обращения в кеш диалога от клод кода стоят 0 денег – что делает эти подписки еще более секси; по API кэшированные запросы стоят 10% от стоимости на каждое чтение (кэширование запросов это когда у вас история чата с LLM не меняется и увеличивается от каждого хода, вот ее провайдеры API продают со скидкой – иначе дорого выходит)
В итоге, получается, что тарифный план за 100$ выгоднее API почти в 37 раз (!) – не понимаю как любой стартап может конкурировать с этим, строя своего кодинг агента☕️
Тут все расчеты:
https://she-llac.com/claude-limits
За 200$ вы покупаете $2708 аналога трат по API,
За 100$ – $1354
За 20$ – $163
При этом, все обращения в кеш диалога от клод кода стоят 0 денег – что делает эти подписки еще более секси; по API кэшированные запросы стоят 10% от стоимости на каждое чтение (кэширование запросов это когда у вас история чата с LLM не меняется и увеличивается от каждого хода, вот ее провайдеры API продают со скидкой – иначе дорого выходит)
В итоге, получается, что тарифный план за 100$ выгоднее API почти в 37 раз (!) – не понимаю как любой стартап может конкурировать с этим, строя своего кодинг агента
Тут все расчеты:
https://she-llac.com/claude-limits
Please open Telegram to view this post
VIEW IN TELEGRAM
she-llac
suspiciously precise floats, or, how I got Claude's real limits
I reverse-engineered Claude's hidden subscription usage caps from two unrounded utilization floats, recovered exact denominators via Stern-Brocot, and compared what Pro/Max actually buy you versus API pricing (including caching).
Forwarded from Вайб-кодинг
Опытные пользователи Claude Code, вам стоит это увидеть.
Есть публичный репозиторий, который по сути как полноценная ОС для Claude Code: агенты, skills, hooks, команды, правила, конфиги MCP, всё уже связали и можно просто подключать.
Можешь просто посмотреть (или забрать себе) целиком. Это мнение автора, которое уже обкатали на реальных проектах.
Есть публичный репозиторий, который по сути как полноценная ОС для Claude Code: агенты, skills, hooks, команды, правила, конфиги MCP, всё уже связали и можно просто подключать.
Можешь просто посмотреть (или забрать себе) целиком. Это мнение автора, которое уже обкатали на реальных проектах.
GitHub
GitHub - affaan-m/everything-claude-code: Complete Claude Code configuration collection - agents, skills, hooks, commands, rules…
Complete Claude Code configuration collection - agents, skills, hooks, commands, rules, MCPs. Battle-tested configs from an Anthropic hackathon winner. - affaan-m/everything-claude-code
👍3🤯1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Google начали раскатывать доступ к Genie 3
Пока что модель доступна лишь подписчикам Ultra. Юзеры могут создать набросок мира с помощью Nano Banana Pro, перед тем как туда залететь. Также есть библиотека готовых миров, которые можно ремиксить. Длина симуляции до 60 секунд, а видео можно потом скачать.
http://labs.google/projectgenie/
@ai_newz
Пока что модель доступна лишь подписчикам Ultra. Юзеры могут создать набросок мира с помощью Nano Banana Pro, перед тем как туда залететь. Также есть библиотека готовых миров, которые можно ремиксить. Длина симуляции до 60 секунд, а видео можно потом скачать.
http://labs.google/projectgenie/
@ai_newz
🔥3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустили инструмент для написания пейперов
Prism построен на базе купленного OpenAI стартапа Crixet. Представляет он из себя совместный LaTeX редактор с интегрированным внутрь ChatGPT. Он может проверить цитаты, перевести диаграмму/формулу из наброска в LaTeX и т.д. Prism доступен бесплатно всем желающим, но подписчикам ChatGPT обещают как-то потом докинуть продвинутых фичей.
prism.openai.com
@ai_newz
Prism построен на базе купленного OpenAI стартапа Crixet. Представляет он из себя совместный LaTeX редактор с интегрированным внутрь ChatGPT. Он может проверить цитаты, перевести диаграмму/формулу из наброска в LaTeX и т.д. Prism доступен бесплатно всем желающим, но подписчикам ChatGPT обещают как-то потом докинуть продвинутых фичей.
prism.openai.com
@ai_newz
❤3
Forwarded from Life2film
Invoice CRM - файловая мини-CRM для инвойсов в PDF.
Сделал для себя и решил поделиться.
Главная фишка — всё управляется через Claude Code или любого другого AI-агента. Говоришь “сделай инвойс для Startup Inc на 5000 евро” — получаешь готовый PDF.
Что под капотом:
• База постоянных клиентов и провайдеров в YAML
• Реквизиты компаний и банков для переиспользования
• Шаблоны на Jinja2 - можно делать любые PDF-документы, хоть афиши
• QR-коды для оплаты (EUR/SEPA, TRY, USD/SWIFT, крипто)
• Цифровая подпись PDF
• Шифрование через age (хоть весь архив)
Всё через Make:
• make invoice-startup # инвойс пример
• make cards # карточки реквизитов
• make list # список клиентов
Стек: Python + Jinja2 + Pydantic + WeasyPrint
github.com/fortunto2/invoice-crm
Сделал для себя и решил поделиться.
Главная фишка — всё управляется через Claude Code или любого другого AI-агента. Говоришь “сделай инвойс для Startup Inc на 5000 евро” — получаешь готовый PDF.
Что под капотом:
• База постоянных клиентов и провайдеров в YAML
• Реквизиты компаний и банков для переиспользования
• Шаблоны на Jinja2 - можно делать любые PDF-документы, хоть афиши
• QR-коды для оплаты (EUR/SEPA, TRY, USD/SWIFT, крипто)
• Цифровая подпись PDF
• Шифрование через age (хоть весь архив)
Всё через Make:
• make invoice-startup # инвойс пример
• make cards # карточки реквизитов
• make list # список клиентов
Стек: Python + Jinja2 + Pydantic + WeasyPrint
github.com/fortunto2/invoice-crm