Generative Ai – Telegram

Generative Ai

@deeplearning_ru

3.6K subscribers

292 photos

121 videos

8 files

843 links

Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film

Download Telegram

About

Blog

Apps

Platform

3.6K subscribers

Forwarded from Data Secrets

⚡️

Иии… Anthropic выпустили Claude Opus 4.5

Это первая модель, которая пробила планку 80 на SWE bench verified. С ее 80.9% это теперь уверенная SOTA по кодингу.

Модель уже доступна в API, и, что самое приятное, цена относительно предыдущего Opus упала! Было 15$/75$, стало 5/25, ощутимое понижение.

Плюс, модель снова стала экономичнее относительно токенов: на среднем уровне ризонинга она достигает уровня Sonnet 4.5, используя на 76% меньше токенов. А при выкрученном на максимум бюджете обходит Sonnet аж на 4.3 процентных пункта (SWE bench), используя на 48% меньше токенов.

Anthropic пишут, что скормили Opus 4.5 внутренний экзамен, который они дают кандидатам при устройстве на работу. За 2 часа модель справилась с ним лучше, чем любой человек когда-либо в истории стартапа.

Что касается апдейтов в продукте:

– В Claude App добавили сжатие контекста, как в новом Codex. При достижении лимита старый контекст суммаризуется и передается в новое контекстное окно, и вы не упираетесь в конец диалога. Кроме того, теперь в десктопное приложение завезли Claude Code, и там его можно параллелить на разные задачки.

– Из беты вышли Claude для Chrome и для Excel.

– Теперь можно самостоятельно контролировать время размышлений, есть режимы low, high и medium.

🔥 www.anthropic.com/news/claude-opus-4-5

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.14K views23:00

Forwarded from Neural Kovalskii

Лучшие практики и подходы для RAG
(буду наполнять)

Очередной раз спросили в чате канала что почитать про RAG (https://t.me/neuraldeepchat)

Соберем тут все лучшее присылайте и ваши статьи и разборы

Тут материалы предыдущих ответов

1) https://t.me/neuraldeepchat/3176
2) https://t.me/neuraldeepchat/2953

1) Чанкование (sliding window) можно подглядеть концепты от langchain

2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)

3) Векторные модели для ру
ai-sage/Giga-Embeddings-instruct
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B

4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B

5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0

Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)

Презентация от Дяди
Построение RAG систем от исследований до индустрии

Хорошо описанные подходы от Богдана
https://t.me/bogdanisssimo/2047

Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main

Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra

Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/

#RAG
#best_rag_practice

Сохраняй в избранное чтобы не потерять

Чат Kovalskii Варианты?

Ask about ALL
Чат канала @neuraldeep
Kovalskii на все ответит!

Никакой политики
Мат, первое предупреждение, потом бан

Уважайте друг друга

Реклама/Вакансии/Рефы через @VaKovaLskii или @mixaill76

🔥4👍1

1.3K views19:49

Forwarded from БлоGнот

OpenAI выкатила GPT-5.2 Pro и GPT-5.2 Thinking — по заявлению компании, лучшие в мире модели для научной работы. На бенчмарке GPQA Diamond, где вопросы уровня аспирантуры специально составлены так, чтобы ответ нельзя было найти через поиск, Pro-версия показывает 93.2%. На FrontierMath — 40.3% решённых задач экспертного уровня, новый рекорд.

Интересно, что OpenAI явно в математических задачах видит движение к AGI. Правда, это можно назвать поисками ключей под фонарем — ответы в математике легко верифицируются, в отличие от биологии или, упаси боже, философии.

Новая модель уже сегодня доступна в ChatGPT и API, правда, стоимость выше, чем у предыдущей версии процентов на 40. С другой стороны, Gemini 3 Pro тоже дороже, чем Gemini 2.5 Pro, надо же как-то зарабатывать.

https://openai.com/index/gpt-5-2-for-science-and-math/

Advancing science and math with GPT-5.2

GPT-5.2 is our strongest model yet for math and science work.

❤1

1.21K views20:20

Forwarded from эйай ньюз

Вышла Gemini 3 Flash

Выносит по бенчам 2.5 Pro в одни ворота, при этом будучи значительно дешевле. На паре бенчмарков обгоняет даже Gemini 3 Pro. Поддерживает тот же миллион токенов контекста что и большая модель. На вход принимает текст, аудио и картинки, но на выход идёт только текст (по крайней мере пока что). При этом Gemini 3 Flash это гибридный ризонер — можно отключить рассуждения, как и с 2.5 Flash.

Цену за токен по сравнению с 2.5 Flash повысили. Заявляют что вместе с этим повысили и эффективность использования токенов. Это в теории должно было компенсировать повышение цены, но тесты говорят об обратном, по крайней мере с включённым ризонингом.

Модель уже доступна в ai.studio, Antigravity, чате и API. AI режим Google тоже переводят Gemini 3 Flash уже сегодня (наконец-то там будете нормальная модель).

Блогпост

@ai_newz

🤔1

1.02K views12:20

Forwarded from Нейросети и Блендер

Media is too big

VIEW IN TELEGRAM

Документальный фильм «The Thinking Game»

Это детальная фиксация научного процесса в Google DeepMind, демонстрирующая путь от теоретических концепций к созданию систем уровня схожего с AGI (общего искусственного интеллекта).

😶‍🌫️

☺️ Ниже приведены 10 аргументов, почему данная картина представляет ценность для всех, кто погружен в сферу AI:

Междисциплинарный бэкграунд Демиса Хассабиса. Биография CEO DeepMind объединяет шахматы, геймдев и нейробиологию. Это подтверждает тезис о том, что для создания искусственного разума необходимо глубокое понимание принципов работы разума биологического.

Видеоигры как полигон для обучения. Лента технически грамотно обосновывает использование сред Atari и StarCraft II. Они служат идеальными симуляциями для безопасного тестирования алгоритмов перед их внедрением в реальный мир.

Значение AlphaGo. Эпизод с матчем против Ли Седоля и знаменитым «Ходом 37» наглядно демонстрирует появление у машины подобия интуиции и способности к нестандартным стратегическим решениям.

Фундаментальная наука против «быстрых результатов». Фильм противопоставляет академический подход DeepMind культуре стартапов Кремниевой долины. Здесь приоритет отдается долгосрочным исследованиям, а не немедленному релизу продуктов.

Решение проблемы фолдинга белков. История создания AlphaFold показывает практическую мощь нейросетей. Алгоритм решил задачу, над которой биологи бились 50 лет, что открывает новые горизонты в медицине и фармацевтике.

Наглядность обучения с подкреплением (RL). Зрителю демонстрируется процесс обучения агентов «с нуля» методом проб и ошибок, что является лучшей визуализацией принципов работы Reinforcement Learning.

Психология научных открытий. Картина не скрывает человеческий фактор, показывая моменты тупика и разочарований исследователей. Это напоминает о том, что за сложными алгоритмами стоит упорный труд людей.

Вопросы безопасности и этики. Проводятся прямые параллели с «Проектом Манхэттен» и Робертом Оппенгеймером. Хассабис акцентирует внимание на экзистенциальных рисках создания сверхразума и ответственности разработчиков.

Внутренняя архитектура DeepMind. Фильм предоставляет редкий доступ к внутренней кухне лаборатории, демонстрируя методы мозговых штурмов и специфику управления командой гениев.

Осознание исторического контекста. После просмотра формируется четкое понимание: мы являемся свидетелями технологического сдвига, сопоставимого по масштабу с промышленной революцией или открытием электричества.

Поглядеть можно тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

872 views08:08

Forwarded from LLM под капотом

Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher

Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.

Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).

LLM под капотом проекта:

- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.

При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.

Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:

- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.

Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.

Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.

Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:

(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в experiments/007-experiment.md
(2) Анализируем код, проглядываем журнал экспериментов и в файл experiments/007-experiment.md дописываем план для улучшения текущего score
(3) реализуем код и запускаем make eval. Если score стал лучше, то отправляем все в коммит с описанием
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.

Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:


PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"

for ((start_index=0; start_index<=50; start_index+=1)); do
  codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done

Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.

Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.

Ваш, @llm_under_hood 🤗

PS: Список всех кейсов канала

🔥3👍1

788 views17:38

Forwarded from Радиорубка Лихачёва

This media is not supported in your browser

VIEW IN TELEGRAM

Claude Cowork: агент для повседневных задач на компе

Компания тестирует агента на базе Claude с доступом к файлам и системным командам для нетехнических задач. Но пока только за сотку в месяц.

Anthropic анонсировала Claude Cowork — по сути это Claude Code, но для всех остальных задач, где не нужно программировать. Агент получает доступ к файлам на компьютере и может выполнять системные команды: разобрать завалы в документах, запланировать встречи в календаре, подготовить презентацию или прототип, обработать табличные данные.

Тул выходит в формате research preview: это намекает на то, что даже в Anthropic пока не до конца понимают, какие сценарии использования откроются. Запускают, смотрят, собирают фидбек: сначала выкатывают MVP, потом адаптируются под реальное поведение пользователей.

Claude Code за последние месяцы доказал свою полезность как инструмент для больших проектов: он берёт детальный план, разбивает на подзадачи и методично их выполняет, не отвлекаясь. Я сам на выходных распробовал его не только для программирования, но и для работы с большими массивами текстовых данных — штука реально экономит время там, где нужна последовательность и внимание к деталям.

Логично, что много нетехнических задач можно было бы делегировать похожему агенту. Вопрос всегда был в безопасности: Claude Code по умолчанию спрашивает разрешение перед любыми изменениями файлов или системных настроек. Судя по релизу Cowork, Anthropic нащупала баланс между автономностью агента и контролем пользователя.

Но есть нюансы. Во-первых, Claude Cowork доступен только подписчикам Max — это стоит $100 в месяц и выше. Во-вторых, агентные сценарии жрут токены как не в себя: на обычной подписке Pro я упираюсь в недельные лимиты почти моментально после того, как даю Claude Code серьёзную задачу. С Cowork, скорее всего, будет так же.

Тем не менее это ещё один маркер того, что 2026-й действительно становится годом агентов. Anthropic, OpenAI, Google, OpenCode — все двигаются в сторону того, чтобы дать AI не просто возможность отвечать на вопросы, но и выполнять многошаговые задачи с доступом к инструментам.

Вопрос только в том, насколько быстро эти инструменты станут доступны не только корпоративным клиентам и энтузиастам с жирными подписками, но и обычным пользователям. Пока что Anthropic тестирует спрос среди тех, кто готов платить.

🤯2🔥1

707 views08:19

Forwarded from Вайб-кодинг

Нашёл клад, а там этот skill: который лечит Cursor/Claude от типичного “AI-вайба” в интерфейсах.

Когда пишешь код с AI, то UI получается один и тот же: фиолетово-розовый градиент, шрифт Inter и белый фон, классический набор из трёх пунктов. 😯

Этот oпенсорс проект просто упаковал базу знаний профессиональных UI-дизайнеров:

57 UI-стилей (glassmorphism, clay, минимализм, брутализм и т.д.)
95 наборов отраслевых цветовых схем
56 комбинаций шрифтов
100 дизайн-правил для разных индустрий

Поддерживает Cursor, Claude Code, Windsurf, Copilot, Kiro и почти все популярные AI-инструменты для программирования.

Установка одной командой:

# Install CLI globally
npm install -g uipro-cli

# Go to your project
cd /path/to/your/project

# Install for your AI assistant
uipro init --ai claude      # Claude Code
uipro init --ai cursor      # Cursor
uipro init --ai windsurf    # Windsurf
uipro init --ai antigravity # Antigravity (.agent + .shared)
uipro init --ai copilot     # GitHub Copilot
uipro init --ai kiro        # Kiro
uipro init --ai codex       # Codex CLI
uipro init --ai qoder       # Qoder
uipro init --ai roocode     # Roo Code
uipro init --ai gemini      # Gemini CLI
uipro init --ai trae        # Trae
uipro init --ai all         # All assistants

Дальше просто пишешь /ui-ux-pro-max помоги сделать SaaS-лендинг и готово.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4🤯3

470 views08:55

Forwarded from DevOps

🤖

Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.

@DevOPSitsec

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🥰1

488 views12:44

Forwarded from О чем молчит AI CTO

image_2026-01-19_09-03-37.png

Агент == Бизнес-функция. Инженерный подход к проектированию

Рассмотрим проектирование агента поиска товаров в маркетплейсе по бенчмарку Store с ERC3. Попробуем подойти к проектированию агента с точки зрения структурного анализа.

Сначала посмотрим на схему #1 — из каких компонентов состоит Агент. Не буду их описывать, думаю вы и так понимаете, что они означают… НО что-то это напоминает… хм…

Да это вылитая схема IDEF0 (см. схему #2 для понимания) по описанию бизнес-функций! Слева вход — запрос пользователя или другого агента, сверху инструкции, правила поведения и навыки, снизу инструментарий для выполнения бизнес-функции, ну а справа выход.

Если смотрели выступление Ильи у Валеры, то вспомните: он применил схему оркестратора с саб-агентами для решения бенчмарка store, и один из таких агентов был агент по поиску товаров, использующий ручку API /products/list (см. схему #3).

Давайте теперь опишем данного саб-агента с помощью методологии IDEF0:

1. Определим бизнес-функцию нашего агента как «Подобрать товар» — анализ каталога товаров и выявление позиции, соответствующей запросу.

Мы выбираем «Подобрать», а не просто «Найти» или «Сканировать», потому что агент выполняет сложную когнитивную работу: он не просто делает запрос в базу (как поисковик), а итеративно сканирует каталог, фильтрует результаты в памяти и валидирует их на соответствие нечетким критериям пользователя.

2. На вход нашему агенту мы предоставляем «поисковый запрос с критериями фильтрации» — текстовая строка на естественном языке, содержащая как намерение («найди»), так и ограничения («дешевле 500», «красный»).

Пример: «Нужна игровая видеокарта не дороже 60000 рублей, желательно Asus».

На этом этапе можно размышлять над краевыми случаями и собрать Evaluation Dataset.

3. Для функции «Подобрать товар» механизм представляет собой tool, назовем ее get_product_list. В нашем случае это будет простая обертка вокруг API /products/list.

Мы осознанно не упоминаем в механизмах LLM, так как это больше НФТ (нефункциональное требование), нежели бизнес-требование.

4. В классическом менеджменте сверху находятся должностные инструкции, регламенты, ГОСТы и законы, но в нашем случае это будет Ролевая модель, Процедура поиска и Политики безопасности.

Важно: мы не отбираем у исследователей работу с промптом, но указываем в требованиях общие рекомендации.

5. Ну и Вывод — это продукт или информация, полученная в результате работы функции. Это то, ради чего функция существует. В классическом чат-боте выводом считается текстовое сообщение пользователю. В инженерии автономных агентов выводом является структурированный ответ, передающий ответственность оркестратору.

Рекомендую сразу размышлять над негативными сценариями: как мы будем обрабатывать ошибки.

Зачем это нужно?

Такая детализация позволяет еще до написания первой строки кода и промпта наглядно увидеть «дыры» в логике. Если вы не можете описать агента в этой схеме — значит, вы пока не знаете, что именно строите.

Хотите пример требований и кода по методологии? Поставьте реакцию, чтобы я знал, что вам это интересно 👇

👍5

558 views17:57

Forwarded from Machinelearning

🌟

GLM-4.7 Flash: лайт-версия флагмана GLM-4.7.

В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.

ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.

Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.

🟡

MoE
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.

🟡

Interleaved Thinking
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.

🟡

Файнтюн на эстетику и DevOps
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.

Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).

🟡

Цифры тестов выглядят как конфетка.

В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.

В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.

Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.

📌Лицензирование: MIT License.

🟡

🟡

Квантованные варианты под все

🟡

🟡

Demo2

@ai_machinelearning_big_data

#AI #ML #LLM #GLM #ZAI

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🥰2

577 views16:23

Forwarded from Вайб-кодинг

This media is not supported in your browser

VIEW IN TELEGRAM

Исследователи собрали новый подход к RAG, который:

* не требует vector DB
* не делает эмбеддинги
* не режет документы на чанки
* не выполняет similarity search

И он показал 98,7% точности на финансовом бенчмарке (SOTA).

Вот какую ключевую проблему классического RAG этот подход решает:

Обычный RAG режет документы на чанки, превращает их в векторы и достает фрагменты по семантической похожести.

Но похожесть ≠ релевантность.

Когда ты спрашиваешь: "Какие были тренды по долгу в 2023?", векторный поиск вернет куски, которые семантически похожи на запрос.

А реальный ответ может быть спрятан где-нибудь в Appendix, упомянут ссылкой на другой странице, в разделе, который вообще не пересекается по смысловым словам с твоим вопросом.

Классический RAG, скорее всего, это просто не найдет.

PageIndex это закрывает.

Вместо чанкинга и эмбеддингов PageIndex строит иерархическое дерево структуры документа, по сути умную "таблицу содержания".

А дальше модель рассуждением проходит по этому дереву.

То есть она не спрашивает: "Какой текст больше всего похож на мой запрос?"

Она спрашивает: "Судя по структуре документа, где бы человек-эксперт искал ответ?"

Это принципиально другой подход, у которого:

* нет произвольного чанкинга, который рвет контекст
* не нужно тащить и обслуживать vector DB
* retrieval трассируемый: видно, почему выбрали конкретный раздел
* можно нормально ходить по внутренним ссылкам документа ("см. Table 5.3"), как делает человек

Но глубже проблема вот в чем.

Векторный поиск воспринимает каждый запрос как независимый.

А документы имеют структуру и логику: разделы ссылаются друг на друга, контекст накапливается по страницам.

PageIndex уважает эту структуру, вместо того чтобы сплющивать все в эмбеддинги.

При этом важно: такой подход не везде имеет смысл, потому что классический vector search все еще быстрый, простой и отлично работает во многих кейсах.

Но для проф-документов, где нужна доменная экспертиза и многошаговые рассуждения, tree-based, reasoning-first подход реально раскрывается.

Например, PageIndex показал 98,7% точности на FinanceBench и заметно обогнал традиционные vector-based RAG системы в разборе сложных финансовых документов.

Все полностью в oпенсорс, можно посмотреть реализацию на GitHub и попробовать самому.

👍4🤯4❤2

539 views06:40

https://research.nvidia.com/labs/adlr/personaplex/

NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice

We introduce PersonaPlex, a full-duplex conversational AI model that enables natural conversations with customizable voices and roles. PersonaPlex handles interruptions and backchannels while maintaining any chosen persona, outperforming existing systems…

👍2🔥2

558 views06:46

Forwarded from Denis Sexy IT 🤖

Тут в деталях разобрали, что входит в 200$ подписку на Claude Code:
За 200$ вы покупаете $2708 аналога трат по API,
За 100$ – $1354
За 20$ – $163

При этом, все обращения в кеш диалога от клод кода стоят 0 денег – что делает эти подписки еще более секси; по API кэшированные запросы стоят 10% от стоимости на каждое чтение (кэширование запросов это когда у вас история чата с LLM не меняется и увеличивается от каждого хода, вот ее провайдеры API продают со скидкой – иначе дорого выходит)

В итоге, получается, что тарифный план за 100$ выгоднее API почти в 37 раз (!) – не понимаю как любой стартап может конкурировать с этим, строя своего кодинг агента ☕️

Тут все расчеты:
https://she-llac.com/claude-limits

Please open Telegram to view this post

VIEW IN TELEGRAM

suspiciously precise floats, or, how I got Claude's real limits

I reverse-engineered Claude's hidden subscription usage caps from two unrounded utilization floats, recovered exact denominators via Stern-Brocot, and compared what Pro/Max actually buy you versus API pricing (including caching).

559 views15:45

Forwarded from Вайб-кодинг

Опытные пользователи Claude Code, вам стоит это увидеть.

Есть публичный репозиторий, который по сути как полноценная ОС для Claude Code: агенты, skills, hooks, команды, правила, конфиги MCP, всё уже связали и можно просто подключать.

Можешь просто посмотреть (или забрать себе) целиком. Это мнение автора, которое уже обкатали на реальных проектах.

GitHub - affaan-m/everything-claude-code: Complete Claude Code configuration collection - agents, skills, hooks, commands, rules…

Complete Claude Code configuration collection - agents, skills, hooks, commands, rules, MCPs. Battle-tested configs from an Anthropic hackathon winner. - affaan-m/everything-claude-code

👍3🤯1

578 views07:00

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Google начали раскатывать доступ к Genie 3

Пока что модель доступна лишь подписчикам Ultra. Юзеры могут создать набросок мира с помощью Nano Banana Pro, перед тем как туда залететь. Также есть библиотека готовых миров, которые можно ремиксить. Длина симуляции до 60 секунд, а видео можно потом скачать.

http://labs.google/projectgenie/

@ai_newz

🔥3

449 views23:26

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI запустили инструмент для написания пейперов

Prism построен на базе купленного OpenAI стартапа Crixet. Представляет он из себя совместный LaTeX редактор с интегрированным внутрь ChatGPT. Он может проверить цитаты, перевести диаграмму/формулу из наброска в LaTeX и т.д. Prism доступен бесплатно всем желающим, но подписчикам ChatGPT обещают как-то потом докинуть продвинутых фичей.

prism.openai.com

@ai_newz

❤3

465 views23:31

Forwarded from Life2film

Invoice CRM - файловая мини-CRM для инвойсов в PDF.

Сделал для себя и решил поделиться.

Главная фишка — всё управляется через Claude Code или любого другого AI-агента. Говоришь “сделай инвойс для Startup Inc на 5000 евро” — получаешь готовый PDF.

Что под капотом:
• База постоянных клиентов и провайдеров в YAML
• Реквизиты компаний и банков для переиспользования
• Шаблоны на Jinja2 - можно делать любые PDF-документы, хоть афиши
• QR-коды для оплаты (EUR/SEPA, TRY, USD/SWIFT, крипто)
• Цифровая подпись PDF
• Шифрование через age (хоть весь архив)

Всё через Make:
• make invoice-startup # инвойс пример
• make cards # карточки реквизитов
• make list # список клиентов

Стек: Python + Jinja2 + Pydantic + WeasyPrint

github.com/fortunto2/invoice-crm

204 views09:10