Создание локального ИИ на базе RAG с Ollama и MLX

В статье описывается подход к созданию собственной локальной системы искусственного интеллекта на базе Retrieval-Augmented Generation (RAG), которая позволяет преодолевать ограничения облачных моделей вроде ChatGPT. Основная проблема облачных ИИ — отсутствие доступа к индивидуальным данным пользователя и информации, появившейся после обучения модели. RAG решает это, сначала проводя семантический поиск по базе данных, а затем передавая релевантный контекст языковой модели для генерации ответа. Процесс строится на четырех ключевых блоках: экспорте данных из ChatGPT (все прошлые разговоры), модели встраивания для преобразования текста в векторы, векторной базе данных Qdrant для хранения и поиска, а также локальной языковой модели через Ollama. Это обеспечивает независимость от облака, полную приватность и актуальность ответов на основе личных данных.

Для реализации используются открытые инструменты, совместимые с Ollama. Рекомендуется модель встраивания nomic-embed-text, которую легко установить командой ollama pull nomic-embed-text; альтернативы — mxbai-embed-large или bge-large. С помощью Python-библиотеки ollama генерируются вкрапления: текст из экспорта ChatGPT разбивается на документы, преобразуется в векторы (например, для запроса "Wie exportiere ich meine ChatGPT-Daten?" или "Welche Ideen hatte ich zur Nutzung meines ChatGPT-Datenexports?"), и сохраняется в Qdrant. Поиск по векторному представлению запроса извлекает релевантные фрагменты, которые вставляются в промпт для языковой модели, такой как llama3. Пример промпта: "Du bist ein KI-Assistent, der mit meinem persönlichen Wissensarchiv arbeitet. Nutze die folgenden Textausschnitte als Kontext... Beantworte nun diese Frage: {query}". Это позволяет модели формулировать точные ответы на основе личного архива.

Итогом является полноценная локальная система ИИ, работающая без интернета, с примерами кода для интеграции. Для рынка это усиливает тренд на децентрализованные решения: пользователи получают независимость от облачных провайдеров вроде OpenAI, снижают риски утечек данных и экономят на подписках. По состоянию на март 2026 года такие инструменты, как Ollama и MLX, democratизируют ИИ, позволяя разработчикам и компаниям строить персонализированные знания-базы; влияние на пользователей — рост продуктивности за счет доступа к историческим чатам и проектам, без ограничений по квотам или датам обучения моделей.

Технология Retrieval-Augmented Generation (RAG) позволяет пользователям строить персонализированные системы ИИ, обеспечивая доступ к индивидуальным данным и повышая продуктивность.

Источник: https://ollama.com/blog/mlx

Создание локального ИИ на базе RAG с Ollama и MLX

Комментарии(0)

Читайте также