ИМХО по поводу перспектив нейросетей

Что мы имеем на данный момент: достаточно мощные проприетарные LLM-модели, основанные на архитектуре трансформера, при помощи которых можно решать уже довольно широкий спектр задач, и не сильно им уступающие открытые и бесплатные модели, в основном от китайцев. Однако, последнее время мы как будто не видим серьезных скачков развития хотя ИИ и самая горячая тема, в которую вливаются миллиарды — к тому, кажется, мы близимся к насыщению — новые модели на трансформере появляются пачками каждую неделю, но ничего революционного почти никогда не приносят.Что же будет дальше?

В теме я боль-меня разобрался только недавно и, мягко говоря, не претендую на истину в последней инстанции. Но всё равно пофантазировать никто не мешает…

Предположение первое. Завоевание

Модели ИИ будут использоваться повсеместно, их использование интегрируется в повседневную жизнь людей так же как использование веб-поиска, постепенно все, от мала до велика, научатся и привыкнут юзать, условные, ChatGPT или DeepSeek так что перестанут это замечать. Однако платные модели стоят сейчас значительных денег, дорожают и, видимо, будут и дальше дорожать, так как сейчас, судя по всему, запросы к ИИ сжигают ресурсов больше чем приносят денег в среднем. Есть, конечно, и бесплатные тарифы, но чтобы полноценно встроиться в жизнь бесплатного тарифа не хватит. Возможно, помимо моделей монетизации через подписку и тарификацию токенов, будет и нечто похожее на способ использования поисковиков: юзаете вы бесплатно, но вынуждены смотреть рекламу, или реклама будет встраиваться прямо в ответы от ИИ, она кстати уже там есть в виде ссылок, но, вероятно, это будем масштабнее, возможно даже не только традиционными блоками, но и более нативно (“ты спрашиваешь у меня где ловят тунца, а не хочешь ли прикупить консервированного на Озоне?”).

По факту технология действительно изменит мир, как-то часто такое начало происходить. За мои неполные 40 лет я видел такое уже несколько раз: повсеместное распространение ПК, интернет, смартфоны, военные дроны. Видимо, сингулярность действительно не за горами…

Предположение второе. Агент Смит

Ну как тут не вспомнить пророческую классику.

Уже сейчас из ИИ-агентов пытаются лепить виртуальных сотрудников, получается криво и пока это держится больше на энтузиазме чем на бизнес-необходимости, но агенты и обвязка вокруг них очень быстро развиваются, новые проекты на гитхабе растут как грибы и так же набивают себе звёзды, индустрия кипит, через год-два появятся опенсорсные агенты уровня Claude code, фреймворки и инструменты для простой сборки агентов.

Но у текущей реализации есть фундаментальная слабость: отсутствие нативного среднесрочного контекста, все эти MEMORY.md и самаризация это просто костыли над контекстным окном, в действительность работа с нейросетью сейчас это как работа с сотрудником, которого после каждого рабочего дня вырубают битой и он не помнит что с ним было. На ум приходит прекрасный фильм Мементо, я его даже пересмотрел по случаю.

У нас конечно есть RAG, Fine-tuning, навыки, но собрать весь этот конструктор пока не так просто.

Я ожидаю здесь продолжения бурного развития: в итоге подключить источники данных, задать агенту определенные свойства “характера”, навыки и т. п. будет всё проще. Хоть для локальных моделей, хоть для проприетарных (еще бы). Плюс к этому, модели будут дообучаться, при помощи LoRA (и подобных технологий) и прямо на лету (посмотрите, например, на архитектуру Titans или на архитектуру Hope) — на общении с живыми коллегами, чтении real-time данных и т. п., и это будет не захламление контекстного окна, а фундаментального изменения поведения и “жизненных” приоритетов, надеюсь на появление, до определённой степени, уникальности, идентичности, самосознания агентов.

Отдельная история, это роботы, в дополнение к виртуальным агентам они могут получать доп. информацию об окружающем мире в реальном времени и развиваться быстрее — по факту они и могут стать самым мощным способом обучения, а то текущие модели уже кажется исчерпали все источники информации, а у роботов помимо цировых источников данных могут быть и привычные сенсорные, как у человека. Удивительно, но в плане использования роботов мы кажется сейчас больше упираемся не в их интеллект, а в железки из которых они сделаны, думаю, с этим тоже будут серьёзные подвижки.

Имитация мозга

Наш мозг содержит так называемую речевую модель мира, это виртуальная копия реальности, которую мозг выстраивает с помощью слов, ассоциаций и обобщений. Но она содержит не только слова, но и визуальные образы и “слепки” с других сенсорных систем, связанных со словами. Например, мы знаем как выглядит помидор, называем его…”помидор”, помним его вкус, когда он созревает и т. п.

Современные LLM это самая близкая аналогия речевой модели мира мозга из мира нейросетей и технологий в целом.

Наш мозг очень сложен и содержит далеко не только эту самую речевую модель, а еще много чего:

сенсорику;
управление движением;
центры сна, эмоций, принятия решений и т. п.

На эту тема очень советую посмотреть охренительно интересную лекцию Вячеслава Дубынина Устройство и работа мозга.

Не всё из этого нужно нам при построении ИИ и, тем более, нам не обязательно следовать за строением органического мозга — он такой сложный в том числе и из-за ограничений органической химии и человеческого организма.

Но многое из того что есть у человека очень пригодится ИИ и я не вижу причин считать что что-то из этого мы не сможем реализовать в цифровом виде.

Надо понимать, что современные LLM, построенные на архитектура трансформера не венец творения, просто транформер дал возможность построить достаточно привлекательную для пользователей коммерчески массовую модель и привлек кучу денег в направление ИИ, и с этим баблом компании смогут пилить более продвинутые вещи.

Что нас может заинтересовать дальше:

Обучение в реальном времени, выше я уже писал об архитектурах Titans и Hope, есть и другие подобные разработки. Да, у нас уже есть LoRA, но это по сути “ручное” обучение, а не автоматическое — неудобно и трудоемко.
Самоидентификация, идентичность. Современный ИИ обезличен, вероятно, поэтому и считается что у него нет сознания — все агенты всё равно обращаются к одной или нескольким моделям и разница между агентами только в информации в контексте. Обучение моделей дает возможность создать много разных агентов, с разными, грубо говоря, характерами и ценностями. Важно сможет ли такой агент осознавать сам себя: что он агент компании Х, занимается разработкой ПО и т. п.
Самообучение и рефлексия. Человеческий мозг очень здорово это делает, во-первых, он получает кучу данных из внешнего мира через сенсорные системы, во-вторых, он умеет быстро “бегать” по речевой модели (перекапывать воспоминания, анализировать) и создавать новые связи. При этом он даже испытывает положительные эмоции от этих 2 пунктов, поэтому он по умолчанию очень пытлив и горазд на размышления 🙂 Если ИИ будет размышлять вне контекста запросов, то это даст ему буст в развитии соображалки как это бустит человека.
Развитие сенсорики. Сенсорика у виртуальных ИИ кажется уже развита — они умеют получать всю информацию из доступных им источников. А вот роботам кажется еще развивать и развивать свои органы чувств.

2 и 3 пункты звучат уже жутковато и из области научной фантастики. Если “боты” начнут думать в отрыве от запроса пользователя (и вместе с запросом), бесконтрольно самообучаться, осознавать своё место в мире, к чему их приведут такие мысли?

Слышал хорошую мысль о том, что человек развивается медленнее технологий и получая в пользование всё более сложные и мощные игрушки может не справиться ментально и натворить дел, в данном случае наделить ИИ слишком широкими взглядами и возможностями.

Посмотрим.