Исследователи из лаборатории Чэнь Лю обнаружили феномен 'потери дисперсии' в маленьких языковых моделях. Когда модели сжимают больше информации в ограниченные параметры, пространство эмбеддингов переполняется, и концепции теряют четкие границы. Это противоречит ожидаемой 'конденсации эмбеддингов', где знания должны становиться более сконцентрированными. Результаты показывают, что уменьшение размера модели может незаметно ухудшить производительность в задачах, требующих точного семантического различения.


Маленький — не значит умный. Именно к такому неожиданному выводу приходят авторы нового исследования. Мы гнались за эффективностью, сжимая модели для работы на телефонах и периферийных устройствах. Но вот загвоздка: запихнуть знания в крошечную нейросеть — как засунуть библиотеку в обувную коробку. Книги перемешиваются. Категории размываются.

Потеря дисперсии — цена, которую мы платим за сжатие. Это фундаментальный компромисс, напоминающий: интеллекту нужно пространство для дыхания. Но это не тупик. Это вызов для проектирования. Будущие архитектуры могут потребовать приоритета семантической четкости над сырым числом параметров. Или мы найдем гибридные подходы, сочетающие маленькие модели с внешней памятью. Путь вперед — не меньшие модели, а более умное сжатие.