Сбербанк разработал инструмент ATGen, сокращающий расходы на сбор и разметку данных для обучения языковых моделей.
Почему это важно: Снижение затрат на данные может повысить конкурентоспособность компании.
Источники (1)
Опубликовано 5 Август 2025 г., 16:12 (МСК) в
Банкста
Текст воспроизведён копированием из источника.
Российские исследователи из R&D-центра Т-Технологий, AIRI, ВШЭ, университета «Иннополис» и Сбера разработали набор инструментов ATGen, который в 3 раза сокращает расходы на сбор и разметку данных для обучения больших языковых моделей. Он подходит в том числе для небольших команд.
Совместная научная работа была представлена на ACL 2025 в Вене, крупнейшей отраслевой конференции уровня А*. ATGen использует активное обучение, при котором модель сама выбирает самые важные примеры для разметки, снижая объем размечаемых данных до 33% без потери качества. ATGen доступен на GitHub под лицензией MIT и подходит для разработки специализированных моделей, например, в медицине, юриспруденции и других областях, помогая ускорить запуск ИИ-продуктов и снизить их стоимость. @banksta