Учёные из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI разработали датасет для контекстного обучения с подкреплением XLand-100B. Создатели обещают, что он поможет быстрее и дешевле проводить исследования без привлечения узкопрофильных специалистов и ставить эксперименты на синтетических данных для анализа новых подходов в обучении ИИ.
Массив данных включает 100 млрд примеров действий ИИ-агента на 30 тыс. задач. Для создания такого датасета потребовалось суммарно около 50 тыс. GPU-часов, сообщают в T-Bank AI Research.
В рамках контекстного обучения с подкреплением (In-Сontext RL) модели ИИ обучаются на массивах данных с демонстрацией правильного решения конкретных задач. Так они узнают принципы поиска решения, после чего переносят их на незнакомые задания.
«Для создания XLand-100B используется предыдущая работа учёных из лаборатории T-Bank AI Research и Института AIRI, где исследователи добились высокой эффективности и скорости в работе со средой XLand-Minigrid. Там производится начальное предобучение агента на 65 тыс. задач с контролем со стороны человека, чтобы вывести на приемлемый уровень качества и возможностей. Далее агентов дообучают ещё на 30 тыс. задач уже без указания задачи», — рассказали в T-Bank AI Research.
Процесс обучения модели записывается, запись впоследствии превращается в набор данных. Созданный датасет сохраняет все состояния среды, в которых был агент во время обучения, все его действия и награды. История обучения позволяет производить дальнейшее обучение моделей In-Context RL в нужном формате.