Аннотация:Сегодня машинное обучение (machine learning) применяется в большом количестве областей, например, в здравоохранении [1], финансах. В ряде задач нет много данных, поэтому нейронные сети не могут быть в полной мере применены. Остаются алгоритмы машинного обучения, которым нужны хорошие признаки. Чаще всего процесс решения конкретной задачи выглядит следующим образом: сбор данных, их предобработка, генерирование новых признаков, выбор критерия качества, выбор модели и ее обучение. В зависимости от того, насколько простая будет связь между признаками и целевой меткой, настолько модель будет быстрее обучаться и иметь меньшую сложность. Из-за экспоненциального роста числа комбинаций признаков и их трансформаций задача построения полезных признаков трудозатратна. Появляется естественное желание автоматизировать этот процесс. Одна из ключевых подзадач в области автоматического машинного обучения (AutoML) [2] — умная генерация признаков.
В данной работе описываются методы автоматической генерации признаков на табличных данных, проводятся эксперименты как на реальных, так и на искусственных данных.