О том, как устроена одна из крупнейших платформ данных внутри компании, зачем "Т–Технологии" строят собственные дата–центры, почему крупный бизнес самостоятельно развивает инфраструктуру и какую роль в этом играет Петербург, "ДП" рассказал технический директор платформы данных группы "Т–Технологии" Сергей Михалев.
Сегодня данные стали такой же частью инфраструктуры технологических компаний, как дата–центры, сети или вычислительные мощности. На них строятся продуктовые решения, искусственный интеллект, аналитика и значительная часть бизнес–процессов. В группе "Т–Технологии", материнской компании Т–Банка, за работу с данными отвечает собственная Data Platform — одна из крупнейших внутренних платформ компании. Сегодня ею пользуются десятки тысяч сотрудников, а объём хранимых данных измеряется десятками петабайт. Ключевую роль в развитии нового поколения платформы на базе Data Lakehouse играет команда петербургского ИТ–хаба.
Решения на основе данных
Сергей, если объяснить совсем простыми словами: что такое платформа данных и зачем она нужна?
— У меня этот вопрос вызывает ощущение, будто спрашивают: "А зачем тебе дома водопровод или электричество?" (улыбается). Для крупных технологических компаний дата–платформа сегодня — примерно такая же базовая инфраструктура.
Данные нужно где–то хранить, обрабатывать, использовать для аналитики, отчётности, машинного обучения и развития продуктов. Сегодня огромное количество решений внутри компании принимается именно на основе данных. Причём речь не только о крупных стратегических вопросах, но и о вполне прикладных вещах.
Есть два способа принимать решения. Первый — экспертный: кому–то кажется, что красная кнопка будет работать лучше синей. Второй — когда ты проверяешь гипотезу на данных, запускаешь A / B–тест, показываешь разным группам пользователей разные варианты интерфейса или продукта и смотришь реальный результат.
У нас второй подход давно стал частью культуры. Если ты приходишь защищать идею без цифр, графиков и данных, тебя, скорее всего, попросят сначала подтвердить свои выводы фактами.
То есть данные внутри компании уже не вспомогательная функция маркетинга?
— Конечно, нет. Только системой аналитики и визуализации данных ежемесячно пользуются около 32 тыс. человек. Вдумайтесь: это население небольшого города. Я сам вырос в Гатчине, и там работоспособного населения примерно столько же было. И все эти люди каждый день принимают решения на основе данных — продуктовые, управленческие, кадровые.
Когда я пришёл в компанию, одним из первых документов, который получил, был большой аналитический отчёт: сколько людей наняли, какой баланс по грейдам, как чувствуют себя команды, какие показатели меняются. И дальше по этим цифрам принимаются реальные решения, за ними следят и по ним оценивают результат.
И это мы ещё не коснулись искусственного интеллекта. Сейчас весь рынок активно обсуждает AI, но любой AI в конечном итоге стоит на данных. Чтобы обучать модели, строить рекомендации или автоматизировать процессы, нужен надёжный фундамент, где данные хранятся, обрабатываются и проверяются. Именно за этот фундамент мы и отвечаем.

Сергей Михалев
Большая распределённая команда
Как устроена команда, которая этим занимается?
— Сегодня над платформой данных работают около 300 человек. Это одна из крупнейших инженерных команд внутри компании. Собрать столько сильных специалистов в одном городе было бы непросто, поэтому мы довольно рано пришли к распределённой модели разработки.
Сейчас специалисты платформы работают примерно в 20 городах, но есть четыре основных центра разработки — Москва, Петербург, Ростов–на–Дону и Минск. Москва исторически остаётся самым большим хабом. Петербург — второй по размеру, но при этом играет одну из ключевых ролей в развитии нового поколения платформы данных и Data Lakehouse.
Наверное, это одна из особенностей нашей модели. Мы сохраняем распределённую разработку, но при этом стараемся формировать сильные локальные команды. Нам важно, чтобы люди не только работали вместе онлайн, но и оставались частью профессионального сообщества в своём городе.
Какой баланс по уровням специалистов?
— У нас довольно заметный перекос в сторону сеньоров из–за сложности продукта. При этом мы осознанно инвестируем в развитие молодых специалистов. Для любой большой технологической организации важно не только нанимать готовую экспертизу с рынка, но и выращивать её внутри компании.
Поэтому у нас есть внутренние ориентиры по доле начинающих специалистов. Условно в крупных командах она должна составлять не менее 15%. Через несколько лет именно эти ребята становятся мидлами и сеньорами и формируют следующий слой экспертизы внутри компании. Такой подход позволяет сохранять баланс между опытом, который необходим для решения сложных задач сегодня, и развитием команды на перспективу.
Когда данных становится слишком много
Почему вообще понадобилось менять старую систему?
— Если объективно, дата–платформа масштабировалась медленнее, чем рос бизнес. Но это хорошая проблема для айтишников. Намного хуже, когда технологии развиваются быстрее, чем потребности компании.
Предыдущее поколение платформы было построено на Greenplum. Долгое время эта архитектура успешно решала наши задачи. Но бизнес продолжал расти, появлялись новые продукты, новые сервисы, увеличивались объёмы данных и количество пользователей. В какой–то момент стало понятно, что основное ограничение — это масштабирование. Когда у бизнеса есть ресурсы, есть планы роста и новые задачи, а технологическая платформа начинает упираться в свои пределы — это уже становится вызовом.
Поэтому мы начали переход на новое поколение платформы данных — Data Lakehouse на базе Apache Spark, Trino и S3. Сегодня платформой пользуются около 5 тыс. сотрудников ежемесячно. Только за I квартал 2026 года к ней подключились ещё около 1 тыс. пользователей. Ёмкость хранилища составляет порядка 20 петабайт, из которых около 10 уже занято данными.
Всё это продолжает расти?
— Да, и довольно быстро. По мере развития продуктов и сервисов в компании постоянно растут объёмы данных, количество сценариев их использования и число команд, которые с ними работают.
Поэтому развитие платформы данных — это не разовый проект с конечной точкой, а непрерывный процесс. По сути, платформа развивается вместе с бизнесом и должна быть готова поддерживать его дальнейший рост.
А что в самой платформе принципиально нового?
— Давай максимально по–простому. Представь: ты живёшь в квартире. Потом родился ребёнок, и тебе нужна ещё одна комната. Обычно приходится продавать квартиру и покупать новую побольше. А было бы идеально просто достроить одну комнату. Примерно так работает новая архитектура. Если раньше мы масштабировались большими блоками, то теперь можем независимо увеличивать вычислительные мощности и объём хранения данных.
Если нужны дополнительные вычисления — добавляем вычислительные ресурсы. Если нужно больше места для хранения — расширяем только хранилище. Это делает развитие платформы гораздо более гибким и эффективным.
И насколько бизнес это уже понимает, ощущает сейчас?
— Самый понятный показатель — скорость работы. Сегодня запросы на новой платформе выполняются примерно в 2 раза быстрее, чем на предыдущем решении.
Но главное даже не это. У нас тысячи аналитиков, которые каждый день проверяют гипотезы, анализируют данные и принимают решения. Вся платформа существует для того, чтобы они могли быстрее получать ответы на свои вопросы и быстрее запускать изменения в продуктах и сервисах.
Инфраструктура масштаба бигтеха
Насколько дорого стоит инфраструктура?
— В конкретные цифры инвестиций я бы сейчас не уходил. Но речь идёт действительно о крупных вложениях и тысячах серверов. Сейчас мы строим два собственных больших дата–центра. Раньше в основном использовали арендованную инфраструктуру, теперь сами проектируем всю систему — понимаем, какое оборудование использовать, как строить сеть, как организовывать вычислительные мощности. Для нас это важный этап развития компании. И речь не о каких–то долгосрочных планах: первый объект должен быть завершён уже в этом году.
Насколько это увеличит мощности?
— Сейчас мы располагаем примерно 100 тыс. вычислительных ядер. После запуска новых площадок эта цифра вырастет кратно: каждый новый дата–центр сможет обеспечить около 200 тыс. вычислительных ядер.
В отдельных направлениях речь идёт уже о росте мощностей на порядок.
После завершения проекта мы рассчитываем войти в число крупнейших компаний страны по объёму доступной вычислительной инфраструктуры.
А это сейчас подъёмная история? Рынок "железа" ведь очень тяжёлый.
— Безусловно, рынок остаётся сложным. Стоимость отдельных компонентов существенно выросла, сроки поставок стали длиннее. Но мы продолжаем инвестировать в инфраструктуру и не отказываемся от долгосрочных планов развития. Для нас это не разовая закупка оборудования, а стратегическая инвестиция в будущий рост компании. По сути, сейчас происходит одна из крупнейших инфраструктурных трансформаций за всю историю компании.
Когда готовых решений уже недостаточно
Но зачем разрабатывать всё это самостоятельно? Почему просто не купить готовую платформу?
— Есть компании уровня "Т–Технологий", "Яндекса", "Сбера", VK, Ozon, Avito — и большинство таких игроков развивают ключевую инфраструктуру самостоятельно. Когда речь идёт о десятках петабайт данных, тысячах пользователей и собственных требованиях к надёжности, безопасности и производительности, универсальных решений практически не остаётся.
На рынке есть сильные продукты и платформы, в том числе российские. Они хорошо решают задачи многих компаний, но на нашем масштабе возможностей готовых решений уже недостаточно. Возникают требования, связанные с производительностью, архитектурой, безопасностью и интеграцией с внутренними системами, которые сложно закрыть без серьёзной доработки.
Кроме того, для нас важно самостоятельно управлять развитием технологического стека. Это позволяет быстрее внедрять изменения, принимать архитектурные решения исходя из потребностей бизнеса и не зависеть от внешнего цикла разработки.
Вы смотрите на опыт конкурентов?
— Конечно. Мир больших данных кажется огромным, но если смотреть на конкретный сегмент, он довольно компактный. Мы понимаем, как устроены платформы у других крупных игроков, видим интересные подходы, сильные решения, удачные архитектурные находки. Но задача не в том, чтобы кого–то копировать. Любое решение приходится адаптировать под собственный масштаб, требования бизнеса и стандарты безопасности.
Инженерная столица платформы данных
Почему именно Петербург стал одним из ключевых центров Data Lakehouse?
— Мы ищем сильных специалистов по всей стране, но Петербург действительно занимает особое место в развитии платформы данных. Сегодня значительная часть команд, которые создают и развивают новое поколение Data Lakehouse, находится именно здесь. По сути, речь идёт об одном из крупнейших технологических проектов внутри компании, и петербургские инженеры играют в нём ключевую роль.
Важно понимать, что мы создаём не локальное решение для отдельного офиса, а инфраструктуру федерального масштаба, которой уже пользуются тысячи сотрудников по всей стране. Поэтому для нас Петербург — это не просто второй по размеру хаб, а один из центров развития платформы данных.
Есть какой–то особый "питерский вайб"?
— Наверное, прежде всего здесь очень сильная инженерная школа. Петербург традиционно остаётся одним из главных центров подготовки математических и технических специалистов, и мы это чувствуем. Нам достаточно легко находить здесь людей, которые любят сложные инженерные задачи и готовы глубоко погружаться в технологии. А платформа данных как раз относится к тем направлениям, где без сильной инженерной культуры ничего не получится.
Поэтому для нас важно не только нанимать специалистов, но и быть частью местного ИТ–сообщества, помогать ему развиваться и создавать площадки для профессионального общения. Мы проводим митапы, участвуем в отраслевых мероприятиях, работаем со студентами и начинающими специалистами, поддерживаем образовательные инициативы. Один из крупнейших таких проектов — ИТ–фестиваль "Сезон кода", который уже во второй раз пройдёт в Петербурге 20 июня. Он собирает разработчиков, инженеров, архитекторов и специалистов по данным со всего города.
Но сегодня такие мероприятия уже не только про доклады со сцены. Люди приходят за общением, обменом опытом и возможностью обсудить реальные инженерные задачи с коллегами из индустрии. Кроме того, мы много работаем со студентами и начинающими специалистами.
Сильных ребят стараемся замечать как можно раньше — иногда ещё на младших курсах. Если человек по–настоящему увлечён технологиями, постоянно что–то разрабатывает и занимается собственными проектами, это обычно видно сразу.
Сейчас многие компании сокращают крупные ИТ–расходы, а вы, наоборот, строите дата–центры и продолжаете масштабироваться. Почему?
— Мне кажется, дело в амбициях роста. Компания хочет расти дальше и понимает, что без серьёзных инвестиций в технологии это невозможно.
Сегодня в группу "Т–Технологии" входят различные направления бизнеса и технологические сервисы — от финансовых продуктов до решений для бизнеса, страхования, инвестиций и других направлений. По мере развития бизнеса растут объёмы данных, нагрузка на инфраструктуру и требования к вычислительным мощностям.
Если бизнес вырастает в несколько раз, технологическая платформа должна быть готова поддержать этот рост. Именно поэтому мы инвестируем в инфраструктуру уже сейчас, а не тогда, когда ограничения начнут мешать развитию.
