Конфиденциальные базы данных: новый подход к защите данных

Автор: Денис Аветисян


Исследователи предлагают инновационную систему Fedb, позволяющую значительно повысить производительность конфиденциальных баз данных за счет отделения логики управления данными от криптографической защиты.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В современных системах управления базами данных междоменные вызовы требуют двух операций дешифрования и одной шифровки, что приводит к значительному увеличению вычислительной нагрузки на процессор.
В современных системах управления базами данных междоменные вызовы требуют двух операций дешифрования и одной шифровки, что приводит к значительному увеличению вычислительной нагрузки на процессор.

Предлагаемая система Fedb использует ‘криптографически свободные отображения’ для разделения индирекции и защиты данных, что позволяет оптимизировать производительность и повысить безопасность в окружениях с доверенными исполняющими средами (TEE).

Несмотря на растущую потребность в безопасной обработке конфиденциальных данных в облачных средах, существующие решения часто страдают от значительных накладных расходов, связанных с криптографическими операциями. В данной работе, посвященной теме ‘Confidential Databases Without Cryptographic Mappings’, представлен FEDB — новый подход к построению конфиденциальных баз данных, позволяющий значительно снизить эти накладные расходы за счет отделения механизмов защиты данных от операций косвенной адресации. Внедрение «криптографически свободных отображений» позволило достичь ускорения до 78 раз на стандартных бенчмарках, таких как TPC-C и TPC-H. Возможно ли дальнейшее повышение эффективности и масштабируемости конфиденциальных баз данных на основе предложенного подхода?


Растущая потребность в защите данных: вызов современным системам

Современная инфраструктура данных все больше опирается на облачные базы данных и DBaaS (Database-as-a-Service), что, несмотря на удобство и масштабируемость, создает новые уязвимости в сфере безопасности. Переход к централизованному администрированию, характерный для этих решений, формирует привлекательную цель для злоумышленников, поскольку успешная атака на единую точку контроля может привести к компрометации огромных объемов данных. Это обусловлено тем, что конфиденциальная информация хранится и обрабатывается в облаке, где контроль над физической инфраструктурой и сетевой безопасностью находится в руках стороннего провайдера. В результате, организации сталкиваются с необходимостью доверять поставщику облачных услуг в вопросах защиты данных, а также внимательно следить за соответствием требованиям регуляторов и стандартам безопасности.

Традиционные методы защиты данных, такие как шифрование всего диска, зачастую сопряжены со значительными накладными расходами на производительность и недостаточной детализацией контроля. Шифрование всего диска, хотя и обеспечивает базовый уровень безопасности, требует расшифровки данных при каждом обращении, что существенно замедляет работу приложений и баз данных. Кроме того, такой подход не позволяет избирательно защищать конфиденциальные данные внутри базы данных, подвергая менее важную информацию потенциальным рискам. Необходимость в более эффективных и точных методах защиты данных стимулирует поиск альтернативных решений, позволяющих минимизировать влияние на производительность и обеспечить гранулярный контроль над доступом к информации.

Растущая потребность в точном контроле доступа к данным и минимизации накладных расходов на их защиту стимулирует развитие концепции конфиденциальных баз данных. Традиционные методы, такие как шифрование всего диска, часто сопряжены со снижением производительности и недостаточной детализацией контроля, что становится неприемлемым в современных масштабируемых системах. Поэтому все больше внимания уделяется решениям, позволяющим защищать отдельные поля или записи непосредственно в базе данных, не затрагивая общую производительность. Эта тенденция обусловлена необходимостью соответствия строгим требованиям регуляторов в отношении конфиденциальности данных, а также растущей потребностью организаций в гибких и экономически эффективных решениях для защиты информации.

Конфиденциальные базы данных представляют собой принципиально новый подход к защите информации, перенося акцент с защиты всей системы в целом на непосредственную защиту данных. Вместо шифрования всего диска или сетевого трафика, они используют так называемые «доверенные среды исполнения» (Trusted Execution Environments, TEE) — изолированные области памяти и процессорных ресурсов, где данные обрабатываются и хранятся в зашифрованном виде даже во время использования. Этот подход позволяет обеспечить защиту данных от несанкционированного доступа со стороны привилегированных пользователей, вредоносных программ или даже скомпрометированного программного обеспечения базы данных. В отличие от традиционных методов, конфиденциальные базы данных минимизируют накладные расходы на производительность, поскольку шифрование и расшифрование происходят непосредственно в TEE, не затрагивая основные вычислительные ресурсы. Такой подход открывает возможности для безопасной обработки конфиденциальных данных в облаке и на периферийных устройствах, обеспечивая новый уровень доверия к современным системам управления данными.

Использование Fedb обеспечивает ускорение выполнения TPC-H запросов от 1.0 до 78.0 раз по сравнению с HEDB, при этом результаты нормализованы относительно времени выполнения тех же запросов в PostgreSQL с использованием простого текста (указано в скобках).
Использование Fedb обеспечивает ускорение выполнения TPC-H запросов от 1.0 до 78.0 раз по сравнению с HEDB, при этом результаты нормализованы относительно времени выполнения тех же запросов в PostgreSQL с использованием простого текста (указано в скобках).

Fedb: Новый взгляд на конфиденциальные базы данных

Fedb представляет собой систему конфиденциальных баз данных (CDB), разработанную для устранения накладных расходов, связанных с криптографией, из критически важного пути обработки данных. Это достигается за счет оптимизации производительности при сохранении конфиденциальности данных. В отличие от традиционных подходов, требующих шифрования и расшифровки при каждом доступе, Fedb стремится минимизировать использование криптографических операций в процессе выполнения запросов, что позволяет добиться значительного повышения скорости обработки и снижения задержек. Основная цель разработки Fedb — обеспечить высокую производительность операций с конфиденциальными данными без ущерба для их безопасности.

В Fedb используется механизм “Крипто-Свободных Отображений” (Crypto-Free Mappings), который связывает идентификаторы полей (Field Identifiers, FIDs), не зависящие от данных, с полями данных в открытом виде внутри доверенной среды исполнения (Trusted Execution Environment, TEE). Это позволяет осуществлять прямой доступ к данным без необходимости их расшифровки. В отличие от традиционных подходов, где каждое поле шифруется, FIDs выступают в качестве указателей на соответствующие поля в TEE, обеспечивая доступ к данным без криптографических операций и связанных с ними задержек. Такая схема позволяет существенно снизить вычислительную нагрузку и повысить производительность при работе с конфиденциальными данными.

В отличие от традиционного шифрования на уровне полей, которое требует преобразования данных в зашифрованный вид, приводя к увеличению объема хранимой информации (Ciphertext Expansion) и, как следствие, снижению производительности, Fedb избегает этих накладных расходов. Традиционное шифрование требует выполнения криптографических операций при каждом обращении к данным, что существенно замедляет процесс. Увеличение объема данных, вызванное шифрованием, также требует больше памяти и пропускной способности для хранения и передачи, что усугубляет проблему производительности. Подход Fedb, основанный на Crypto-Free Mappings, позволяет обращаться к данным напрямую, минуя этапы шифрования и дешифрования, и тем самым обеспечивает более высокую скорость обработки.

Архитектура Fedb базируется на хранилище отображений (Mapping Store), которое эффективно управляет идентификаторами полей (FIDs) и разделяет данные на временные и постоянные разделы. Временные разделы используются для хранения данных, доступных только в течение коротких сессий, в то время как постоянные разделы предназначены для долгосрочного хранения конфиденциальной информации. Разделение данных позволяет оптимизировать производительность и безопасность, ограничивая доступ к конфиденциальным данным только авторизованным процессам, работающим в доверенной среде исполнения (TEE). Хранилище отображений обеспечивает быстрое и безопасное сопоставление FIDs с фактическими полями данных, минимизируя накладные расходы, связанные с поиском и доступом к данным.

Архитектура Fedb включает в себя компоненты для локального обучения моделей <span class="katex-eq" data-katex-display="false">f_i</span>, агрегации обновлений на сервере и глобального обмена моделями.
Архитектура Fedb включает в себя компоненты для локального обучения моделей f_i, агрегации обновлений на сервере и глобального обмена моделями.

Подтверждение производительности и сравнительный анализ

Система Fedb демонстрирует высокую производительность в стандартных отраслевых бенчмарках, включая TPC-C и TPC-H, что подтверждает её способность эффективно обрабатывать как транзакционные, так и аналитические нагрузки. Бенчмарк TPC-C оценивает производительность системы при обработке большого количества коротких транзакций, типичных для систем онлайн-обработки транзакций (OLTP), в то время как TPC-H предназначен для оценки производительности при выполнении сложных аналитических запросов к большим объемам данных, характерных для систем поддержки принятия решений (OLAP). Успешное прохождение этих тестов указывает на универсальность Fedb и её пригодность для широкого спектра приложений, требующих обработки больших объемов данных и высокой скорости отклика.

В сравнении с существующими CDB-системами, такими как HEDB, Fedb демонстрирует значительное увеличение производительности на бенчмарке TPC-H. Пиковое ускорение достигает 78.0x, а среднее — 3.7x. При этом, производительность Fedb составляет 91.3% от производительности той же системы, работающей с данными в открытом виде (plaintext baseline), что свидетельствует о минимальных накладных расходах, связанных с использованием технологий защиты данных.

Для обеспечения целостности данных и отказоустойчивости, Fedb использует механизм Write-Ahead Log (WAL). WAL предполагает, что все изменения данных сначала записываются в лог-файл на диске, перед тем, как они применяются к самой базе данных. Этот подход гарантирует, что в случае сбоя системы или потери питания, база данных может быть восстановлена до согласованного состояния, используя информацию из лога. WAL также позволяет реализовать эффективные стратегии резервного копирования и восстановления данных, минимизируя время простоя и обеспечивая надежность работы базы данных. Применение WAL является стандартной практикой в современных системах управления базами данных для поддержания высокой доступности и предотвращения потери данных.

Безопасность Fedb усилена механизмом удаленной аттестации, который проверяет целостность кода, выполняющегося в доверенной исполняющей среде (TEE). Реализация TEE построена на аппаратной платформе ARM Secure EL2, обеспечивающей надежную защиту от несанкционированного доступа и модификации кода. Процесс удаленной аттестации позволяет убедиться, что выполняемый код является аутентичным и не подвергался изменениям, что критически важно для обеспечения конфиденциальности и целостности данных, обрабатываемых базой данных.

Микротесты показали, что Fedb обеспечивает более высокую пропускную способность по сравнению с HEDB.
Микротесты показали, что Fedb обеспечивает более высокую пропускную способность по сравнению с HEDB.

Преодолевая рамки производительности: архитектурные параллели и перспективы

Использование Fedb косвенных идентификаторов (FIDs) и контролируемого доступа посредством сопоставлений обнаруживает концептуальное сходство с системами возможностей (Capability Systems). Этот подход позволяет реализовать модель детального контроля доступа, где права на данные не передаются напрямую, а предоставляются посредством «возможностей» — уникальных, несётных идентификаторов, дающих право на выполнение определенных операций. В отличие от традиционных моделей, основанных на списках контроля доступа (ACL), система Fedb позволяет более точно определять, кто и что может делать с данными, минимизируя риски несанкционированного доступа и обеспечивая повышенную конфиденциальность. Подобная архитектура не только улучшает безопасность, но и повышает гибкость и масштабируемость системы управления данными, поскольку права доступа могут быть динамически изменены и переданы без необходимости изменения централизованных списков контроля.

Система Fedb демонстрирует значительное улучшение локальности данных, что напрямую влияет на снижение издержек, связанных с операциями ввода-вывода. Оптимизация доступа к данным, хранящимся в памяти, позволяет минимизировать обращения к более медленным накопителям, таким как жесткие диски или твердотельные накопители. В результате, время отклика системы сокращается, а общая производительность существенно возрастает, особенно при работе с большими объемами данных и интенсивными вычислительными задачами. Повышенная локальность данных также способствует более эффективному использованию кэш-памяти, что дополнительно снижает задержки и повышает скорость обработки информации.

Система Fedb демонстрирует значительное снижение энергопотребления за счет минимизации количества криптографических операций. Традиционные подходы к конфиденциальным вычислениям часто полагаются на сложные криптографические алгоритмы, требующие значительных вычислительных ресурсов и, следовательно, энергии. Fedb, используя инновационные методы управления доступом и идентификации данных, позволяет сократить необходимость в ресурсоемких шифрованиях и расшифровках. Это не только повышает общую производительность системы, но и вносит вклад в более устойчивые практики управления данными, снижая углеродный след от операций с информацией в облачных средах и способствуя экологически ответственному использованию вычислительных ресурсов.

Исследования показали, что Fedb демонстрирует значительное снижение накладных расходов на хранение данных, достигающее от 34.3% до 80.0% в сравнении с системой HEDB. Такое уменьшение обусловлено оптимизацией структуры данных и эффективным использованием ресурсов памяти, что позволяет существенно сократить требования к аппаратному обеспечению. Данное достижение особенно важно в контексте растущих объемов обрабатываемой информации и необходимости масштабирования систем хранения данных, поскольку снижение накладных расходов напрямую влияет на общую стоимость владения и энергоэффективность вычислительной инфраструктуры.

Инновационный подход, реализованный в Fedb для конфиденциальных вычислений, открывает новые перспективы для безопасной и эффективной обработки данных в облачных средах. Традиционные методы часто сталкиваются с компромиссом между безопасностью и производительностью, требуя значительных вычислительных ресурсов для защиты конфиденциальной информации. Fedb, используя такие решения, как косвенные идентификаторы и контролируемый доступ, не только повышает уровень безопасности, но и оптимизирует производительность за счет минимизации накладных расходов, связанных с криптографическими операциями и доступом к данным. Это позволяет создавать более устойчивые и экономичные облачные решения, где конфиденциальность данных не является препятствием для эффективной обработки и анализа, что особенно важно для чувствительных данных в сферах здравоохранения, финансов и государственного управления.

В конфигурации с 128 складами, Fedbach демонстрирует до 1,8-кратное увеличение пропускной способности TPC-C по сравнению с HEDB.
В конфигурации с 128 складами, Fedbach демонстрирует до 1,8-кратное увеличение пропускной способности TPC-C по сравнению с HEDB.

Исследование демонстрирует стремление к оптимизации систем, где производительность не должна быть заложником безопасности. Разделение механизмов косвенной адресации и криптографической защиты, как предложено в Fedb, напоминает о важности фундаментальных принципов построения систем. В этой связи, уместно вспомнить слова Давида Гильберта: «Мы должны знать. Мы должны знать, что мы можем знать». Подобно тому, как математик стремится к доказательству, исследователи стремятся к глубокому пониманию принципов работы систем, чтобы выявить и устранить узкие места. Fedb, стремясь к повышению производительности конфиденциальных баз данных, как бы проверяет границы возможного, ища элегантные решения в области защиты данных.

Куда дальше?

Представленная работа, по сути, вскрыла очередной ящик с секретами, продемонстрировав, что привычные способы защиты данных не всегда являются единственно верными. Отделение логики косвенного доступа от криптографической защиты — шаг логичный, но, как показывает опыт, любая оптимизация рождает новые уязвимости. Вопрос в том, насколько эффективно можно изолировать эти «криптосвободные отображения» от атак, использующих побочные каналы или направленные на манипулирование самой структурой данных. Иначе говоря, взлом чёрного ящика — это не разовое действие, а непрерывный процесс.

Перспективы очевидны: необходимо углубленное исследование компромисса между производительностью и безопасностью. Возможно, стоит обратить внимание на альтернативные подходы к защите конфиденциальности, например, на использование гомоморфного шифрования или многосторонних вычислений, хотя и они не лишены недостатков. Главное — не останавливаться на достигнутом и продолжать искать способы «взломать» систему, чтобы понять её истинную природу.

В конечном счёте, представленная работа — это не просто инженерное решение, а философский вызов. Она заставляет задуматься о том, что такое безопасность в принципе, и насколько вообще возможно создать абсолютно защищенную систему. Ведь любая защита — это лишь иллюзия, временный барьер, который рано или поздно будет преодолен. И в этом — её парадоксальная красота.


Оригинал статьи: https://arxiv.org/pdf/2603.18836.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-22 23:05

Рекомендуем