Когда у нас закончится место для хранения цифровых данных, мы будем использовать ДНК

В мире наблюдается дефицит свободного места для хранения цифровых данных. Эта проблема существует нескольких лет, однако обычные люди вряд ли о ней когда-либо задумывались. Не так давно было время, когда свободное место для записи цифровых данных ограничивалось объемом жесткого диска вашего компьютера. При достижении предела мы либо шли за новым жестким диском, либо записывали все на оптические носители. Когда заканчивались и они, мы просто удаляли старые данные и записывали новые. Но есть те, кто никогда не удаляет данные.

Например, этого не делают многие компании, особенно те, чья сфера деятельности и ценность завит от той цифровой информации, которой они обладают. Времена меняются. Технологии развиваются. Сейчас информация не удаляется, она переносится в «облако». Кстати, сам термин «облако» весьма эфемерен и совсем не отражает реальное физическое природное явление. Просто он показался весьма удобным и красивым, его и оставили. Где хранятся данные? Это совсем неважно, по крайней мере, до тех пор, пока мы можем в любой момент к ним обратиться. Высока ли вероятность того, что у нас в конце концов закончится место в облачном хранилище? Об этом никто не задумывается. Пока оплачиваешь подписку – все нормально. Мало места? Выбираешь новый тарифный план и получаешь еще больше места для своей информации.

Такая разбалованность привела к тому, что людям стало сложно даже вообразить, что однажды у нас может закончиться свободное место для хранения цифровых данных. Как раньше было сложно вообразить, что на Земле рано или поздно может закончится пресная вода, запасы которой восполняются благодаря ее круговороту в природе. Но вот вам реальность. В 2018 году запасы воды в Кейптауне (Южная Африка) стремительно приблизились к своему полному истощению. А мы, люди, не задумывающиеся об этом, стремительно приближаемся к нехватке свободного места для хранения цифровых данных.

Данные, данные, вокруг одни данные

Основная причина этого истощения свободного места конечно же связана с теми темпами, с которыми мы производим новые данные. Каждый день в мире благодаря 3,7 миллиарда пользователей Интернета генерируется около 2,5 квинтиллиона байтов информации. Среди всех имеющихся сегодня цифровых данных 90 процентов было создано лишь за последние два года. А с ростом числа используемых умных устройств, подключающихся к Всемирной паутине (тот самый «Интернет вещей»), эти цифры в ближайшее время вырастут еще сильнее.

«Говоря об облачном хранилище, люди часто подразумевают наличие некоего бесконечного свободного места для хранения информации», — комментирует порталу Digital Trends Хьюн Джун Парк, глава и соучредитель Catalog, компании по хранению данных.

«Однако облако – это такой же компьютер, на котором хранятся ваши данные. Люди просто не осознают того, что в мире генерируются настолько много цифровых данных, что темп, с которым они производятся существенно опережает наши возможности все это сохранять. В самом ближайшем будущем мы получим огромный разрыв между объемом полезных данных и нашей способностью сохранять их с использованием традиционных носителей».

Поскольку компании, занимающиеся облачным хранением данных постоянно заняты строительством новых дата-центров или расширением уже существующих, весьма сложно спрогнозировать, когда мы реально лишимся всего свободного места. Тем не менее по словам того же Парка, уже к 2025 году человечество в совокупности может сгенерировать более 160 зеттабайтов цифровой информации (зеттабайт, для тех, кто не знает, это триллион гигабайт). Как много из этого объемы мы сможем реально сохранить? Около 12,5 процента, говорит Парк.

Этот вопрос определенно требует решения.

Может этим ответом является ДНК?

Так считают Парк, Натаниэль Рокет, а также их коллеги из Массачусетского технологического института. Вместе они основали компанию Catalog, в стенах которой была разработана технология, способная по мнению ее создателей изменить наше представление о том, как в ближайшем будущем будут храниться все наши цифровые данные. По их мнению, точнее заявлению, в скором времени цифровые данные со всего мира можно будет уместить на площади не больше шкафа для одежды.

Компания Catalog предлагает в качестве подходящего решения кодировать данные в ДНК. Звучит все это как один из сюжетов американского писателя-фантаста Майкла Крайтона, но предлагаемое ими масштабируемое и доступное решение вполне реалистично и даже привлекло 9 миллионов долларов венчурного финансирования, а также поддержку ведущих профессоров из Стэнфордского и Гарвардского университетов.

«Мне часто задают вопрос: чью ДНК мы используем? Люди будто считают, что мы берем ДНК какого-то человека и превращаем их в мутантов или типо того», — смеется Парк.

Но это совсем не то, чем занимается компания Catalog. ДНК которое использует Catalog для кодирования данных представляет собой синтетический полимер. Она не биологического происхождения и не создана на парах азотистых оснований, в которые записывается информация. Серия из нулей и единиц, которая записывается в полимер так же не может быть кодом чего живого. Тем не менее на выходе получаемый продукт биологически практически не отличим от того, что мы привыкли встречать в живой клетке.

Идея о том, что ДНК можно рассматривать в качестве альтернативного средства для хранения цифровой информации зародилась еще несколько десятилетий назад. Фактически, когда Джеймс Уотсон и Фрэнсис Крик только пришли к модели структуры ДНК в 1953 году. Однако до сегодняшнего времени ряд существенных ограничений не позволял увидеть огромный потенциал использования ДНК в качестве средства хранения цифровой информации, не говоря уже о том, как все это воплотить в реальности.

В обычном представлении метод хранения информации посредством ДНК сосредоточен вокруг синтеза новых молекул ДНК; сопоставлении последовательностей битов информации с последовательностями четырех пар ДНК, а также производством достаточного количества молекул, которые будут представлять все числа, которые вы хотите сохранить. Проблема такого метода заключается в дороговизне и медлительности процесса. Кроме того, здесь имеется много ограничений, связанных собственно с хранением самих данных.

Подход компании Catalog предлагает отключение процесса синтеза молекул от процесса их кодирования. Если говорить по существу, компания сначала производит огромное количество лишь определенных молекул (что существенно удешевляет производство), а затем кодирует в них информацию посредством использования разнообразия уже готовых молекул.

В качестве аналогии Catalog сравнивает предыдущий подход с производством пользовательских жестких дисков с уже заранее записанной на нее информацией. Запись новой информации в таком случае подразумевает необходимость создания нового жесткого диска с нуля. Новый подход, предложенный Catalog, можно сравнить с массовым производством пустых жестких дисков и записи на них по мере необходимости новой закодированной информации.

Все дело в способе хранения

Прелесть всего этого заключается в том, насколько огромный объем данных можно хранить на весьма компактной площади. В качестве демонстрации Catalog использовала свою технологию для кодирования в ДНК различных фантастических книг. Например, весь цикл романов «Автостопом по галактике». Но это все мелочи перед открывающимися возможностями.

«Если сравнивать сопоставимые величины, то количество битов, которые вы сможете сохранить с помощью ДНК будет в миллион раз выше того, что предлагается теми же твердотельными накопителями. Например, возьмем размеры обычной флэшки. При использовании ДНК-метода сохранения информации вы сможете записать на устройство размером с эту флешку в миллион раз больше информации, чем на обычный флеш-накопитель».

Сравнение с твердотельными накопителями, отмечают разработчики, все-таки не совсем точное. ДНК позволяет хранить в сравнимом объеме гораздо больше информации, однако технология не позволяет предоставлять к ней мгновенный доступ, как например, в случае с теми же USB-накопителями. Технология Catalog трансформирует информацию в твердый физический пеллет (гранулу) из синтетического полимера.

Для доступа к этой информации необходимо взять закодированный синтетический полимерный пеллет, регидратировать его с помощью воды, а затем «прочитать» с помощью секвенатора ДНК. В рамках процесса можно будет выделить базовые пары ДНК, который затем можно использовать для расчета числа нулей и единиц, образующих информацию. От начала и до конца на этот процесс может уйти минимум нескольких часов.

По этой причине такая технология в первую очередь ориентирована на рынок архивирования, где не требуется быстрый доступ к информации. Обычно в этом случае подразумеваются данные, которые не используются или очень редко используются после записи, но при этом крайне важны для сохранения. Скажем, как ваша гарантия на холодильник, только в масштабе корпоративной значимости.

На какую пользу все это принесет обычным пользователям? В начале статьи мы говорили о том, что большинство из нас не задумывается о том, что происходит и где хранится наша информация. На твердотельных носителях? Да пусть хоть на магнитной пленке. Нам это не интересно до тех пор, пока у нас есть к ней доступ в любое время.

Из-за продолжительности процесса восстановления информации мы вряд ли когда-нибудь достигнем уровня, когда какой-нибудь Google Cloud или Яндекс.Диск будут хранить нашу информацию в гигантских чанах с ДНК. Если та же технология Catalog подтвердит свою эффективность, то, скорее всего, она найдет свою нишу в сферах, где применяется подход долгосрочного хранения информации. Что же касается краткосрочного метода хранения информации, где в настоящий момент применяются как жесткие диски, так и твердотельные накопители, то нам придется полагаться на другие методы.

Представляя перспективы

В этой пробирке содержатся миллионы копий данных, закодированных в ДНК

Тем не менее и здесь можно усмотреть практически научно-фантастические возможности.

«Представьте себе, что в имплантированной вам под кожу грануле содержится вся информация о вашем здоровье: данные о вашей магнитно-резонансной ангиографии, информация о вашей группе крови, рентгенография для вашего стоматолога», — говорит Парк.

«Вы наверняка захотите, чтобы все эти данные были всегда для вас доступны, но при этом не хотите хранить их где-то в «облаке» или на каком-то незащищенном больничном сервере. Имея всегда при себе эти данные в форме ДНК, вы сможете физически ими управлять, получать при необходимости доступ, ограничивать его всем остальным и открывать его непосредственно вашим лечащим врачам».

«Практически в каждой современной больнице имеется секвенатор ДНК. Я не говорю, что мы преследуем сейчас именно такую цель использования данной технологии, но в будущем все это может стать вполне возможным», — говорит разработчик.

В настоящее время Catalog занимается экспериментальными проектами, направленными на демонстрацию эффективности разработанной ими технологии.

«Каких-то неразрешимых научных трудностей перед нами не стоит, речь сейчас скорее идет о задачах по оптимизации механических процессов», — отметил Парк.

По собственному признанию Парка, он решил подключиться заняться исследованием способов хранения данных с помощью ДНК просто потому, что ему показалось это очень крутым и инновационным технологическим подходом к решению существующей большой проблемы. Сейчас же по мнению специалиста, эта технология может стать одной из важнейших технологий нашего времени.