Биология требует революции в информатике

Увеличивающийся объем генетических данных стал проблемой для науки

 

 

Команда биологов и программистов подсчитала, что вычислительные ресурсы, необходимые для обработки генетических данных, в скором времени побьют рекорды Twitter и YouTube. Учёные утверждают, что справляться с таким огромным потоком постоянно поступающей информации будет всё сложнее, пишет А. Горина (www.vesti.ru).
Феномен, вероятно, связан с тем, что расходы на секвенирование геномов — как финансовые, так и любые другие — постепенно снижаются. Процесс занимает всё меньше времени, да и стоимость расшифровки генетической информации уменьшается с каждым годом.
К 2025 году генетики будут располагать данными о геномах от 100 миллионов до 2 миллиардов человек. Об этом заявляют авторы исследования, которые представили свой отчёт в журнале PLoS Biology. Для хранения подобного объёма данных необходимо от 2 до 40 эксабайт места.
Генетики напоминают, что объём данных, требуемый для хранения информации об одном геноме, в 30 раз превышает размер самого генома.
Авторы исследования пришли к выводу, что по этому параметру собираемая генетическая информация превышает прогнозируемые ежегодные требования для хранения данных на портале YouTube, которому потребуется 1—2 эксабайта к 2025 году. Большие данные геномики в скором времени также побьют рекорд Square Kilometre Array — крупнейшего астрономического проекта современности.
Тут стоит отметить, что места хранения данных — лишь часть проблемы, поскольку вычислительные требования для получения, распространения и анализа полученной информации будут ещё выше.
«Чтобы справиться с объёмом данных и скоростью анализа, которые будут необходимы в самое ближайшее время, потребуется настоящая революция в информатике», — утверждает соавтор исследования Джин Робинсон (Gene Robinson) из Университета Иллинойса.
По мнению информатика Нараяна Десаи (Narayan Desai), проблема заключается ещё и в том, что хранение и пользование данными в области геномики крайне децентрализовано. Другие ресурсоёмкие дисциплины, такие как физика высоких энергий, требуют координации и консенсуса для разработки инструментов сбора данных, и потому вся информация хранится в одном месте.
«Однако наборы данных в области геномики можно назвать раздробленными, даже несмотря на все попытки установить центр хранения всей информации в облаке», — говорит Десаи.
Астрономы и физики обрабатывают большое количество данных, однако по завершении расчётов и изысканий удаляют большую часть изначально полученной информации. Это упрощает более поздние стадии работы, такие как распределение и анализ. Геномика же пока не имеет стандартов для преобразования необработанных данных в последовательности обработанных данных.
Все учёные, которые принимали участие в исследовании, и эксперты, ознакомившиеся с результатами их трудов, убеждены, что проблема действительно серьёзная и требует немедленного разрешения. Придумать простое и элегантное решение требуется в самые ближайшие годы, поскольку объём данных растёт в геометрической прогрессии, отмечают исследователи.

 

На заставке изображение с сайта progressforpoland.com

 

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.