Poder aceder a material genético para estudo mais rapidamente e, ao mesmo tempo, poupar muito espaço no seu armazenamento é a solução inovadora dos investigadores Vinicius Vielmo Cogo e Alysson Neves Bessani (LASIGE – Faculdade de Ciências da Universidade de Lisboa) e João Tiago Paulo do Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência – (INESC TEC) e Universidade do Minho.

Através da tecnologia agora divulgada, os três investigadores dizem conseguir poupar 75% do espaço de armazenamento em dados da sequenciação de genomas humanos e aceder aos dados cinco vezes mais rápido.

E por que é relevante? “Porque permite aos hospitais e biobancos economizar no armazenamento de dados, ao mesmo tempo que possibilita aos investigador​es lerem esses dados de forma mais rápida”, referem numa nota da Faculdade de Ciências da Universidade de Lisboa.

Os biobancos e os hospitais são responsáveis por guardar e distribuir milhões de amostras biológicas humanas para investigadores de todo o mundo e, atualmente, estão sob pressão para, também, armazenar os dados genómicos sequenciados a partir destas amostras.

​A solução desenvolvida por três instituições académicas combina uma nova técnica de deduplicação de dados baseado em semelhanças e padrões encontrados nos ficheiros de sequenciação de genomas humanos e uma codificação das alterações para a recuperação desses dados.

“Substitui-se, assim, a descrição completa dos dados genómicos sequenciados por pequenos apontadores descrevendo- se, apenas, as alterações necessárias para a recuperação dos dados originais, reduzindo proporcionalmente o espaço e o custo de armazenamento”.

Esta solução foi publicada na revista IEEE Transactions on Computers, uma das mais reconhecidas revistas científicas da área de informática no mundo a 14 de maio.

Num futuro próximo, os investigadores pretendem disponibilizar a solução em código aberto e melhorar os resultados obtidos através de estudos mais aprofundados sobre os padrões e semelhanças entre genomas humanos sequenciados. Este método será também adaptado na sequenciação de genomas de outras espécies, para outras máquinas de sequenciação e outras representações de dados relacionadas, explica a Faculdade de Ciências da Universidade de Lisboa.