Fortschritte bei der skalierbaren DNA-Sequenzierungsanalyse: nf-core/sarek 3
- 06 May 2024
- Nina Gasparoni
Die Bereitstellung standardisierter und reproduzierbarer Omics-Workflows ist ein zentrales Ziel von GHGA. Unser Bioinformatik-Team hat bereits an der Entwicklung und Optimierung mehrerer Arbeitsabläufe für die Forschungsgemeinschaft mitgewirkt. In einer neuen Veröffentlichung, erschienen in der Fachzeitschrift NAR Genomics and Bioinformatics, stellen GHGA Co-Sprecher Sven Nahnsen und Kollegen nf-core/sarek 3 vor - eine umfassende Pipeline zur Variantenerkennung und Annotation, die sowohl für Keimbahn- als auch für somatische Proben geeignet ist.
Das Verständnis von DNA-Variationen ist für verschiedene biomedizinische Anwendungen von entscheidender Bedeutung, insbesondere in der Krebsforschung und der personalisierten Medizin. Die nf-core/sarek 3-Pipeline erfüllt den wachsenden Bedarf an hoch skalierbaren, portablen und automatisierten Arbeitsabläufen zur Verarbeitung der riesigen Mengen an Sequenzierungsdaten, die aus Tausenden von Proben gewonnen werden. Die ursprüngliche Pipeline hat eine umfangreiche Überarbeitung erfahren, was zu erheblichen Leistungsverbesserungen geführt hat. Durch die Nutzung des CRAM-Formats und die Optimierung der Parallelisierung erreicht die neue Version eine erhebliche Verringerung der Speicheranforderungen und Rechenkosten.
Die Pipeline unterstützt die Analyse von Einzelnukleotidvarianten (SNVs), kleinen Insertionen und Deletionen (Indels), Strukturvariationen (SV), Kopienzahlvariationen (CNVs) und Mikrosatelliteninstabilität (MSI). Seine Anpassungsfähigkeit an verschiedene Computerinfrastrukturen, einschließlich kommerzieller Clouds und HPC-Cluster, gewährleistet eine effiziente Datenanalyse in großem Maßstab und plattformübergreifend bei gleichzeitiger Minimierung von Kosten und CO2-Emissionen.
Die Beteiligung von GHGA an diesem Projekt unterstreicht unser Engagement für die Weiterentwicklung von zugänglichen Arbeitsabläufen, die es Forschern weltweit ermöglichen, robuste und kostengünstige Genomanalysen durchzuführen. Durch die Zusammenarbeit mit Initiativen wie nf-core und die Verbesserung bestehender Workflows trägt GHGA weiterhin zum Fortschritt der Genomforschung und ihrer Anwendungen in der Biomedizin bei.
Hanssen, F., Garcia, M. U., Folkersen, L., Pedersen, A. S., Lescai, F., Jodoin, S., Miller, E., Seybold, M., Wacker, O., Smith, N., Gabernet, G., & Nahnsen, S. (2024). Scalable and efficient DNA sequencing analysis on different compute infrastructures aiding variant discovery. NAR genomics and bioinformatics, 6(2), lqae031. https://doi.org/10.1093/nargab/lqae031