Zadanie 3.
Zadanie 3:
Wdrożenie procedury sekwencjonowania genomu SARS CoV-2 z próbek, w których wykryto tylko fragmenty genomu wirusa (na przykład gen N) lub inne fragmenty genetyczne wirusa. Jest to kluczowe dla różnicowania aktywnych zakażeń SARS CoV-2 od zakażeń nieaktywnych, w których obecny jest wirus niereplikujący, wraz z bazą danych sekwencji SARS CoV-2.
W ramach zadania wdrożono sekwencjonowanie genomu SARS CoV-2 włączając próbki w których wykryto tylko fragmenty genomu wirusa. Do sekwencjonowania pełnego genomu SARS-CoV-2 użyto Paneli badawczych AmpliSeq™ SARS CoV 2 oraz zestaw Ion AmpliSeq™ Library Kit Plus; Thermo Fisher Scientific) który oznaczano w 634 próbkach z różnym obciążeniem ładunkiem wirusa i różnymi liniami filogenetycznymi. Dla celów projektu przeprowadzono modyfikację protokołu celu uzyskania wysokiej jakości danych genomowych. Zmodyfikowany protokół przygotowania biblioteki pozwolił na użycie mniejszej ilości RNA wirusa w celu uzyskania optymalnej ilości biblioteki, podczas gdy zarówno stężenie cDNA, jak i ponowna amplifikacja bibliotek z próbek o niskiej ilości matryc molekularnych nie poprawiły wyników sekwencjonowania. Na podstawie wskaźników efektywności amplifikacji zaproponowano przeprojektowanie jednego amplikonu, a mianowicie r1_1.15.1421280, dla którego 44% próbek dało mniej niż 50 odczytów. Dodatkowo opracowano bazę danych dla sekwencji SARS CoV-2, która pozwala na składowanie, przeszukiwanie i analizowanie sekwencji wirusów SARS COV-2 z próbek pobranych do pacjentów w Polsce. Baza składuje informacje o samych próbkach (data pobrania, kod genetyczny) a także anonimowe dane o pacjentach: (miejsce pobrania, płeć, wiek i rodzaj hospitalizacji).
Użytkownik może w prosty sposób wyszukiwać sekwencje i pacjentów według określonych kryteriów: np. wariantu wirusa, płci, wieku itd. Baza została wyposażona w narzędzie służące do analizy kodu nukleotydowego wirusa SARS COV-2. Wgrane sekwencje poddawane są analizie bioinformatycznej polegającej na wykryciu mutacji wirusa oraz wykryciu wariantu wirusa. W celu wykrycia mutacji, sekwencja jest porównywana do sekwencji referencyjnej WUHAN. Wykryte różnice pozwalają określić mutacje w poszczególnych białkach.Wariant wirusa określany jest natomiast w drodze analizy filogenetycznej przy użyciu narzędzia Pangolin. Wykorzystywany jest szereg metod analitycznych: dopasowanie do kodu referencyjnego, wykrywanie duplikatów a następnie wykorzystanie wytrenowanego modelu uczenia maszynowego do określenia wariantu. Informacja o wykrytym wariancie jest również składowana w bazie.
W trakcie prac opracowano bazę danych dla sekwencji SARS CoV-2, która pozwala na składowanie, przeszukiwanie i analizowanie sekwencji wirusów SARS COV-2 z próbek pobranych do pacjentów w Polsce. Narzędzie pozwala określić mutacje w poszczególnych białkach oraz wariant wirusa w drodze analizy filogenetycznej i służy do szybkiej identyfikacji wariantu wirusa i mutacji - dostępne pod linkiem https://covid.pum.telix.info. Narzędzie akceptuje również sekwencje w formacie FASTA. Pełne sekwencje wirusa zawierają zwykle ok 28-29 tys znaków pozwalając na pełną analizę i otrzymanie identyfikacji wariantu SARS CoV-2 (np. wariant B.1.221) oraz mutacji w regionie ORF1ab (np. F924F H1113Y F1632F L2226L T2280I V2559V D2833G K3162R P4715L N5020N D5152D P5260P V5422F), S (np. S98F D614G V1228L), ORF3a (np Q38R G172R V202L), ORF6 (np F7L) i N (np. N N126N P199L). jest to pierwsze polskie narzędzie pozwalające na szybką identyfikację wariantu i mutacji SARS CoV-2 na podstawie sekwencji.
Publikacja dostępna pod adresem:
Szargut, M.; Cytacka, S.; Serwin, K.; Urbańska, A.; Gastineau, R.; Parczewski, M.; Ossowski, A. SARS-CoV-2 Whole-Genome Sequencing by Ion S5 Technology—Challenges, Protocol Optimization and Success Rates for Different Strains. Viruses 2022, 14, 1230. https://doi.org/10.3390/v14061230
https://www.mdpi.com/1999-4915/14/6/1230/htm