Einzel

Blog

HeimHeim / Blog / Einzel

Oct 20, 2023

Einzel

Band Kommunikationsbiologie

Communications Biology Band 6, Artikelnummer: 201 (2023) Diesen Artikel zitieren

6934 Zugriffe

29 Altmetrisch

Details zu den Metriken

Die Identifizierung von Personen aus biologischen Mischungen, zu denen sie beigetragen haben, ist für die Untersuchung von Tatorten und verschiedene biomedizinische Forschungsbereiche von großer Bedeutung, bleibt jedoch trotz früherer Versuche nahezu unmöglich. Hier untersuchten wir das Potenzial der Verwendung der Einzelzell-Transkriptomsequenzierung (scRNA-seq) in Verbindung mit einer speziellen Bioinformatik-Pipeline (De-Gulasch) zur Lösung dieses seit langem bestehenden Problems. Wir haben einen neuartigen Ansatz entwickelt und ihn mit scRNA-seq-Daten getestet, die wir de-novo aus Blutmischungen mehrerer Personen generiert haben, sowie mit In-silico-Mischungen, die wir aus öffentlichen, einzelnen scRNA-seq-Datensätzen zusammengestellt haben, die unterschiedliche Zahlen, Verhältnisse und andere Werte umfassen biogeografische Abstammung der Mitwirkenden. Bei allen 2 bis 9 Personen ausgewogenen und unausgeglichenen Blutmischungen mit Verhältnissen bis 1:60 erreichten wir eine klare Einzelzelltrennung nach den beitragenden Individuen. Für alle getrennten Mischlingsspender wurden Geschlecht und biogeografische Abstammung (mütterlicherseits, väterlicherseits und bi-parental) korrekt bestimmt. Alle getrennten Mitwirkenden wurden mit gerichtlich akzeptabler statistischer Sicherheit anhand von de-novo generierten Referenzdaten zur Sequenzierung des gesamten Exoms korrekt einzeln identifiziert. In dieser Proof-of-Concept-Studie demonstrieren wir die Machbarkeit von Einzelzellansätzen zur Dekonvolution biologischer Mischungen und anschließender genetischer Charakterisierung und individuellen Identifizierung der getrennten Mischungsteilnehmer. Mit weiterer Optimierung und Implementierung könnte dieser Ansatz schließlich den Übergang zu anspruchsvollen biologischen Gemischen ermöglichen, einschließlich solcher, die an Tatorten gefunden werden.

Die genetische Charakterisierung und individuelle genetische Identifizierung von Personen, die zu biologischen Mischungen beigetragen haben, ist in verschiedenen Bereichen von Wissenschaft und Gesellschaft relevant. An Tatorten werden häufig biologische Gemische gesammelt, an denen mehr als eine Person beteiligt ist. In Fällen mit bekannten Tätern kann die individuelle genetische Identifizierung einen Täter durch vergleichende forensische DNA-Profilierung1 lokalisieren, während in Fällen mit unbekannten Tätern eine genetische Charakterisierung (z. B. Geschlecht, biogeografische Abstammung) Ermittlungshinweise liefern kann, die bei der Suche nach dem unbekannten Täter helfen1. Eine erfolgreiche genetische Charakterisierung und Identifizierung von Individuen aus gemischten Biomaterialien beginnt mit der genauen Entfaltung der Mischung, d. h. der Trennung des gemischten Biomaterials nach den einzelnen Mitwirkenden, was der wichtigste, aber gleichzeitig schwierigste Schritt ist. Trotz verschiedener Versuche, die auf unterschiedlichen Methoden basieren, bleiben Einschränkungen bei der Dekonvolution biologischer Gemische eine der größten Herausforderungen der forensischen DNA-Analyse2,3,4,5,6. Darüber hinaus ist die Gemischtrennung auch in anderen Bereichen der biomedizinischen Forschung und Anwendung relevant, z. B. zur Erkennung und Lösung von Kontaminationen in weit verbreiteten Zell-, Gewebe- und Organoidkulturen.

Derzeit ist die bei der forensischen Mischungsentfaltung am häufigsten verwendete Technik die differenzielle Lyse7, die bei Mischungen angewendet wird, die Samenzellen des männlichen Täters und Epithelzellen des weiblichen Opfers umfassen, die typischerweise bei sexuellen Übergriffen auftreten, indem Vaginalabstriche analysiert werden. Allerdings führt die differenzielle Lyse häufig zu einer unvollständigen Trennung der männlichen und weiblichen DNA-Fraktionen. Infolgedessen zeigt das resultierende autosomale Short Tandem Repeat (STR)-Profil immer noch eine Mischung von Allelen des weiblichen Opfers und des männlichen Täters. Dies macht es schwierig und oft unmöglich, das STR-Profil des männlichen Täters aus dem gemischten DNA-Profil herauszufiltern, selbst wenn das STR-Profil des weiblichen Opfers aus der Referenz-DNA-Analyse bekannt ist8. Die Ausrichtung auf den männlich-spezifischen Teil des Y-Chromosoms bietet Hilfe, da es die spezifische Analyse männlich-spezifischer STRs in der Mischung ermöglicht und in Mischungen mit großem Zugang zu weiblicher DNA funktioniert, wie z. B. in Material aus Fällen sexueller Übergriffe9. Allerdings hat die forensische Y-STR-Profilerstellung den Nachteil, dass sie meist nicht zwischen väterlich verwandten Männern unterscheiden kann, die typischerweise das gleiche Y-STR-Profil haben. Folglich galt die für den männlichen Tatverdächtigen ermittelte Übereinstimmungswahrscheinlichkeit auch für seine männlichen Verwandten väterlicherseits, so dass Schlussfolgerungen auf individueller Ebene nicht wie vor Gericht erforderlich gezogen werden können9. Methoden zur Entfaltung gemischter autosomaler STR-Profile, die aus gemischten Färbungen mithilfe statistischer Methoden wie der probabilistischen Genotypisierung gewonnen wurden, stehen zur Verfügung10,11,12,13, ihr Erfolg ist jedoch begrenzt und hängt von vielen Faktoren ab12,13. Aufgrund seiner quantitativen Natur bietet der Einsatz von Next Generation Sequencing (NGS), auch als Massively Parallel Sequencing (MPS) bezeichnet, für die forensische STR-Profilerstellung eine gewisse Verbesserung bei der Entfaltung gemischter STR-Profile, sein Erfolg beschränkt sich jedoch hauptsächlich auf weniger komplexe Mischungen wie die von zwei Personen1. Darüber hinaus eignet sich die Differentiallyse nicht für die Auflösung von Samenmischungen verschiedener Männer und auch nicht für Mischungen, bei denen überhaupt keine Samenzellen vorhanden sind.

Ein weiterer großer Nachteil der aktuellen Methoden besteht darin, dass sie darauf abzielen, das gemischte DNA-Profil zu trennen, anstatt die gemischte Probe vor der DNA-Profilierung nach ihren Mitwirkenden zu trennen. Eine potenziell vielversprechendere Strategie zur Mischungstrennung bestünde darin, die biologische Mischung zunächst nach den einzelnen Beiträgen zu trennen, sodass die anschließende DNA-Analyse zur genetischen Identifizierung oder Charakterisierung der getrennten einzelnen Beiträge zu einer technisch weniger anspruchsvollen Analyse aus einer Hand wird. Kürzlich wurden nur wenige Methoden zur Trennung von Zellen aus einem Gemisch vor der forensischen STR-Analyse zum Zweck der forensischen Gemischentfaltung getestet, wie z. B. DEPArray(TM) 14,15,16, Laser Capture Microdissection17 oder FACS18,19. Der Hauptnachteil von DEPArray(TM) und der Laser-Capture-Mikrodissektion ist die geringe Anzahl von Zellen, die die Techniken trennen können. Je geringer die Anzahl der abgetrennten Zellen ist, desto wahrscheinlicher ist es, dass ein kleiner Beitrag zur Mischung übersehen wird. Obwohl die Anzahl der Zellen durch den Einsatz von FACS erhöht werden kann, was Fluoreszenzunterschiede zwischen trennbaren Zelltypen erfordert, funktioniert FACS nicht für Mischungen desselben Zelltyps oder von Zelltypen, die nicht durch Fluoreszenz getrennt werden können.

Ein allgemeiner Nachteil, der alle derzeit verfügbaren Methoden zur Mischungsentfaltung vereint, besteht darin, dass aufgrund der begrenzten DNA-Mengen, die von Tatorten gewonnen werden, typischerweise nur Teil-STR-Profile generiert werden14,15,16,18,19,20. Aufgrund der begrenzten Anzahl von STRs, die in kommerziellen STR-Kits enthalten sind, die in der forensischen Praxis verwendet werden, sind die Übereinstimmungswahrscheinlichkeiten, die sich aus partiellen STR-Profilen ergeben, oft nicht hoch genug, um mit der vom Gericht akzeptierten erforderlichen statistischen Sicherheit auf eine individuelle Identifizierung schließen zu können. Die Erhöhung der Anzahl von STR-Markern in forensischen STR-Kits ist eine technische Herausforderung. insbesondere für Kits, die auf weit verbreiteter fluoreszenzmarkierter Multiplex-PCR und Kapillarelektrophorese (CE) basieren. Obwohl gezielte MPS die Anzahl der STR-Marker im Vergleich zur CE-Analyse erhöhen kann, bleibt die Sequenzierung von STRs aufgrund von Enzymproblemen bei der Sequenzierung repetitiver DNA eine Herausforderung, falls solche kommerziellen Kits in Zukunft verfügbar werden. Bemerkenswert ist, dass diese Einschränkung nicht besteht, wenn es um Einzelnukleotidpolymorphismen (SNPs) geht, die nicht nur eine individuelle genetische Identifizierung, sondern auch eine genetische Charakterisierung von Individuen ermöglichen1,21,22. Darüber hinaus können SNPs mit zielgerichteten oder nicht zielgerichteten MPS-Technologien problemlos gleichzeitig in großer Zahl genotypisiert werden.

In den letzten Jahren sind mehrere Einzelzell-Sequenzierungstechnologien entstanden, die eine groß angelegte Genom-, Epigenom- und Transkriptomsequenzierung umfassen und die biologische und biomedizinische Forschung und Anwendungen revolutionieren23. Einzelzell-Sequenzierungstechniken ermöglichen die Vormarkierung von Zellen vor der groß angelegten Sequenzierung und liefern große Mengen an SNP-Daten für die anschließende Analyse. Grundsätzlich wird erwartet, dass solche Einzelzellsequenzierungstechnologien die Einschränkungen derzeit verwendeter Methoden zur Mischungsentfaltung überwinden. Nach unserem besten Wissen wurde die Hochdurchsatz-Einzelzellsequenzierung jedoch noch nicht für die Dekonvolution von Gemischen mit anschließender genetischer Charakterisierung und individueller genetischer Identifizierung der getrennten Mitwirkenden angewendet.

Hier stellen wir einen neuartigen Ansatz vor, der auf der Einzelzell-Transkriptomsequenzierung mit einer speziellen Bioinformatik-Pipeline basiert und durch die Analyse von biologischen Gemischen mehrerer Personen eine genetische Trennung der einzelnen Mitwirkenden sowie eine genetische Charakterisierung und individuelle genetische Identifizierung der getrennten Mitwirkenden erreicht. und bestimmt zusätzlich das Ursprungsgewebe biologischer Gemische. In dieser Proof-of-Principle-Studie stellen wir unseren Ansatz mit einer speziellen Bioinformatik-Pipeline vor und liefern die ersten Validierungsergebnisse unter Verwendung von de novo generierten scRNA-seq-Datensätzen aus Blutmischungen mehrerer Personen und in silico generierten Mischungen aus öffentlich verfügbaren individuellen scRNA -seq-Datensätze, die eine unterschiedliche Anzahl von Mitwirkenden mit unterschiedlichen biogeografischen Vorfahren und unterschiedlichen Verhältnissen der einzelnen Beiträge umfassen.

Mit dem Ziel, Personen, die zu Blutmischungen mehrerer Personen beigetragen haben, anhand von Daten zur Einzelzell-Transkriptomsequenzierung (scRNA-seq) genetisch zu trennen, zu charakterisieren und individuell zu identifizieren, haben wir eine Bioinformatik-Pipeline namens De-Gulasch entwickelt (Abb. 1a)24. Wir haben De-Gulasch auf scRNA-seq-Datensätze angewendet, die wir de-novo aus Mehrpersonen-Blutmischungen generiert haben, und auf In-silico-Mischungen, die wir durch Mischen öffentlich verfügbarer Einzel-scRNA-seq-Datensätze erstellt haben. Obwohl für die Trennung von scRNA-seq-Daten mehrere bioinformatische Tools wie ScSplit25, Souporcell26 oder Vireo27 verfügbar sind, ermöglicht keines davon eine optimierte Anwendung, um die Einzelzelltrennung mit genetischer Charakterisierung und individueller genetischer Identifizierung der Mitwirkenden der getrennten Mischung zu kombinieren. De-Gulasch entfaltet zunächst Mischungen, d. h., trennt Individuen, die zu den Mischungen beigetragen haben, in einem zweistufigen Ansatz, wobei zwei Sätze von SNPs verwendet werden, die automatisch aus den scRNA-seq-Daten aufgerufen werden. Die entfalteten Zellcluster, die den Personen entsprechen, die wie unten beschrieben zur Mischung beigetragen haben, werden dann verwendet, um automatisch zusätzliche SNP-Sets für jeden der getrennten Zellcluster zur genetischen Charakterisierung hinsichtlich Geschlecht, biogeografischer Abstammung und individueller genetischer Identifizierung der Getrennten aufzurufen Mischungsmitwirkende.

a Der De-Gulasch-Pipeline-Workflow für die Entfaltung einzelzellbasierter Gemische mit Vorverarbeitung der scRNA-seq-Sequenzierungsdaten in zwei Iterationsschritten (mtDNA-SNP-basierte Trennung, gefolgt von genomweiter SNP-basierter Trennung). b Die 3D-UMAP-Darstellung des zweistufigen Einzelzelltrennungsprozesses einer ausgewogenen Zwei-Personen-Blutmischung (Datensatz M2), an der ein männlicher Spender ostafrikanischer Abstammung und ein weiblicher Spender europäischer Abstammung beteiligt sind. c EMPOP47-Karte der weltweiten Verteilung der mtDNA-Haplogruppe L2a1j, abgeleitet aus Haplogruppen-diagnostischen mtDNA-SNPs von Zellcluster 1 mit abgeleiteter afrikanischer mütterlicher Abstammung. d EMPOP-Karte der mtDNA-Haplogruppe U5b2b4a, abgeleitet aus Haplogruppen-diagnostischen mtDNA-SNPs von Cluster 2 mit abgeleiteter europäischer mütterlicher Abstammung. e Literaturkarte53 der Y-Haplogruppe E, abgeleitet aus Haplogruppen-diagnostischen Y-SNPs von Zellcluster 1 mit abgeleiteter afrikanischer väterlicher Abstammung. Cluster 2 wies aufgrund des weiblichen Geschlechts keine Y-Haplogruppe auf, wie auch in der genetischen Geschlechtsanalyse für Cluster 2 deutlich wurde, während für Cluster 1 männliches Geschlecht ermittelt wurde. f, g Biparentale Abstammungsanalyse mit STRUKTUR der genomweiten SNPs, die für jeden der Zellcluster mit kontinentalen Referenzpopulationsdaten erhalten wurden (Eur: Europäer, Eas: Ostasiaten, Amr: amerikanische Ureinwohner, Afr: Afrikaner südlich der Sahara), Das Ergebnis für die Zellcluster wird als „Probe“ bezeichnet. Das Ergebnis für Zellcluster 1 zeigt eine abgeleitete gemischte biparentale Abstammung mit einer großen afrikanischen Abstammung. Das Ergebnis für Zellcluster 2 zeigt eine europäische biparentale Abstammung. Die aus den Zellclustern 1 und 2 abgeleiteten mütterlichen, väterlichen und biparentalen genetischen Abstammungen stimmen mit den familiären Abstammungen der beiden an der Mischung beteiligten Personen überein.

Beim De-Gulasch werden nach dem Alignment der scRNA-seq-Daten zwei aufeinanderfolgende Runden der Entfaltung der genetischen Mischung angewendet. Im ersten Iterationsschritt werden SNPs aus mitochondrialer DNA (mtDNA), die in den scRNA-seq-Daten häufig vorkommen, aufgerufen und verwendet. Da mtDNA beim Menschen uniparental über die mütterliche Linie vererbt wird, werden multiallelische mtDNA-SNPs durch das Vorhandensein von DNA mehrerer Individuen verursacht, mit der seltenen Ausnahme heteroplasmatischer Stellen in mtDNA. Aufgrund der vielen mtDNA-SNPs mit Unterschieden zwischen Individuen, die verschiedenen mütterlichen Abstammungslinien angehören (sogenannte mtDNA-Haplogruppen), eignen sich mtDNA-SNPs daher für die Dekonvolution von Gemischen. Diese erste Iteration ermöglicht eine schnelle Berechnung mit weniger Ressourcen, da nur eine kleine Teilmenge der großen scRNA-seq-Daten (dh der mtDNA-Teil) verarbeitet wird. Informative mtDNA-SNPs werden basierend auf der Häufigkeit in den Zellen ausgewählt. Um das inhärente Problem fehlender Daten in scRNA-seq zu überwinden, das zu Positionslücken in der SNP-Zellmatrix führt, haben wir die Berechnungsmethode DINEOF28 angewendet. Nach der Neuberechnung fehlender Daten wird die resultierende Zellmatrix für die Clusteranalyse verwendet. Zur Dimensionsreduktion und Visualisierung wird die einheitliche Mannigfaltigkeitsnäherung und -projektion (UMAP)29 eingesetzt. Wenn die Anzahl der Individuen in der Mischung unbekannt ist (oder vermutlich unbekannt ist), haben wir zunächst die Anzahl der Cluster mithilfe von NbClust30 bestimmt, einer Sammlung mehrerer Clustering-Methoden, um einen Konsens über die ideale Anzahl der erhaltenen Zellcluster zu erzielen. Die resultierende Matrix wurde für die K-Mittelwert-Clusterbildung verwendet, wobei a priori bestimmtes k oder k aus der NbClust-Berechnung verwendet wurde. Im zweiten Iterationsschritt verwendet De-Gulasch die auf Basis der mtDNA aus der ersten Iteration etablierten Zellcluster, um für jeden generierten Zellcluster geeignete genomweite SNPs aufzurufen. Nach der Filterung nach informativen SNPs und der Neuberechnung fehlender Daten wird diese erweiterte SNP-Liste für die zweite Clustering-Iteration verwendet, die den gleichen Schritten wie die erste Iteration folgt.

Nach diesem zweistufigen Verfahren verwendet die Pipeline die schließlich erhaltenen Zellcluster, um automatisch zusätzliche SNP-Sets für jeden der getrennten Zellcluster zu generieren. Diese verschiedenen Sätze von SNPs, die auf der Grundlage unterschiedlicher Prinzipien ausgewählt wurden, werden anschließend von der Pipeline angewendet, um die getrennten Mischungsteilnehmer hinsichtlich ihres Geschlechts und ihrer biogeografischen Abstammung zu charakterisieren (unter Verwendung von Populationsreferenzdatenbanken) und schließlich die getrennten Mischungsteilnehmer anhand ihrer Verwendung individuell zu identifizieren einer Referenzdatenbank zur Sequenzierung des gesamten Exoms. In nachfolgenden Analysen verwenden wir die scRNA-seq-Daten auch, um Informationen über das/die Ursprungsgewebe(e) der Zellen in der analysierten Mischung zu erhalten (unter Verwendung unterschiedlich exprimierter Gene in jedem Einzelzell-Expressionsdatencluster).

Um unseren Ansatz zu testen, haben wir zunächst de novo scRNA-seq-Daten aus einer einfachen ausgewogenen Blutmischung für zwei Personen generiert (Datensatz M2, Zusatzdaten 1), bei der der Beitrag der beiden Personen gleich war. Der Einfachheit halber wurden die beiden Individuen mit unterschiedlichem Geschlecht und unterschiedlicher kontinentaler biogeografischer Abstammung (afrikanisch und europäisch) ausgewählt. Beim Entgulaschen zeigte sich in beiden Iterationen eine deutliche Trennung der Zellen in der Mischung in zwei Cluster (Abb. 1b). In der ersten Iteration wurden 62 mtDNA-SNPs verwendet und trennten 21,3 % der Zellen in der Mischung, während in der zweiten Iteration 630 genomweite SNPs angewendet wurden und fast alle Zellen (97 %) trennten (Ergänzungstabelle 1).

Um zu testen, ob die beiden erhaltenen Zellcluster den beiden beitragenden Individuen entsprechen, haben wir zunächst für jeden der beiden Zellcluster separat eine genetische Charakterisierungsanalyse hinsichtlich Geschlecht und biogeografischer Abstammung durchgeführt (zur individuellen genetischen Identifikationsanalyse siehe unten). Um das Geschlecht genetisch zu bestimmen, führten wir zunächst eine Y-Chromosomen-SNP-Analyse durch und fanden für Cluster 2 eine sehr geringe Anzahl von Y-SNP-Sequenzierungsablesungen, die wir auf Rauschen oder Fehler bei der Ausrichtung zurückführten, während wir für Cluster 1 eine etwa 10-fach höhere Sequenzierung feststellten liest (Ergänzende Abbildung 1, Ergänzende Daten 2). Zweitens untersuchten wir das Expressionsniveau des Gens, das für die nicht-kodierende RNA XIST kodiert, die spezifisch in somatischen Zellen biologischer Frauen exprimiert wird, um eines der beiden X-Chromosomen zu inaktivieren31. Nachdem wir die Sequenzierungsablesungen extrahiert hatten, die dem XIST-Gen zugeordnet sind, zeichneten wir das Expressionsniveau auf und fanden eine etwa 10-fach höhere Expression für Cluster 2 und fast keine Expression für Cluster 1 (Ergänzende Daten 3, ergänzende Abbildung 2). Diese Ergebnisse zusammengenommen erlaubten uns den Schluss, dass Zellcluster 1 einem Mann und Cluster 2 einer Frau entspricht, was mit dem A-priori-Wissen über eine Frau und einen Mann in der sequenzierten Blutmischung übereinstimmt.

Die genetische Schlussfolgerung der biogeografischen Abstammung auf der Grundlage der beiden Zellcluster wurde getrennt auf drei verschiedene Arten unter Verwendung von drei verschiedenen Teilen des menschlichen Genoms durchgeführt, sodass wir auf drei verschiedenen Ebenen Rückschlüsse auf die biogeografische Abstammung ziehen konnten. Zunächst stellten wir die mütterliche Abstammung fest, dh die Abstammung der Person von der mütterlichen Seite, indem wir mit Haplogrep232 aus den erhaltenen mtDNA-SNP-Daten die mtDNA-Haplogruppen ableiteten, und untersuchten die geografische Verteilung der identifizierten mtDNA-Haplogruppen anhand von Literaturkenntnissen. Hier fanden wir heraus, dass Cluster 1 (Abb. 1b) der mtDNA-Haplogruppe L2a1j zugeordnet wurde, die am häufigsten in Afrika beobachtet wird (Abb. 1c), während Cluster 2 der mtDNA-Haplogruppe U5b2b4a zugeordnet wurde, die am häufigsten in Europa vorkommt (Abb . 1d). Beide Zuordnungen wurden mit hoher Sicherheit durchgeführt (Q = 0,9767 bzw. 0,9139).

Zweitens ermittelten wir die väterliche Abstammung, d. h. die Abstammung eines Mannes von der väterlichen Seite, indem wir mithilfe von Yleaf33 die Y-chromosomalen Haplogruppen aus den erhaltenen Y-chromosomalen SNP-Daten ableiteten, und untersuchten die geografische Verteilung der identifizierten Y-Haplogruppen anhand von Literaturkenntnissen. Für Zellcluster 1 haben wir die Y-Haplogruppe E1b1b1b2a1a1 entdeckt, die eine räumliche Verteilung zeigt, die den Nahen Osten und Südafrika abdeckt (Abb. 1e), während für Cluster 2 keine zuverlässigen Y-chromosomalen Daten erhalten wurden (Ergänzungsdaten 4). mit dem daraus resultierenden weiblichen Geschlecht des Beitragenden von Cluster 2.

Drittens haben wir auf der Grundlage genomweiter autosomaler SNPs unter Verwendung von STRUCTURE34 und Referenzpopulationsdaten aus dem öffentlichen 1000-Genom-Projekt35 auf bi-parentale biogeografische Abstammung geschlossen, dh auf die Abstammung einer Person sowohl väterlich als auch mütterlicherseits. Zu diesem Zweck wurden für jeden Zellcluster genomweite SNPs gefiltert, um für die Abstammungsinduktion geeignet zu sein, basierend auf geringfügigen Allelfrequenzunterschieden zwischen kontinentalen Populationen (maximal 0,3) und der physischen Entfernung (mindestens 500 kb), um Kopplungsungleichgewichte auszugleichen. Für Zellcluster 1 erhielten wir 53,6 % afrikanische und 44,6 % europäische Vorfahren, während andere kontinentale Vorfahren untergeordnet (0,4 % amerikanische Ureinwohner, 0,2 % südasiatisch) oder gar nicht (ostasiatisch) waren (Abb. 1f, Zusatzdaten 5). Für Cluster 2 haben wir eine nahezu vollständige (99,2 %) Clusterung in Richtung der europäischen Abstammung festgestellt (Abb. 1g, Zusatzdaten 5).

Zusammengenommen und gestützt durch jede der drei separaten genetischen Abstammungsanalysen lassen unsere Daten den Schluss zu, dass das männliche Individuum von Cluster 1 überwiegend afrikanischer Abstammung und das weibliche Individuum von Cluster 2 europäischer Abstammung ist. Dieser genetische Befund stimmt mit dem a priori Wissen über die europäische Frau und den afrikanischen Mann in der sequenzierten Blutmischung überein. Laut einem Fragebogen stammt der männliche Beitragszahler väterlicherseits aus Ostafrika. Ostafrika ist in den verwendeten 1000-Genom-Referenzdaten nicht gut vertreten (die meisten afrikanischen Individuen stammen aus Afrika südlich der Sahara), was die von uns entdeckten höheren Anteile afrikanischer und geringerer nichtafrikanischer Abstammung erklärt.

Darüber hinaus haben wir das Ursprungsgewebe der in der Mischung vorhandenen Zellen mithilfe eines Genexpressionsprofils bestimmt, das aus denselben scRNA-seq-Daten abgeleitet wurde. Differenziell exprimierte Gene in jedem der mithilfe der t-SNE-Clusteranalyse erhaltenen Cluster wurden verwendet, um die Gewebe- und Zelltypen mithilfe einer Genanreicherungsanalyse mit Enrichr (Human Gene Atlas) zu bestimmen36. Wir fanden heraus, dass die Zelltypen in beiden Clustern zu unterschiedlichen Blutzelltypen gehören, was mit dem A-priori-Wissen übereinstimmt, dass die scRNA-seq aus einer Blutmischung erzeugt wurde (ergänzende Abbildung 3a).

Da der erste Iterationsschritt des Mischungsentfaltungsverfahrens ausschließlich auf mtDNA-SNPs basiert, kann man spekulieren, dass der Erfolg der Einzelzelltrennung vom Grad der mtDNA-Unterschiede zwischen den Individuen in der Mischung beeinflusst wird. Um den Einfluss enger verwandter mtDNA-Haplogruppen auf die Mischungsentfaltung zu testen, haben wir scRNA-seq-Daten (Datensatz M2-cl, Ergänzungsdaten 1) aus einer zweiten ausgewogenen 2-Personen-Blutmischung generiert, an der die oben beschriebene Person 2 beteiligt war (Europäer). weiblich mit Haplogruppe U5b2b4a) und ein neues Individuum 3 (männlich mit mtDNA-Haplogruppe U5a2b4 mütterlicherseits europäischer Abstammung, aber afrikanischer väterlicher Abstammung). Obwohl aus technischen Gründen die Gesamtsequenzierungstiefe dieser Blutmischung relativ gering war (Ergänzungsdaten 1), zeigte sich eine klare Trennung der Zellen in zwei Cluster (Abb. 2a). Während in der ersten Iteration drei Cluster erkannt wurden, was möglicherweise auf die verringerte Anzahl verfügbarer mtDNA-SNPs aufgrund der geringen Sequenzierungstiefe und des Gesamtrauschens der Daten zurückzuführen ist, zeigte die zweite Iteration erwartungsgemäß zwei klar getrennte Zellcluster Zwei-Personen-Mischung. Die Ergebnisse der Analyse des biologischen Geschlechts und der biogeografischen Abstammung stimmten mit den Erwartungen aus dem A-priori-Wissen über die beiden Personen überein, die zu dieser Blutmischung beigetragen haben (Ergänzungsdaten 3–5, Ergänzende Abbildungen 2–4). Diese Ergebnisse legen nahe, dass der Grad der mtDNA-Differenzierung der zu trennenden Individuen in einer Mischung keinen negativen Einfluss auf den Erfolg unseres Ansatzes zur Dekonvolution der Mischung hat.

a–c 3D-UMAP-Darstellung der Einzelzelltrennung ausgewogener Blutmischungen mit zwei Individuen (oben, Datensatz M2-cl), drei Individuen (Mitte, Datensatz M3) bzw. vier Individuen (unten, Datensatz M4). Die linken Felder zeigen die Ergebnisse nach dem ersten Iterationsschritt der Mischungsentfaltung basierend auf mtDNA-SNPs. Die rechten Felder zeigen die Ergebnisse nach der zweiten Iteration basierend auf genomweiten SNPs. eine Mischung aus zwei europäischen Individuen mit eng verwandten mtDNA-Haplogruppen, die nach beiden Iterationsschritten in zwei unterschiedliche Cluster getrennt wurden, b eine Mischung aus drei europäischen Individuen, die nach beiden Iterationen in drei unterschiedliche Cluster getrennt wurden, c eine Mischung aus vier Individuen unterschiedlicher Herkunft (Individuum 1 und 2: weiblich, Europäische Abstammung, Individuum 3: männlich, europäische Abstammung, Individuum 4: männlich, mütterlicherseits europäische Abstammung, väterlicherseits afrikanische Abstammung), nach beiden Iterationen in 4 verschiedene Cluster unterteilt. d, f, i, k Biparentale Abstammungsanalyse mit STRUKTUR aus autosomalen SNPs, erhaltene einzelne Cluster aus der 4-Personen-Mischung (Abb. 2c) mit kontinentalen Referenzpopulationsdaten aus 1000-Genom-Projektdaten (Eur: Europäer, Eas: Ostasiaten, Amr : Native Americans, Afr: Subsahara-Afrikaner) für d-Zellcluster 1 mit vermuteter europäischer biparentaler Abstammung, f-Zellcluster 2 mit vermuteter europäischer Abstammung, i-Zellcluster 3 mit vermuteter europäischer Abstammung und k-Zellcluster 4 mit vermuteter großer afrikanischer Abstammung Abstammung. e, g, j, l EMPOP-Karte von mtDNA-Haplogruppen, abgeleitet aus mtDNA-SNPs einzelner Cluster aus der 4-Personen-Mischung in (Abb. 2c) für e-Zellcluster 1 mit mtDNA-Haplogruppe U5b2b4a (europäische mütterliche Abstammung), g-Zellcluster 2 mit mtDNA-Haplogruppe T2a1a (europäische mütterliche Abstammung), j-Zellcluster 3 mit mtDNA-Haplogruppe H11a1 (europäische Abstammung) und l-Zellcluster 4 mit mtDNA-Haplogruppe U5a2b4 (europäische Abstammung). h–m Literaturkarten53 von Y-Haplogruppen, abgeleitet aus Haplogruppen-diagnostischen Y-SNPs für zwei der vier Zellcluster aus der 4-Personen-Mischung (Abb. 2C) für F-Zellcluster 2 mit Y-Haplogruppe I2a1b1a2b1a (südeuropäische Abstammung) und m für Zellcluster 4 mit Y-Haplogruppe E1b1a1a1a1a (afrikanischer Abstammung).

Um unseren Ansatz an komplexeren Mischungen weiter zu testen, führten wir scRNA-seq an Blutmischungen von mehr als zwei Personen durch. Zuerst erzeugten wir eine ausgewogene 3-Personen-Blutmischung aus drei Individuen derselben kontinentalen Abstammung, die alle Europäer waren, und führten eine scRNA-Seq für diese Mischung mit anschließender De-Gulasch-Datenanalyse durch (Datensatz M3, Zusatzdaten 1). Während bei der Mischungsentfaltung der erste Iterationsschritt keine klare Clusterbildung lieferte, wurden nach der zweiten Iteration (Abb. 2b) drei unterschiedliche Cluster erhalten, basierend auf der überwiegenden Mehrheit (96, 5%) der übereinstimmenden Zellen (Ergänzungstabelle 1). mit der 3-Personen-Mischung. Die genetische Charakterisierungsanalyse der drei getrennten Zellcluster lieferte hochzuverlässige Informationen über das Geschlecht, die Mitochondrien- und Y-DNA-Haplogruppen (Ergänzungsdaten 4) mit abgeleiteter mütterlicher und väterlicher Abstammung und biparentaler Abstammung basierend auf genomweiten SNPs (Ergänzungsabbildung 4, Ergänzende Daten 5), die vollständig mit dem a priori Wissen über das Vorhandensein von zwei europäischen Frauen und einem europäischen Mann in dieser 3-Personen-Blutmischung übereinstimmten.

Zweitens stellten wir eine ausgewogene Blutmischung für 4 Personen unter Verwendung der oben genannten drei Europäer und eines afrikanischen Mannes her und führten eine scRNA-seq- und De-Gulasch-Datenanalyse durch (Datensatz M4, Zusatzdaten 1). Wie bei der 3-Personen-Mischung lieferte die erste Iteration der Mischungsentfaltung keine klare Trennung (Ergänzungstabelle 1, Abb. 2c), während die zweite Iteration vier verschiedene Cluster zeigte, bei denen fast alle (98 %) Zellen verwendet wurden (Abb . 2c) im Einvernehmen mit der 4er-Mischung. Die genetische Charakterisierungsanalyse zeigte das Geschlecht, die Haplogruppen sowie die biogeografische Abstammung väterlicherseits, mütterlicherseits und bi-parental, wie aus dem a priori-Wissen der Individuen in dieser 4-Personen-Blutmischung zu erwarten war (Abb. 2d – m, ergänzende Abb. 1–4, Ergänzende Daten 2–5).

Drittens haben wir in silico ausgewogene Mischungen mit 5–9 Individuen pro Mischung generiert (Datensätze M5–M9). Die 5-Personen-in-silico-Mischung wurde durch die Kombination der Datensätze M2 und M4 erstellt (eine Person nahm an beiden Experimenten teil und war daher sowohl im M2- als auch im M4-Datensatz vorhanden). Verschiedene in silico-Mischungen mit 6–9 Individuen wurden durch Kombination von vier öffentlich verfügbaren einzelnen scRNA-seq-Datensätzen mit dem M4-Datensatz erstellt (Ergänzungstabelle 2). Mit De-Gulasch haben wir für alle diese In-Silico-Mischungen die entsprechende Anzahl von Zellclustern erhalten, die der Anzahl der Individuen in den Mischungen entsprachen (Abb. 3a – e, ergänzende Abb. 5), einschließlich der komplexesten 9- Personenmischung (Abb. 3e, ergänzende Abb. 5e). Die getrennten Zellcluster enthüllten auch die korrekten Informationen zu Geschlecht, mtDNA und Y-Haplogruppen und der daraus resultierenden mütterlichen und väterlichen Abstammung (Ergänzungsdaten 2–4 und Ergänzungstabelle 3), wie wir durch separate Analyse der einzelnen Datensätze ableiteten. Diese Ergebnisse deuten darauf hin, dass mit neun Individuen, die die komplexeste Mischung darstellen, die wir getestet haben, die Grenzen unseres Ansatzes zur Mischungsentfaltung noch nicht erreicht wurden, und es wird erwartet, dass ausgewogene Mischungen von mehr als neun Individuen mit unserem Ansatz erfolgreich entfaltet werden können. Während die mütterliche und väterliche Abstammung für alle Mitwirkenden in diesen Mischungen korrekt abgeleitet wurde, scheint die Schlussfolgerung der biparentalen Abstammung bei Personen mit komplexerer Abstammung (Datensätze A1 und A2 in den In-silico-Mischungen M6–M9, Ergänzungstabelle 4) in den hochkomplexen Mischungen weniger zuverlässig zu sein (Ergänzende Abbildung 4, Ergänzende Daten 5), die weitere Untersuchungen erfordern.

a Mischung aus fünf Individuen, b Mischung aus sechs Individuen, c Mischung aus sieben Individuen, d Mischung aus acht Individuen und e Mischung aus neun Individuen. Farbcodes kennzeichnen die verschiedenen Individuen aus den jeweiligen Mischungen. De-Gulasch verwendet einen zweistufigen Ansatz, wobei die erste Iteration auf mtDNA-SNPs und die zweite Iteration auf genomweiten SNPs basiert.

Als nächstes untersuchten wir, ob eine individuelle genetische Identifizierung der getrennten Mitwirkenden auf der Grundlage der erfolgreich entfalteten scRNA-seq-Daten aus den Mischungen möglich ist. Zu diesem Zweck haben wir zusätzlich WES-Daten (Whole Exome Sequencing) aus Wangenabstrich-Referenzproben aller Personen generiert, die zu den oben genannten Blutmischungen beigetragen haben. Diese Daten dienten als Studienreferenzdatenbank für die individuelle Identifizierung auf der Grundlage eines Vergleichsabgleichs (Ergänzungstabelle 5). Autosomale SNPs wurden aus den scRNA-seq-Daten jedes der entfalteten Zellcluster in allen Mischungen extrahiert, indem zwei allgemeine Kriterien für die Identitäts-SNP-Auswahl berücksichtigt wurden: (i) minimaler Unterschied in den Nebenallelfrequenzen zwischen den Hauptpopulationsgruppen unter Verwendung der 1000 Genomes Project-Daten mit einer Häufigkeit von nicht mehr als 0,3 und (ii) der physische Abstand zwischen den SNPs muss größer als 500 kb sein, um die durch Verknüpfungsungleichgewichte verursachten Auswirkungen abzuschwächen. Die individuelle genetische Identifizierung wurde durchgeführt, indem die Identitäts-SNPs, die von jedem der getrennten Zellcluster in jedem der Gemische erhalten wurden, mit der WES-Referenzdatenbank abgeglichen wurden. Für jeden getrennten Zellcluster und über Mischungen hinweg lagen die Identitäts-SNPs, die aus den Zellclustern erhalten wurden, die mit der WES-Referenz überlappten und dadurch für den genetischen Abgleich verwendet wurden, zwischen 35 und 162 zwischen Clustern und Mischungen.

Um die Stärke des Nachweises einer genetischen Übereinstimmung für die individuelle genetische Identifizierung zu bestimmen, wurden Likelihood Ratio (LR) und Probability Matching (PM) als statistische Parameter verwendet. LR wird verwendet, um zu bestimmen, ob die übereinstimmende Probe und die Referenzprobe von derselben Person stammen37, während PM die Wahrscheinlichkeit angibt, dass die Übereinstimmung durch eine nicht verwandte Person verursacht wurde. Bei einem genetischen Identifizierungsprozess wird im Allgemeinen ein LR von mehr als 10E + 6 als äußerst starker Beweis für die Hypothese zugunsten einer individuellen Identifizierung angesehen38. Hier haben wir einen konservativeren Schwellenwert von 10E + 9 verwendet, da wir eine neue Technik verwenden. In allen unseren Datensätzen fanden wir eine signifikante Übereinstimmung (über 90 % der SNPs) mit einer der Proben in der Referenzdatenbank der Studie (Abb. 4a – f, ergänzende Abb. 6). Wir führen den Prozentsatz nicht übereinstimmender SNPs auf Fehler in der Sequenzierung oder auf geringfügiges Durchbluten zwischen Clustern zurück (Ergänzungsdaten 6). Bei allen erhaltenen Einzelübereinstimmungen war der LR des passenden SNP-Profils deutlich höher als der verwendete Schwellenwert und reichte von 1,71E + 14 bis 5,00E + 65 über die übereinstimmenden Proben hinweg, was einen robusten Beweis für die erfolgreiche Identifizierung der einzelnen Mitwirkenden an der analysierten Mischung lieferte ( Abb. 4g–l). Bemerkenswert ist, dass selbst bei den komplexesten getesteten Mischungen, die bis zu 9 Individuen umfassten, bei denen die Anzahl der getrennten Zellen deutlich geringer war, die individuelle genetische Identifizierung aller Mischungsmitwirkenden erfolgreich erreicht wurde (Abb. 4l, Zusatzdaten 7). Die anschließende Überprüfung der übereinstimmenden Personen, die in den Mischungen und in der Referenzdatenbank der Studie verwendet wurden, bestätigte in allen Fällen die korrekte Personenidentifizierung.

Anzahl übereinstimmender Identitäts-SNPs mit der Sequenzierungsreferenz für das gesamte Exom (a–f). a Blutmischung von zwei Individuen (Datensatz M2), b Blutmischung von zwei Individuen mit eng verwandten mtDNA-Haplogruppen (Datensatz M2-cl), c Blutmischung von drei Individuen (Datensatz M3), d Blutmischung von vier Individuen (Datensatz M4) , e In-silico-Datenmischung aus fünf Individuen (Datensatz M5), f In-silico-Datenmischung aus neun Individuen, von denen nur fünf Individuen WES-Referenzdaten für die individuelle genetische Identifizierung zur Verfügung hatten (Datensatz M9). Statistische individuelle genetische Identifizierung. als logarithmischer Ausdruck von LR und PM (g–l). Likelihood Ratio (LR) und Probability Matching (PM) wurden als statistische Parameter verwendet, um die Stärke der Evidenz einer genetischen Übereinstimmung für die individuelle genetische Identifizierung zu bestimmen. Die grüne Linie stellt den 10E9 LR-Schwellenwert für die korrekte Identifizierung dar. g Blutmischung von zwei Individuen (Datensatz M2), h Blutmischung von zwei Individuen mit eng verwandten mtDNA-Haplogruppen (Datensatz M2-cl), i Blutmischung von drei Individuen (Datensatz M3), j Blutmischung von vier Individuen (Datensatz M4) , k In-silico-Datenmischung aus fünf Individuen (Datensatz M5), l In-silico-Datenmischung aus neun Individuen, von denen nur fünf Individuen WES-Referenzdaten für die individuelle genetische Identifizierung zur Verfügung hatten (Datensatz M9).

Als nächstes testeten wir unseren Ansatz an anspruchsvolleren unausgeglichenen Mischungen, also Mischungen, zu denen die verschiedenen Individuen unterschiedlich beitrugen. Wir begannen mit unausgeglichenen 2-Personen-Mischungen, für die wir 1000 Zellen aus zwei Datensätzen (A2 und A4) ausgewählt und sie in unterschiedlichen Anteilen von 1:10 bis 1:99 gemischt haben (Ergänzungstabelle 6). Die Zellen der Nebenkomponente wurden aus hochinformativen Zellen ausgewählt, also Zellen, die die höchste Anzahl an Sequenzierungslesungen im jeweiligen Datensatz enthalten. Mithilfe der Zellbarcodes, die bei der Auswahl der Zellen beibehalten wurden, konnten wir den Erfolg des Trennungsprozesses bewerten, indem wir ihn mit dem Originaldatensatz aus der ausgewogenen Mischung verglichen. Für die 1:10, 1:20 und 1:40 unausgeglichenen Silico-Mischungen wurde eine klare Clustertrennung entsprechend den beiden Individuen in den Mischungen beobachtet (Abb. 5a), ohne dass es zu einem „Durchbluten“ zwischen den Clustern kam (Ergänzung). Tabelle 7). Im 1:60-Datensatz beobachteten wir zwei Zellcluster mit einer kleineren Anzahl von fünf Zellen der Nebenkomponente, die fälschlicherweise dem Cluster der Hauptkomponente zugeordnet waren (Ergänzungstabelle 7). Obwohl die Daten im 1:80-Datensatz sichtbar in zwei unterschiedliche Zellcluster getrennt waren, wurden erhebliche falsche Zuordnungen und Durchblutungen zwischen Clustern beobachtet (Ergänzungstabelle 7). Schließlich erreichte die Pipeline mit dem 1:99-Datensatz keine Clustertrennung der Zellen (Abb. 5a). Diese Ergebnisse legen nahe, dass unser Ansatz bei unausgeglichenen 2-Personen-Mischungen in der Lage ist, die beiden einzelnen Mitwirkenden mit Beiträgen von mindestens etwa 1:60 korrekt zu entfalten.

ein UMAP-Clustering, das die Grenzen des Einzelzelltrennungsprozesses in unausgeglichenen 2-Personen-Mischungen mit verschiedenen Mischungsverhältnissen von 1:10 bis 1:99 zeigt. b, c UMAP-Clusterbildung aus Einzelzellmischungsentfaltung unausgeglichener 4-Personen-Mischungen mit einer Nebenkomponente von 3 % der Gesamtzellzahl, b-Mischung mit einer Nebenkomponente (blau), c-Mischung mit drei Nebenkomponenten (schwarz). d Durchschnittliche Anzahl der Identitäts-SNPs, die zur individuellen Identifizierung verwendet werden (z. B. Marker) und Gesamtzahl der verfügbaren SNPs (Gesamtmarker) pro Cluster pro Anzahl von Zellen des entfalteten und abgetasteten Clusters einer Mischung aus vier Individuen (Datensatz M4). e Prozentsatz der Identitäts-SNP-Allele, die zwischen Zellcluster und WES-Referenzdatenbank übereinstimmen, pro Zellcluster pro Anzahl von Zellen (aus entfalteten Clustern des Datensatzes M4). f Durchschnittlicher logarithmischer Ausdruck der Wahrscheinlichkeitsverhältnisse pro Zellcluster pro Anzahl von Zellen (aus entfalteten Clustern des Datensatzes M4). g Durchschnittlicher logarithmischer Ausdruck der Übereinstimmungswahrscheinlichkeit pro Zellcluster pro Anzahl von Zellen (aus entfalteten Clustern des Datensatzes M4). h Durchschnittliche korrekte Zuordnung von Y- und mtDNA-Haplogruppen pro Zellcluster aus entfalteten Clustern des Datensatzes M4 (Balken) mit deutlicher durchschnittlicher Qualität der Vorhersage (als Punkte).

Als nächstes testeten wir unseren Ansatz an komplexeren unausgeglichenen in-silico-Mischungen mit mehr als zwei einzelnen Mitwirkenden, indem wir aus dem oben genannten M4-Datensatz zwei unausgeglichene Zellmischungen von vier Individuen generierten. Diese Mischungen wurden unter Verwendung früherer Clusterzuordnungen des M4-Datensatzes generiert (Abb. 2c). Die erste unausgewogene 4-Personen-Mischung enthielt eine Nebenkomponente, die 3 % der gesamten Zellen in der Mischung ausmachte, und drei Hauptkomponenten, deren gleiche Teile zusammen die restlichen 97 % der Zellen ausmachten. Unser Ansatz erreichte eine erfolgreiche Mischungsentfaltung, indem er eine klare Trennung der vier einzelnen Cluster aufdeckte (Abb. 5b). Im Vergleich zur Clusterzuordnung des ursprünglichen ausgeglichenen Datensatzes beobachteten wir minimale Änderungen in der Zuordnung der Zellen zur Nebenkomponente (3 Zellen) und 49 Zellen wurden zwischen den Hauptkomponentenclustern falsch zugeordnet (Ergänzungstabelle 7).

In der zweiten unausgeglichenen 4-Personen-Mischung haben wir die Zusammensetzung der Neben- und Hauptkomponenten umgekehrt, sodass jede der drei Nebenkomponenten 3 % der Gesamtzahl der Zellen ausmachte, während die eine Hauptkomponente die restlichen 91 % der Zellen darstellte. Auch hier haben wir eine klare Trennung der vier einzelnen Cluster erhalten (Abb. 5c). Auch hier war der Unterschied in den Nebenclustern im Vergleich zu denen im ursprünglichen ausgeglichenen Datensatz minimal (zwei von ihnen enthalten eine zuvor unterschiedlich zugewiesene Zelle), während der beobachtete Durchschlag von den Nebenkomponenten in die Hauptkomponente insgesamt 42 Zellen betrug. Diese Analyse legt nahe, dass in unausgeglichenen Mischungen für 4 Personen zusätzlich zu den Hauptkomponenten auch die Nebenkomponenten, die 3 % der Gesamtzahl der Zellen ausmachen, erfolgreich entfaltet werden können.

Bei der Durchführung genetischer Charakterisierungsanalysen des Datensatzes erhielten wir die korrekten Informationen zu Geschlecht, mtDNA- und Y-Haplogruppen und der daraus resultierenden mütterlichen und väterlichen Abstammung sowohl im Haupt- als auch im Nebencluster (Ergänzungstabelle 8, Ergänzende Abbildungen 7, 8). Die STRUCTURE-Ergebnisse der Minor-Component-Cluster führten zwar in Bezug auf die bi-parentale Abstammung nicht zu eindeutigen Beweisen, was wahrscheinlich auf die begrenzte Anzahl autosomaler SNPs zurückzuführen ist, die für diese Analyse verfügbar sind (Ergänzungstabelle 8, Ergänzende Abbildungen 7, 8).

Abschließend untersuchten wir die Empfindlichkeit unseres Ansatzes für die individuelle genetische Identifizierung, indem wir den zuvor getrennten M4-Datensatz mit vier Mitwirkenden verwendeten (Abb. 2c) und Datenpunkte mit unterschiedlicher Anzahl von Zellen im Bereich von 10 bis 500 erstellten. Für jeden Zellcluster haben wir zufällig ausgewählte Mobilfunk-Barcodes, um eine unterschiedliche Anzahl von Zellen in einem Datensatz zu simulieren. Jede Probenahme wurde zehnmal wiederholt, um Selektionsverzerrungen zu korrigieren, und die Ergebnisse der Analysepipeline wurden gemittelt und grafisch dargestellt, um die durchschnittliche Anzahl von Zellen zu bestimmen, die für eine erfolgreiche Bestimmung jedes Parameters erforderlich ist. Der genetische Abgleich mit der Studienreferenzdatenbank zur individuellen Identifizierung erreicht in den meisten Fällen bereits bei 10 Zellen den 90 %-Übereinstimmungs-SNP-Schwellenwert. Die individuelle genetische Identifizierung war bei geringer Zellzahl instabiler, stabilisierte sich jedoch, wenn mehr als 50 Zellen einbezogen wurden (Abb. 5d, e, Ergänzungstabelle 9). Der Prozentsatz übereinstimmender SNPs blieb jedoch für alle von uns gesammelten Datenpunkte, die aus mehr als 20 Zellen bestanden, über 90 % (Abb. 5d, e, Ergänzungstabelle 9). Für LRs beobachteten wir einen insgesamt linearen Trend, insbesondere über 30 Zellen hinaus (Abb. 5f, g, Zusatzdaten 8). Ein ähnlicher Trend kann bei der Bestimmung von Haplogruppen beobachtet werden (Zusatzdaten 9 und 10). Alle Cluster überschritten mit 100–200 Zellen den konservativen LR-Schwellenwert (10E + 9). Diese Analysen legen nahe, dass unser Ansatz bei der hier verwendeten Sequenzierungstiefe und -abdeckung in der Lage ist, eine individuelle genetische Identifizierung für getrennte unausgeglichene Mehrpersonenmischungen mit mehr als 150 Zellen pro einzelnem Mitwirkenden zu liefern. Es wird erwartet, dass diese Mindestzahl an Zellen mit zunehmender scRNA-seq-Lesetiefe weiter abnimmt, was zu einem Anstieg der Gesamtzahl nachweisbarer SNPs und damit zu einem Anstieg der Zahl der für den Abgleich verfügbaren Identitäts-SNPs führen wird.

In den letzten Jahren wurden einige Datenanalyse-Pipelines für die Einzelzellsequenzierung entwickelt, die eine Mischungsentfaltung ermöglichen, wie z. B. ScSplit25, Souporcell26 und Vireo27. Im Gegensatz zu unserer De-Gulasch-Pipeline umfasst jedoch keiner von ihnen Schritte zur genetischen Charakterisierung und individuellen genetischen Identifizierung, die neben der Mischungsentfaltung für zukünftige forensische Anwendungen von entscheidender Bedeutung sind. Da ein direkter Vergleich dieser bestehenden Pipelines mit unserem integrierten Pipeline-De-Gulasch daher nicht möglich ist, haben wir den Mischungs-Dekonvolutionsteil von De-Gulasch mit den reinen Dekonvolution-Pipelines verglichen. Als wir mit einer Mischung aus zwei Individuen mit einer Zellzahl von 5000 getestet haben, waren alle getesteten Tools (SoupOrCell, Vireo, ScSplit und unser Tool de-goulash) in der Lage, die beiden Individuen zu entfalten; ScSplit konnte jedoch 45, 16% der Zellen von Spender-1 keinem Cluster zuordnen (ergänzende Abbildung 9a, b). De-Gulasch verbrauchte im Vergleich zu SoupOrCell und Vireo am wenigsten RAM (ergänzende Abbildung 10a, b). SoupOrCell und Vireo benötigten im Vergleich zum De-Gulasch kürzere Zeit (ergänzende Abbildung 10a, b). ScSplit benötigte weniger Zeit, aber mehr Ressourcen (Ergänzende Abbildung 10a, b). Als wir die Komplexität der Mischung auf 9 Individuen mit insgesamt 10.000 Zellen erhöhten, schnitt Vireo genauso gut ab wie Degulasch (ergänzende Abbildung 9c, e), während SoupOrCell eine hohe Rate falscher Zellzuordnungen in mehreren Clustern zeigte (ergänzende Abbildung). . 9d) und ScSplit konnten mit ähnlichen Mitteln keine Dekonvolution durchführen. Die benötigten Ressourcen (RAM und Zeit), um eine Mischung aus neun Individuen zu entfalten, folgen einem ähnlichen Trend wie die Menge an Ressourcen, die zum Entfalten einer Mischung aus zwei Individuen benötigt wird (ergänzende Abbildung 10c, d). Wir kommen zu dem Schluss, dass De-Gulasch für die Mischungs-Entfaltungsphase eine genaue Mischungs-Entfaltungs-Pipeline ist, die im Vergleich zu anderen reinen Dekonvolution-Tools weniger Ressourcen erfordert. Durch die optimierte Integration der Teile der genetischen Charakterisierung und der individuellen genetischen Identifizierung sowie des Teils der Gewebeidentifizierung, der allen anderen Softwaretools fehlt, bietet De-Gulasch einzigartige Möglichkeiten für zukünftige forensische Anwendungen, bei denen die Entfaltung der Mischung den ersten Schritt darstellt, auf den gefolgt wird genetische Charakterisierung in Fällen mit unbekannten Verdächtigen und individuelle genetische Identifizierung in Fällen mit bekannten Verdächtigen und wenn auch die Kenntnis des Gewebetyps der Mischung von großer Bedeutung ist.

Die Trennung der Personen, die zu biologischen Mischungen beigetragen haben, und ihre anschließende genetische Charakterisierung und/oder individuelle Identifizierung sind in vielen Bereichen, insbesondere bei forensischen Untersuchungen, von entscheidender Bedeutung. Um die seit langem bestehende Herausforderung der Dekonvolution von Gemischen zu lösen, stellten wir die Hypothese auf, dass, sofern eine geeignete Methode verfügbar ist, die in Einzelzell-Transkriptomdaten vorhandenen genetischen Informationen es ermöglichen würden, (i) die Individuen zu trennen, die zu den biologischen Gemischen beigetragen haben, (ii) die getrennten Mitwirkenden charakterisieren, beispielsweise hinsichtlich Geschlecht und Abstammung, (iii) die getrennten Mitwirkenden einzeln identifizieren und (iv) das Ursprungsgewebe der Zellen in der Mischung bestimmen. Wir haben unsere Hypothese getestet, indem wir einen neuen Ansatz entwickelt haben, der auf Einzelzellsequenzierung und einer speziellen Bioinformatik-Pipeline basiert, und ihn in verschiedenen scRNA-seq-Datensätzen getestet, die aus de novo generierten und in silico-Mehrpersonenmischungen gewonnen wurden, einfachen und komplexen sowie ausgewogenen unausgeglichene. Unsere Proof-of-Principle-Studie zeigt die Machbarkeit der genetischen Trennung von Individuen, die zu Mehrpersonen-Blutmischungen unterschiedlicher Komplexität beigetragen haben (einfache und komplexe, ausgewogene und unausgewogene Mischungen), und der genetischen Charakterisierung und individuellen Identifizierung der getrennten Mitwirkenden an der Mischung.

Während die meisten früheren Versuche zur Mischungsentfaltung, insbesondere in der Forensik, darauf abzielten, die Mitwirkenden anhand gemischter DNA-Profile zu trennen, haben wir mit unserem neuen Ansatz die einzelnen Mitwirkenden vor der genetischen Charakterisierung und den genetischen Individualisierungsanalysen getrennt. Nachfolgende genetische Analysen wurden somit als Single-Source-Analysen durchgeführt, wodurch die Herausforderungen der Charakterisierung und Identifizierung von Personen anhand gemischter DNA-Profile umgangen wurden. Wir zeigen, dass unser Ansatz in der Lage ist, einzelne Mitwirkende in biologischen Gemischen mit bis zu neun Individuen genau zu trennen. Bei dieser maximalen Anzahl von neun Individuen in einer Mischung, die wir hier getestet haben, sahen wir jedoch keine Einschränkungen bei der Dekonvolution der Mischung. Dies legt nahe, dass unser Ansatz das Potenzial hat, Mischungen von mehr als neun Individuen erfolgreich zu entfalten, abhängig von der erhaltenen Anzahl von SNPs pro einzelnem Zellcluster, was zukünftige experimentelle Tests rechtfertigt. Wie wir gezeigt haben, wird das Design unseres Dekonvolutionsansatzes, bei dem mtDNA-SNPs als erster Schritt berücksichtigt werden, nicht durch den Grad der Mitogenomähnlichkeit behindert, da Mischungen von Individuen mit eng und entfernt verwandten mtDNA-Haplogruppen gleichermaßen gut getrennt wurden. Wie ebenfalls gezeigt, kann unser Ansatz Individuen aus ausgewogenen und unausgeglichenen Mischungen mindestens bis zu einem Verhältnis von 1:60 und aus mindestens 150 Zellen trennen. Eine Einzelzellsequenzanalyse mit höheren Tiefen als hier durchgeführt wird jedoch die Anzahl der verfügbaren SNPs erhöhen und dadurch eine erfolgreiche Entfaltung und nachgelagerte genetische Charakterisierungs- und Identifizierungsanalysen aus weniger Zellen ermöglichen, was einer zukünftigen empirischen Bestätigung bedarf.

Dass unser Ansatz mit stark unausgewogenen Mischungen erfolgreich umgehen kann, ist besonders im forensischen Kontext interessant, wo unausgewogene Mischungen häufiger an Tatorten zu finden sind als ausgewogene. Unser Ansatz eröffnet neue Möglichkeiten für zukünftige Anwendungen, etwa in der Forensik, entweder direkt oder mit weiteren Modifikationen und Weiterentwicklungen. In seiner jetzigen Form hat unser Ansatz das Potenzial, in Fällen von Gewaltverbrechen angewendet zu werden, in denen Blutgemische mehrerer Personen zur Analyse zur Verfügung stehen, und zwar in beiden Fällen: ob ein Verdächtiger den Ermittlungsbehörden bereits bekannt ist oder unbekannt bleibt. In Fällen mit unbekannten Verdächtigen ist die genetische Charakterisierung eines Probenspenders mittels forensischer DNA-Phänotypisierung des Geschlechts und der biogeografischen Abstammung – wie hier untersucht –, aber auch von Aussehensmerkmalen, von entscheidender Bedeutung, da dies das Auffinden des unbekannten Verdächtigen durch gezielte polizeiliche Ermittlungen ermöglichen kann. Um dies zu erreichen, müssen die betrachteten SNPs in Populationsreferenzdaten zur Abstammungsinduktion und in statistische Modelle zur Vorhersage des Aussehens einbezogen werden. Aufgrund der großen Anzahl autosomaler SNPs mit redundanten Informationen zur kontinentalen Abstammung und der Redundanz in mtDNA- und Y-DNA-SNPs zur Charakterisierung von mtDNA- und Y-Haplogruppen zur Ableitung mütterlicher und väterlicher Abstammung geht es lediglich darum, genügend SNPs aus den entfalteten zu erhalten Zellen, und zwar nicht unbedingt bestimmte, und nicht unbedingt die gleichen SNPs über verschiedene einzelne Zellcluster innerhalb und zwischen Mischungen. Aus diesem Grund und aufgrund der ausreichenden Anzahl an mtDNA, Y-DNA und autosomalen SNPs, die wir aus den getrennten Zellclustern erhalten haben, ermöglicht unser Ansatz eine erfolgreiche Rückschlüsse auf die mütterliche, väterliche und bi-elterliche Abstammung der getrennten Mischungsmitwirkenden. Dies wird jedoch voraussichtlich eine größere Herausforderung darstellen, wenn es darum geht, die genetische Charakterisierung zusätzlich um die Vorhersage des Aussehens zu erweitern, die auf spezifischen SNPs basiert, die in den statistischen Vorhersagemodellen verwendet werden. Für diese Erweiterung der genetischen Charakterisierung im Rahmen der forensischen DNA-Phänotypisierung wäre es von Vorteil, von der Transkriptom- zur Genomsequenzierung der biologischen Gemische überzugehen, was mehr SNPs und damit möglicherweise auch spezifische SNPs liefern würde, die in Modellen zur Vorhersage des Aussehens verwendet werden.

In Fällen mit bekannten Verdächtigen ist das entscheidende forensische Ergebnis die individuelle genetische Identifizierung des Probenspenders mittels vergleichender forensischer DNA-Profilierung. Um dies zu erreichen, werden Personen, wie beispielsweise diejenigen, die zu einer biologischen Mischung beigetragen haben und hier über den Dekonvolution-Ansatz getrennt wurden, mit einem Referenzdatensatz abgeglichen, der aus einer Referenz-DNA-Probe des bekannten Fallverdächtigen oder von zuvor verurteilten Straftätern stammt, die in einer Forensik gespeichert sind DNA-Datenbank. Wir haben gezeigt, dass unser Ansatz eine individuelle genetische Identifizierung von getrennten Mischungsmitwirkenden aus ausgewogenen und unausgeglichenen Mehrpersonenmischungen mit dem höchsten statistischen Standard ermöglicht, was möglich war, weil jeweils ausreichend Identitäts-SNPs aus den getrennten einzelnen Zellclustern erhalten wurden. Da jedoch Identitäts-SNPs von jedem einzelnen Zellcluster erfasst werden, arbeitet unser Ansatz nicht mit universellen Identitäts-SNPs, also denselben Identitäts-SNPs für alle Individuen. Was die Abstammungs-SNPs betrifft, gibt es auch bei den Identitäts-SNPs eine Redundanz, allerdings basierend auf den entgegengesetzten genetischen Merkmalen der Population, die für die SNP-Auswahl verwendet werden. Daher ist es für die individuelle genetische Identifizierung auch wichtig, genügend Identitäts-SNPs zu erhalten und nicht unbedingt spezifische. Da keine universellen Identitäts-SNPs verwendet werden, besteht die Anforderung an den Referenzdatensatz darin, möglichst viele SNPs und damit möglichst viele Identitäts-SNPs zu enthalten. Auf diese Weise besteht eine gute Chance, dass der Satz von Identitäts-SNPs, der aus einem Zellcluster nach erfolgreicher Mischungsentfaltung erhalten wird, größtenteils im verwendeten Referenzdatensatz verfügbar ist und somit für den Abgleich verfügbar ist. In der vorliegenden Studie haben wir dieses Komplexitätsproblem gelöst, indem wir WES-Daten als Referenzdatensatz verwendet haben, da eine Überlappung zwischen den in den WES-Daten vorhandenen SNPs und denen aus der an den Mischungen durchgeführten Transkriptomsequenzierung zu erwarten war. Bei den Referenzproben könnte auch die Sequenzierung des gesamten Transkriptoms angewendet werden, was die Anzahl der für den genetischen Abgleich verfügbaren Identitäts-SNPs erhöhen würde. Dies wäre besonders interessant für Mischungen, bei denen eine kleine Anzahl trennbarer Zellen pro Nebenzelle oder alle Mitwirkenden beteiligt sind. Darüber hinaus könnte unser Ansatz zur Entfaltung von Einzelzellmischungen in Zukunft auf die Genomsequenzierung sowohl für die Mischungen als auch für die Referenzproben übertragen werden, was voraussichtlich die Anzahl der für die individuelle genetische Identifizierung verfügbaren SNPs (zusätzlich zur genetischen Charakterisierung) weiter erhöhen wird. .

Wir stellen uns vor, dass unser Ansatz auch auf die investigative genetische Genealogie (IGG) oder die forensische genetische Genealogie (FGG) angewendet werden könnte, wobei dichte SNP-Datensätze verwendet werden, um Verwandte des Spenders einer Tatortprobe über öffentliche genetische Datenbanken zu finden39. Durch die erfolgreiche Identifizierung mehrerer vermisster Personen und Täter hat der Ansatz in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen. Tatsächlich könnte unser Ansatz einzelne Profile in einer Mischung erkennen, um Einzelprofil-SNP-Datensätze zu erstellen, obwohl diese in der aktuellen Studie zu spärlich sind, um in einer IGG-Umgebung verwendet zu werden. Durch genetische Imputation könnten die Daten weiter so erweitert werden, dass sie für spätere Genealogie-Suchen in öffentliche Datenbanken hochgeladen werden können40.

In einer forensischen Fallbearbeitungsanwendung wäre es für einen bestimmten Verdächtigen, der der Polizei in einem bestimmten Fall bekannt ist, möglich, Transkriptom-, Exom- oder Genomsequenzierungsdaten aus der Referenzprobe des Verdächtigen zu generieren, die als Voraussetzung für die Lösung eines Vermischungsfalls mit unserem Ansatz dienen. Leider sind der Polizei in vielen Fällen keine Verdächtigen bekannt und daher stehen keine Referenzproben für die D/RNA-Sequenzanalyse zur Verfügung, wobei unser Ansatz mit seinem genetischen Charakterisierungsteil dabei helfen kann, den unbekannten Verdächtigen zu finden und ihn/sie der standardmäßigen forensischen STR zu übergeben Profilierung. Derzeit erscheint es jedoch unrealistisch, dass nationale forensische DNA-Datenbanken in naher Zukunft Transkriptom- oder Genomsequenzierungsdaten zur Lösung von Fällen mit unbekannten Verdächtigen enthalten werden. Möglicherweise wird sich dies mit weiteren Entwicklungen in der D/RNA-Sequenzierungstechnologie ändern, sofern die Sequenzierungskosten sinken.

Ein Nachteil, insbesondere im Hinblick auf zukünftige forensische Anwendungen, besteht darin, dass die hier verwendete 10X-Genomik-scRNA-seq-Plattform für eine erfolgreiche genetische Trennung lebende Zellen erfordert, was die Anwendung folglich auf biologische Gemische mit lebenden Zellen beschränkt. Für eine breitere forensische Anwendung sollten in Zukunft alternative Einzelzellenplattformen getestet und entwickelt werden, die keine lebenden Zellen erfordern oder mit festen Zellen arbeiten können. Darüber hinaus ist bei Mischungen mit einer sehr geringen Anzahl von Zellen aller oder kleinerer Mitwirkender eine tiefere Sequenzierung mit höherer Abdeckung des Transkriptoms oder Genoms erforderlich, um die Gesamtzahl der SNPs zu erhöhen, sodass genügend SNPs für eine erfolgreiche genetische Trennung vorhanden sind Charakterisierung und individuelle genetische Identifizierung der Mischungspartner liegen vor, die ebenfalls empirisch überprüft werden sollten.

Zusammenfassend lässt sich sagen, dass wir in dieser Studie einen neuartigen Ansatz zur genetischen Trennung, Charakterisierung und individuellen Identifizierung von Mitwirkenden an biologischen Mischungen entwickelt haben. Unser Ansatz basiert auf der Einzelzellsequenzierung der biologischen Gemische zur genetischen Trennung der Zellen nach jedem der einzelnen Mitwirkenden, sodass die anschließende genetische Charakterisierung und individuelle genetische Identifizierung der getrennten Gemischmitwirkenden zu einer Analyse aus einer einzigen Quelle wurde. In dieser Proof-of-Principle-Studie demonstrieren wir die Machbarkeit unseres Ansatzes für einfache und komplexe sowie ausgewogene und unausgewogene Mischungen. Zukünftige Arbeiten müssen die Übertragbarkeit auf andere Arten biologischer Gemische als die hier verwendeten Blutgemische zeigen. Insbesondere funktioniert unsere Bioinformatik-Pipeline De-Gulasch mit jeder Art von Sequenzdatensatz, aus dem SNPs extrahiert werden können, und ermöglicht so den Übergang von der Transkriptom- zur Genomsequenzierung in der Zukunft. Es wird erwartet, dass eine solche Weiterentwicklung die Anzahl extrahierbarer SNPs erhöht, was der Entfaltung von Mischungen mit (geringfügigen) Mitwirkenden einer geringen Zellzahl sowie der genetischen Charakterisierung und der individuellen genetischen Identifizierung der getrennten Mischungsmitwirkenden zugute kommt und möglicherweise auch eine Erweiterung der genetischen Charakterisierung ermöglicht Analysen zur Vorhersage des Aussehens. Weitere Arbeiten könnten schließlich die Anwendung unseres Ansatzes auf biologische Mischungen ermöglichen, die an Tatorten und in der biomedizinischen Forschung gefunden werden, wo eine Entfaltung der Mischung erforderlich ist, beispielsweise zur Identifizierung von Kontaminationen in Kulturen von Zellen, Gewebe und Organoiden.

Von jedem Spender wurde Blut mithilfe eines Venenpunktionsverfahrens durch einen ausgebildeten Phlebotomiker in einem 10-ml-EDTA-Antikoagulansröhrchen gesammelt. PBMC wurden durch einen Dichtegradienten unter Verwendung des LymphoprepTM-Protokolls (Stemcell Technologies, Nr. 07851) isoliert. Kurz gesagt, zuerst wurde das Blut in 15-ml-Röhrchen überführt und zentrifugiert. Anschließend wurde das Plasma entfernt und die Probe in 1 Volumen PBS mit 2 % FBS resuspendiert. Anschließend wurden die Proben auf LymphoprepTM geschichtet und zentrifugiert. Die PBMC-Schicht wurde in PBS mit 2 % FBS überführt, zweimal gewaschen und durch ein 40-µL-Zellsieb filtriert. Die Lebensfähigkeit der Zellen wurde mit dem Countess II-Zellzähler beurteilt. Eine ausgewogene Mischung der Spender wurde durch Mischen der gleichen Anzahl von Zellen von jedem Individuum hergestellt, und die resultierende Zellsuspension wurde wie im 10-fachen Leitfaden zur Einzelzellvorbereitung von Genomics empfohlen verdünnt.

Einzelzell-RNA-Sequenzierungsbibliotheken wurden unter Befolgung der 10X Chromium-Einzelzellbibliothek-Vorbereitungsprotokolle erstellt. Die Mischung der scRNA-seq-Bibliothek aus M2 und M2-cl wurde gemäß dem 10X Chromium Single-cell 3' Reagent Kits v3-Protokoll hergestellt. Die Mischungen M3 und M4 wurden mit den 10X Chromium Next GEM Single-cell 3' Reagent Kits v3.1 (Dual-Index) hergestellt. Die Bibliotheken wurden auf einem Illumina Novaseq6000 sequenziert. Die Sequenzierungstiefe, Lesevorgänge pro Zelle und die Anzahl der sequenzierten Zellen pro Experiment sind in den Zusatzdaten 1 verfügbar.

Die Sequenzierungsablesungen wurden mit dem STAR-Aligner, der Teil der Cell Ranger 3.0.2-Software (10X Genomics) ist, auf das menschliche Genom (GRCh38) ausgerichtet. Im Durchschnitt erreichten wir eine Alignment-Rate von 91,63 % mit dem GRCh38-Genom (Alignment-Informationen finden Sie in den Zusatzdaten 1). Gültige Zellen wurden basierend auf der gesamten UMI-Zählung pro Barcode aufgerufen. Für die Gruppierung und t-SNE-Clusterierung wurde eine Expressionsmatrix basierend auf Barcode, UMI, Genannotation und Genexpression verwendet. Der Differentialausdruck wurde anhand der Differenz zwischen dem mittleren Ausdruck zwischen Clustern und dem interessierenden Cluster berechnet.

Um den zweistufigen Entfaltungsprozess zu starten, wurden die ausgerichteten scRNA-seq-Daten (BAM-Datei) nach zwei Kriterien gefiltert, wobei subset-bam v1.1.041 (i) Lesevorgänge aus zellulären Barcodes enthielt und (ii) die BAM-Datei nur mtDNA enthielt liest (nur für die erste Iteration erforderlich). Die resultierende BAM-Datei wurde mit samtools v.1.942 nach TAG indiziert und sortiert und mit einem maßgeschneiderten Pysam v0.15.443-Skript basierend auf den Mobilfunk-Barcodes in einzelne Zell-BAM-Dateien aufgeteilt. Varianten wurden (für die gesamte Datensatz-BAM-Datei) mit parallelem FreeBayes v1.3.144 unter Verwendung der Parsing-Argumente „-iXu -C 2 -q 1“ aufgerufen. Die resultierende VCF-Datei (die die SNPs enthält) wurde weiter durch den bcftools-Filter QUAL < 80 DP < 100 (QUAL, Qualität; DP-Tiefe) gefiltert. In jeder einzelnen Zelle wurde die Anzahl der Lesevorgänge, die jeden SNP unterstützen, mithilfe von samtools mpileup gezählt. Indels wurden ausgeschlossen und die Häufigkeitstabelle jeder Base wurde für jeden SNP berechnet. Als interessierende Varianten wurden SNPs mit zwei oder mehr Basen pro Position angesehen. Die nächsten Varianten wurden basierend auf der Häufigkeit zwischen Zellen weiter gefiltert. Damit eine Variante berücksichtigt werden kann, muss sie in mindestens 1 % der Zellen vorhanden sein.

Um Zellen zu filtern, wurden die in den vorherigen Schritten erhaltenen Varianten angewendet, um die Anzahl der SNP-Lesevorgänge pro Zelle zu zählen (Basisanrufqualität ≥90 und Leseabdeckung der Variante pro Zelle ≥2). Die Zellen wurden dann gefiltert, um mindestens 20 SNPs zu enthalten (10 für unausgeglichene Mischungsdatensätze oder wenn die Datenqualität niedrig war). Die resultierende Zellmatrix wurde verwendet, um die fehlenden Daten mit Dineof28 zu imputieren. Die neu berechnete Matrix wurde zur Dimensionsreduzierung und Darstellung unter Verwendung von UMAP29 mit den Parametern n_neighbors = 300, min_dist = 0, n_components = 3 verwendet (n_neighbors wurde für unausgeglichene Datensätze mit reduzierter Anzahl von Zellen auf 50 gesenkt). Wenn die Anzahl der Individuen (Anzahl der Cluster) in der Mischung nicht bekannt ist, wurde die Anzahl der Cluster bei Bedarf mit NbClust30 bestimmt. Die Rostmatrix wurde für die Clusterbildung und Darstellung der k-Mittelwerte verwendet. Durch die Anwendung dieser Schritte wurde die erste Iteration abgeschlossen, indem eine Clusterzuordnung von Zellen basierend auf mtDNA erstellt wurde.

Um die SNPs aus mtDNA zu erweitern und die Zellzahl sowie die Effektivität des Clusterings zu erhöhen, haben wir zunächst die Zell-BAM-Dateien basierend auf dem mtDNA-Clustering zusammengeführt. Nach der Zusammenführung wurden Varianten mit parallelem FreeBayes v1.3.144 mit den Argumenten „-iXu -C 2 -q 1“ aufgerufen. Die Cluster-Variantenlisten wurden mit Picard Tools Version 2.25.6 MergeVcfs zusammengeführt. Die resultierende VCF wurde mit dem bcftools-Filter (QUAL < 80 DP < 100) gefiltert und nicht eindeutige Varianten wurden mit bcftools norm45 verworfen. Die erstellte Liste wurde verwendet, um Zählungen pro Variante und Zelle zu erstellen und eine zweite Iteration zum Aufrufen von SNPs und Clusterzellen zu starten (Abb. 1a). Die am Ende der 2. Iteration generierte BAM-Datei und die SNPs pro Cluster wurden für die endgültige Analyse (biogeografische Abstammung, Geschlecht und individuelle Identifizierung) verwendet.

Die Sequenzierung des gesamten Exoms (WES) wurde an DNA durchgeführt, die aus Wangenabstrichen extrahiert wurde. Jede Person wurde gebeten, ihre Wangen auf jeder Seite 15 Sekunden lang mit einem Tupfer abzureiben, ohne ihre Zähne zu berühren. Anschließend wurde die DNA durch Zugabe von 800 µl Wasser, 30 µl Proteinase K (10 mg/ml) und 90 µl 10 % SDS extrahiert und 3 Stunden lang bei 55 °C inkubiert. Anschließend wurden 300 µl 5 M NaCl zugegeben und die Proben 10 Minuten bei RT inkubiert. Nach der Zentrifugation wurde der Überstand mit 1 Volumen Isopropanol vermischt und erneut zentrifugiert. Anschließend wurde das Pellet zweimal mit 70 %igem Ethanol gewaschen und getrocknet. Das resultierende Pellet wurde dann in 50 µL MilliQ-Wasser gelöst und mit Pico Green gemessen. Die Proben wurden dann verdünnt, um 500 ng DNA in 30 µL zu enthalten. Die Qualität der DNA (Integrität) wurde auf 0,1 % Gel überprüft.

Die Bibliothek wurde unter Verwendung eines Hyperprep-Kits (Roche) mit enzymatischer Fragmentierung und Dual-Index-Adapter-Ligation hergestellt. Die Exomerfassung wurde mit den SeqCap EZ MedExome-Sonden (Roche) durchgeführt. Die Proben wurden dann auf einem Novaseq6000 sequenziert. Die Daten wurden demultiplext und hochwertige Messwerte wurden mit dem Burrow-Wheeler-Alignment-Tool (BWA-Version 0.7.3a) an der menschlichen Genomreferenz hg19 ausgerichtet. Der Basisqualitätsscore wurde mit dem Genome Analysis ToolKit (GATK Version 3.7)46 neu kalibriert und die Indels neu ausgerichtet. Duplikate wurden mit Picard (Picard Tools Version 1.90) markiert. Der Variantenaufruf wurde mit HaplotypeCaller (GATK v3.8) durchgeführt. Anschließend wurden die Proben für den kombinierten Aufruf mit GATKs GenotypeVCFs und dem VariantQualityScoreRekalibrierungs-Workflow gepoolt. Proben-QC-Metriken wurden mithilfe der GATK-Module DepthOfCoverage und VariantEvaluation ermittelt. Der Hintergrundgeräuschpegel wurde geschätzt und korrigiert, indem das Tool „VerifyBAMid“ und die Option „Kontaminationsanteil“ im HaplotypeCaller von GATK verwendet wurden.

Die mütterliche (mtDNA) Abstammung wurde durch Anwendung von Haplogrep2.1.20 auf die VCF-Datei jedes Clusters nach der VCF-Datei mithilfe des bcftools-Filters (QUAL < 80 DP < 20) erfasst. Die Ergebnisse der Analyse wurden mit einer mtDNA-Datenbank EMPOP47 (für die geografische Dichte der mtDNA-Haplogruppe) und PhyloTree48 (für den phylogenetischen Baum von mtDNA-Variationen) verglichen. Die Y-Chromosomen-Abstammung wurde mithilfe von Y-leaf33 bestimmt, das die Cluster-BAM-Datei als Eingabe und die Parameter –b 90 –q 20 –r 2 verwendet, wie im Benutzerhandbuch empfohlen.

Das Vorhandensein eines Y-Chromosoms wurde durch Zählen der Anzahl der Lesevorgänge, die mit dem Y-Chromosom übereinstimmen, und durch Vergleichen zwischen verschiedenen Clustern bestimmt. Das Expressionsniveau der langen nichtkodierenden RNA, XIST-RNA (vom X-Chromosom), die das inaktive X-Chromosom in weiblichen Zellen bedeckt, wurde verwendet, um das Vorhandensein eines inaktiven X-Chromosoms zu bestimmen. Die Position des XIST-Gens wurde anhand der Ensembl49-Genkoordinaten bestimmt. Die Reads im XIST-Gen und im Y-Chromosom wurden aus der SAM-Datei extrahiert und mit samtools45 gezählt.

Wir haben zunächst den Übereinstimmungsprozentsatz ermittelt, indem wir die Varianten aus jedem Cluster (von scRNA-seq) und der Exomreferenz verglichen haben. Eine Übereinstimmung zwischen einem Referenz-Exom und einem bestimmten Cluster wird aufgerufen, wenn der Übereinstimmungsprozentsatz mehr als 90 % betrug. Für die weitere Verarbeitung wurden nicht übereinstimmende SNPs (SNPs ohne Übereinstimmung zwischen der Exom-Referenz und dem Cluster) und nur SNPs, die zwischen der Exom-Referenz und dem Cluster gemeinsam sind, beibehalten. Varianten wurden basierend auf ihrer Präsenz in der 1000-Genom-Datenbank weiter gefiltert35. Als nächstes haben wir im 1000G-Projekt einen 1000-Genom-Referenzdatensatz unter Verwendung der fünf kontinentalen Populationen (europäisch, afrikanisch, amerikanisch, südasiatisch und ostasiatisch) erstellt. Ein Beschneidungsschritt wurde durchgeführt, um Bindungsungleichgewichtseffekte zu vermeiden, bei denen ein Abstand von mindestens 500 kb zwischen den enthaltenen SNPs erforderlich war. Für jede Probe wurde eine biparentale Abstammungsanalyse mit STRUCTURE (v2.3.4)34 durchgeführt. Kurz gesagt verwendet die Software ein statistisches Modell, um jedes Individuum iterativ Bruchteilen einer Anzahl angenommener Populationen zuzuordnen, bis angenommen wird, dass das Modell konvergiert. Wir führten 10.000 Burn-in-Iterationen und 10.000 nachfolgende Iterationen mit fünf angenommenen Populationen (K = 5) durch, wobei das Beimischungsmodell angewendet wurde.

Die Ergebnisse der biparentalen Abstammungsanalyse wurden verwendet, um die dominante Population in der Stichprobe (Cluster) zu bestimmen, die wiederum zur Extraktion der Allelfrequenz (AF) für unsere SNPs verwendet wurde. Für die Berechnung forensischer Parameter wurden die SNPs weiter beschnitten, um nur genetische Marker einzubeziehen, bei denen die Allelfrequenzen zwischen den Populationen nicht um mehr als 0,3 schwankten. Gleichzeitig haben wir die SNPs mit einem Abstand von 500 kb zwischen den enthaltenen Markern beschnitten, was mögliche Auswirkungen eines Bindungsungleichgewichts abschwächt. Wir haben dann berechnet:

Total Random Match Probability (RMP) unter Verwendung von:

wobei i den i-ten SNP bezeichnet, N die Gesamtzahl der SNPs und Pr(Gi) den Wert AFi2 für homozygote Genotypen, Gi und 2AFi(1-AFi) für heterozygote Genotypen annimmt und wobei AFi die Allelfrequenz des SNP ist . Wir haben in unseren Berechnungen das Hardy-Weinberg-Gleichgewicht angenommen, obwohl die Anpassung an das Ungleichgewicht eine kleine Änderung darstellt.

Das Likelihood Ratio (LR) wurde direkt aus dem RMP abgeleitet

Dabei haben wir das Szenario angenommen, dass eine perfekte Übereinstimmung zwischen dem Genotyp der Probe und einer Referenz (in dieser Studie nicht verwendet) besteht, während das Modell leicht erweitert werden kann, um Allel-Dropouts/Dropins und andere Fehler zu berücksichtigen.

Die kombinierte Übereinstimmungswahrscheinlichkeit (CPM), im Text nur als PM bezeichnet, wurde berechnet als

Dabei durchläuft die innere Summierung alle möglichen Genotypen (Gi,g) am Marker i und fasst die Wahrscheinlichkeit zusammen, an jedem Marker zwei identische Genotypen zu beobachten. Der CPM ist das Produkt der Wahrscheinlichkeiten für jeden Marker.

Beachten Sie, dass 1 und 2 sich auf das spezifische DNA-Profil beziehen, während 3 sich auf die durchschnittliche Statistik für die im Cluster verfügbaren und nach dem Beschneiden verbleibenden Marker bezieht.

Vier öffentlich verfügbare scRNA-seq-Datensätze wurden von 10x Genomics erhalten (https://www.10xgenomics.com/resources/datasets). SNPs wurden mit den Parsing-Argumenten „-iXu -C 2 -q 1–throw-away-indels-obs“ von FreeBayes v1.3.144 aufgerufen. Die SNP-vcf-Datei wurde mit dem bcftools-Filter QUAL < 80 DP < 20 gefiltert und für die weitere Analyse verwendet. Die mütterliche, väterliche und biparentale Abstammung wurde wie oben beschrieben bestimmt.

Eine ausgewogene Mischung mit zwischen 5 und 9 Personen wurde durch zufällige Auswahl von Barcodes aus jedem Datensatz (Ergänzungstabelle 2 für alle In-silico-Mischungsinhalte) und Zusammenführen der Lesevorgänge aus den ausgewählten Barcodes jedes Datensatzes generiert. Jeder Datensatz behielt die Mobilfunk-Barcode-Informationen bei, um eine weitere Bewertung zu ermöglichen. Die Anzahl der Zellen in jeder Mischung ist in der Ergänzungstabelle 2 verfügbar. Die Datensätze wurden wie oben beschrieben über die Entfaltungs- und Analysepipeline verarbeitet.

Unausgeglichene Mischungen wurden mithilfe von zwei Datensätzen (A2, A4) erstellt, die aus öffentlich zugänglichen Quellen durch zufällige Auswahl von insgesamt 1000 Zellen gewonnen wurden. Für den Hauptdatensatz (A4) wurden alle verfügbaren Zellen verwendet. Für den Nebendatensatz (A2) wurden 1000 Zellen mit den meisten Lesevorgängen pro Zelle vorab ausgewählt, um eine Verzerrung der Analyse mit Zellen mit geringen Informationen zu vermeiden. Das Verhältnis zwischen Neben- und Hauptkomponente lag zwischen 1:9 und 1:99. Jeder der Datensätze wurde dann nach Lesevorgängen gefiltert, die die ausgewählten Barcodes enthielten. Die Teilmengen des resultierenden Datensatzes wurden zu einer neuen Mischung zusammengeführt. Für die Trennung verwendeten wir eine modifizierte Entfaltungspipeline mit einer geringeren Anzahl von SNPs und UMAP-Nachbarn, um eine geringere Anzahl von Zellen widerzuspiegeln. Dabei wurden aufgrund der geringen Zellzahl die SNP-Filterparameter QUAL < 50 DP < 50 verwendet. Die Daten wurden mithilfe der Analysepipeline mit der beschriebenen Modifikation für begrenzte Datensätze weiter analysiert und die korrekte Zuordnung jeder Zelle zum Cluster ihrer ursprünglichen Quelle analysiert.

Basierend auf der Entfaltungsclusterzuordnung des M4-Datensatzes haben wir zufällig Zellbarcodes aus jedem Cluster ausgewählt. Anschließend haben wir die Lesevorgänge der ausgewählten Barcodes gefiltert, um eine unausgeglichene Teilmenge des Originaldatensatzes zu erstellen. Als nächstes haben wir zwei Datensätze generiert, die jeweils eine proportionale Mischung aus Neben- und Hauptkomponenten enthalten. In der ersten Mischung haben wir eine Nebenkomponente (3 % der Gesamtzellen) und drei Hauptkomponenten (proportional 97 % der Gesamtzellen) ausgewählt. Die zweite Mischung enthielt drei Nebenkomponenten-Cluster (jeweils 3 % der Gesamtzellen) und eine Hauptkomponenten-Cluster (verbleibende 91 % der Gesamtzellen). Die Mischungen wurden mithilfe der Entfaltungs- und Analysepipeline wie zuvor beschrieben verarbeitet.

Für jeden Cluster des M4-Datensatzes haben wir zufällig 10–500 Zellbarcodes ausgewählt (basierend auf vorheriger Entfaltung und Clusterzuordnung von Zellen). Für jeden Punkt (Anzahl der Barcodes) haben wir 10 Mal ausgewählt, um den Batch-Effekt zu korrigieren. Die Lesevorgänge der ausgewählten Barcodes wurden aus dem ursprünglichen M4-Datensatz gefiltert und so ein neuer Teildatensatz erstellt. Jeder Teildatensatz hatte Varianten, die mit FreeBayes v1.3.144 mit den Argumenten „-iXu -C 2 -q 1–throw-away-indels-obs“ aufgerufen wurden. Als nächstes wurde die Analysepipeline für jede Teilmenge durchgeführt (unter Verwendung der aufgerufenen SNP-VCF-Datei und der Teilmengen-BAM-Datei als Eingabe). Die Ergebnisse der Exom-Übereinstimmung und der forensischen Parameter pro Punkt wurden gemittelt. Die Ergebnisse für die Haplogruppenzuordnung wurden mit 1 oder 0 bewertet, wenn die Haplogruppe korrekt bzw. falsch war. Der Wert von 0,5 wurde angegeben, wenn die Haplogruppe laut PhyloTree48 einen Zweig höher war. Die akkumulierten Punkte wurden dann gemittelt.

Insgesamt wurden vier Mischungs-Entfaltungspipelines (ScSplit 1.0.8, Vireo 0.2.3, SoupOrCell 2.0, De-Gulasch) an zwei In-Silico-Mischungen getestet. Die erste Silico-Mischung wurde durch Mischen zweier Einzelspender-Datensätze (Datensätze A3 und A4, siehe Ergänzungstabelle 2) hergestellt, wodurch insgesamt 5000 zelluläre Barcodes (2500 pro Spender) generiert wurden. Die jeweiligen BAM-Dateien wurden mit Samtools 1.9 in Teilmengen unterteilt und zusammengeführt. Die zweite in silico-Mischung, die für den Vergleich der Pipelines verwendet wurde, war eine komplexe Mischung, die durch Mischen de novo generierter Daten und einzelner Spenderdatensätze erzeugt wurde (M9-Mischung, siehe Ergänzungstabelle 2).

Für jede Pipeline haben wir das bereitgestellte Handbuch befolgt und die empfohlenen Parameter angewendet. Die Vorverarbeitung für scSplit erfolgte mit samtools 1.9 für Vireo mit cellSNP 0.3.1. Da für Vireo und SoupOrCell die Anzahl der Individuen in der Mischung bekannt sein muss, haben wir die Anzahl der Individuen angegeben. Für jede Pipeline wurden die verbrauchte Zeit, die Menge der verwendeten Ressourcen und die endgültige Clusterbildung (Entfaltung wurde aufgezeichnet) verglichen.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Die einzelnen Datensätze, die im In-silico-Teil der Studie verwendet wurden, sind über die 10x-Website verfügbar: A1: https://www.10xgenomics.com/resources/datasets/5-k-peripheral-blood-mononuclear-cells-pbm-cs -from-a-healthy-donor-v-3-chemistry-3.0.2 A2: https://www.10xgenomics.com/resources/datasets/peripheral-blood-mononuclear-cells-pbm-cs-from-a- healthy-donor-chromium-connect-channel-1-3.1.0 A3: https://www.10xgenomics.com/resources/datasets/4-k-pbm-cs-from-a-healthy-donor-2.1.0 A4: https://www.10xgenomics.com/resources/datasets/10-k-pbm-cs-from-a-healthy-donor-gene-expression-and-cell-surface-protein-3.0.0 Die Mischungsdatensätze die in dieser Studie de novo generiert wurden, sind in der EGA-Datenbank unter EGAS00001006202 verfügbar. Die UMAP-Koordinatendateien und das STRUCTURE 1000Genomes-Clustering, das zur Generierung der Clustering-Diagramme verwendet wird, finden Sie auf figshare50,51,52.

Die Bioinformatik-Pipeline de-goulash24 ist verfügbar unter: https://github.com/genid/de-goulash.

Kayser, M. & De Knijff, P. Verbesserung der Humanforensik durch Fortschritte in der Genetik, Genomik und Molekularbiologie. Nat. Rev. Genet. 12, 179–192 (2011).

Artikel CAS PubMed Google Scholar

Bennett, L. et al. Gemischte Entfaltung durch massiv parallele Sequenzierung von Mikrohaplotypen. Int. J. Bein. Med. 133, 719–729 (2019).

Artikel Google Scholar

Holland, MM, McQuillan, MR & O'Hanlon, KA Die Sequenzierung der zweiten Generation ermöglicht die Entfaltung von mtDNA-Mischungen und den hochauflösenden Nachweis von Heteroplasmie. Kroatisch. Med. J. 52, 299–313 (2011).

Artikel CAS PubMed PubMed Central Google Scholar

Perlin, MW et al. Validierung der Interpretation der TrueAllele(R)-DNA-Mischung. J. Forensische Wissenschaft. 56, 1430–1447 (2011).

Artikel CAS PubMed Google Scholar

Novroski, NMM et al. Erweiterung über die aktuellen Kern-STR-Loci hinaus: eine Untersuchung von 73 STR-Markern mit erhöhter Diversität für eine verbesserte Entfaltung der DNA-Mischung. Forensische Wissenschaft. Int. Genet. 38, 121–129 (2019).

Artikel CAS PubMed Google Scholar

Hwa, HL et al. Ein 1204-Einzelnukleotid-Polymorphismus- und Insertions-Deletions-Polymorphismus-Panel für die massiv parallele Sequenzanalyse von DNA-Mischungen. Forensische Wissenschaft. Int. Genet. 32, 94–101 (2018).

Artikel CAS PubMed Google Scholar

Gill, P., Jeffreys, AJ & Werrett, DJ Forensische Anwendung von DNA-Fingerabdrücken. Nature 318, 577–579 (1985).

Artikel CAS PubMed Google Scholar

Vuichard, S. et al. Differenzielle DNA-Extraktion aus anspruchsvollen simulierten Proben sexueller Übergriffe: eine Schweizer Gemeinschaftsstudie. Investig. Genet. 2, 11 (2011).

Artikel PubMed PubMed Central Google Scholar

Kayser, M. Forensische Verwendung von Y-Chromosomen-DNA: ein allgemeiner Überblick. Summen. Genet. 136, 621–635 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Alladio, E. et al. Interpretation von DNA-Mischungen – Ein Proof-of-Concept-Multi-Software-Vergleich, der die Leistung verschiedener probabilistischer Methoden bei anspruchsvollen Proben hervorhebt. Forensische Wissenschaft. Int. Genet. 37, 143–150 (2018).

Artikel CAS PubMed Google Scholar

Budowle, B. et al. Mischungsinterpretation: Definition der relevanten Merkmale für Richtlinien zur Bewertung gemischter DNA-Profile in der forensischen Fallarbeit. J. Forensische Wissenschaft. 54, 810–821 (2009).

Artikel CAS PubMed Google Scholar

Gill, P. et al. Interpretation einfacher STR-Mischungen anhand von Allel-Peakflächen. Forensische Wissenschaft. Int. 91, 41–53 (1998).

Artikel CAS PubMed Google Scholar

Buckleton, JS et al. Die probabilistische Genotypisierungssoftware STRmix: Nutzen und Beweis für ihre Gültigkeit. J. Forensische Wissenschaft. 64, 393–405 (2019).

Artikel PubMed Google Scholar

Anslinger, K. & Bayer, B. Wessen Blut ist es? Anwendung der DEPArray(TM)-Technologie zur Identifizierung von Personen, die Blut zu einer Mischfärbung beigetragen haben. Int. J. Bein. Med. 133, 419–426 (2019).

Artikel CAS Google Scholar

Williamson, VR, Laris, TM, Romano, R. & Marciano, MA Verbesserte DNA-Mischung-Entfaltung von Proben von Sexualdelikten mithilfe des DEPArray-Systems. Forensische Wissenschaft. Int. Genet. 34, 265–276 (2018).

Artikel CAS PubMed Google Scholar

Anslinger, K., Graw, M. & Bayer, B. Entfaltung von Blut-Blut-Gemischen mithilfe von DEPArray(TM) getrenntem Einzelzell-STR-Profiling. Rechtsmedizin 29, 30–40 (2019).

Artikel Google Scholar

Elliott, K., Hill, DS, Lambert, C., Burroughes, TR & Gill, P. Der Einsatz der Laser-Mikrodissektion verbessert die Gewinnung von DNA aus Spermien auf Objektträgern erheblich. Forensische Wissenschaft. Int. 137, 28–36 (2003).

Artikel CAS PubMed Google Scholar

Fontana, F. et al. Isolierung und genetische Analyse reiner Zellen aus forensischen biologischen Gemischen: Die Präzision eines digitalen Ansatzes. Forensische Wissenschaft. Int. Genet. 29, 225–241 (2017).

Artikel CAS PubMed Google Scholar

Verdon, TJ, Mitchell, RJ, Chen, W., Xiao, K. & Van Oorschot, RAH FACS-Trennung unbeeinträchtigter forensisch relevanter biologischer Gemische. Forensische Wissenschaft. Int. Genet. 14, 194–200 (2015).

Artikel CAS PubMed Google Scholar

Watkins, DRL, Myers, D., Xavier, HE & Marciano, MA Neubetrachtung der Einzelzellenanalyse in der Forensik. Wissenschaft. Rep. 11, 7054 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Kayser, M. Forensische DNA-Phänotypisierung: Vorhersage des menschlichen Aussehens anhand von Tatortmaterial für Ermittlungszwecke. Forensische Wissenschaft. Int. Genet. 18, 33–48 (2015).

Artikel CAS PubMed Google Scholar

Phillips, C. Forensische genetische Analyse biogeografischer Abstammung. Forensische Wissenschaft. Int. Genet. 18, 49–65 (2015).

Artikel CAS PubMed Google Scholar

Tang, X., Huang, Y., Lei, J., Luo, H. & Zhu, X. Die Einzelzellsequenzierung: neue Entwicklungen und medizinische Anwendungen. Zellbiowissenschaften. 9, 53 (2019).

Artikel PubMed PubMed Central Google Scholar

Kulhankova, L. et al. Entfaltung von Gulaschzellen und Pipeline für forensische Analyse. https://doi.org/10.5281/zenodo.7559996 (Github, 2022).

Xu, J. et al. Genotypfreies Demultiplexen gepoolter Einzelzell-RNA-Seq. Genombiol. 20, 290 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Heaton, H. et al. Souporcell: Robustes Clustering von Einzelzell-RNA-seq-Daten nach Genotyp ohne Referenzgenotypen. Nat. Methoden 17, 615–620 (2020).

Artikel CAS PubMed Google Scholar

Huang, Y., McCarthy, DJ & Stegle, O. Vireo: Bayesianisches Demultiplexen gepoolter Einzelzell-RNA-Sequenzdaten ohne Genotypreferenz. Genombiol. 20, 273 (2019).

Artikel PubMed PubMed Central Google Scholar

Zheng, S., Huang, SX & Fang, HX Datenfüllung aus unvollständigen ozeanografischen Datensätzen mithilfe von EOF-Berechnungen. (World Acad Union-World Acad Press, 2008).

McInnes, L., Healy, J. & Melville, J. UMAP: Uniform Manifold Approximation and Projection for Dimensions Reduction. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.1802.03426 (2020).

Charrad, M., Ghazzali, N., Boiteau, V. & Niknafs, A. Nbclust: ein R-Paket zur Bestimmung der relevanten Anzahl von Clustern in einem Datensatz. J. Stat. Softw. 61, 1–36 (2014).

Artikel Google Scholar

Pontier, DB & Gribnau, J. Xist Regulierung und Funktion erforscht. Summen. Genet. 130, 223–236 (2011).

Artikel PubMed PubMed Central Google Scholar

Weissensteiner, H. et al. HaploGrep 2: Klassifizierung der mitochondrialen Haplogruppen im Zeitalter der Hochdurchsatzsequenzierung. Nukleinsäuren Res. 44, W58–W63 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Ralf, A., Montiel Gonzalez, D., Zhong, K. & Kayser, M. Yleaf: Software für die Inferenz menschlicher Y-chromosomaler Haplogruppen aus Sequenzierungsdaten der nächsten Generation. Mol. Biol. Entwicklung 35, 1291–1294 (2018).

Artikel CAS PubMed Google Scholar

Pritchard, JK, Stephens, M. & Donnelly, P. Inferenz der Populationsstruktur mithilfe von Multilocus-Genotypdaten. Genetics 155, 945–959 (2000).

Artikel CAS PubMed PubMed Central Google Scholar

1000-Genom-Projektkonsortium. et al. Eine globale Referenz für die genetische Variation des Menschen. Natur 526, 68–74 (2015).

Artikel Google Scholar

Chen, EY et al. Enrichr: interaktives und kollaboratives Tool zur Analyse der HTML5-Genlistenanreicherung. BMC Bioinforma. 14, 128 (2013).

Artikel Google Scholar

Collins, A. & Morton, NE Wahrscheinlichkeitsverhältnisse für die DNA-Identifizierung. Proz. Natl Acad. Wissenschaft. USA 91, 6007–6011 (1994).

Artikel CAS PubMed PubMed Central Google Scholar

Martire, KA, Kemp, RI, Sayle, M. & Newell, BR Zur Interpretation von Wahrscheinlichkeitsverhältnissen in forensischen Beweisen: Präsentationsformate und der schwache Beweiseffekt. Forensische Wissenschaft. Int. 240, 61–68 (2014).

Artikel CAS PubMed Google Scholar

Greytak, EM, Moore, C. & Armentrout, SL Genetische Genealogie für Kaltfälle und aktive Untersuchungen. Forensische Wissenschaft. Int. 299, 103–113 (2019).

Artikel CAS PubMed Google Scholar

Das, S., Abecasis, GR & Browning, BL in Annual Review of Genomics and Human Genetics, Bd. 19 (Hrsg. A. Chakravarti & ED Green) 73–96 (2018).

Genomik, x. subset-bam, https://github.com/10XGenomics/subset-bam (2020).

Danecek, P. et al. Zwölf Jahre SAMtools und BCFtools. GigaScience 10, giab008 (2021).

Artikel PubMed PubMed Central Google Scholar

Pysam-Entwickler. Pysam, https://github.com/pysam-developers/pysam (2020).

Garrison, E. & Marth, G. Haplotypbasierte Variantenerkennung durch Short-Read-Sequenzierung. Vorabdruck bei arXiv https://doi.org/10.48550/arXiv.1207.3907 (2012).

Li, H. et al. Das Sequence Alignment/Map-Format und SAMtools. Bioinformatik 25, 2078–2079 (2009).

Artikel PubMed PubMed Central Google Scholar

McKenna, A. et al. Das Genome Analysis Toolkit: ein MapReduce-Framework zur Analyse von DNA-Sequenzierungsdaten der nächsten Generation. Genomres. 20, 1297–1303 (2010).

Artikel CAS PubMed PubMed Central Google Scholar

Parson, W. & Dür, A. EMPOP – Eine forensische mtDNA-Datenbank. Forensische Wissenschaft. Int. Genet. 1, 88–92 (2007).

Artikel PubMed Google Scholar

van Oven, M. & Kayser, M. Aktualisierter umfassender phylogenetischer Baum der globalen menschlichen mitochondrialen DNA-Variation. Summen. Mutat. 30, E386–E394 (2009).

Artikel PubMed Google Scholar

Howe, KL et al. Ensemble 2021. Nucleic Acids Res. 49, D884–D891 (2021).

Artikel CAS PubMed Google Scholar

Kulhankova, L. et al. Clustering-Dateien Iteration1, https://doi.org/10.6084/m9.figshare.21790061.v2, (Figshare, 2022).

Kulhankova, L. et al. Clustering-Dateien Iteration2, https://doi.org/10.6084/m9.figshare.21790061.v2, (Figshare, 2022).

Kulhankova, L. et al. STRUKTUR-Clusterdateien, https://doi.org/10.6084/m9.figshare.21792344.v2, (Figshare, 2022).

Chiaroni, J., Underhill, PA & Cavalli-Sforza, LL Y-Chromosomenvielfalt, menschliche Expansion, Drift und kulturelle Evolution. Proz. Natl Acad. Wissenschaft. USA 106, 20174–20179 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Referenzen herunterladen

Wir danken allen Freiwilligen, die Material für diese Studie zur Verfügung gestellt haben. Wir danken den Mitarbeitern der Human Genomics Facility (HuGE-F) des Genetic Laboratory, Department of Internal Medicine, Erasmus MC für die Erstellung der WES-Daten für diese Studie. Wir möchten uns auch bei Bella Banjanin, Stijn Fuchs, Bianca de Graaf, Almira Zada ​​und Martijn Ernst für ihre Hilfe bei der Probensammlung bedanken.

Diego Montiel Gonzalez

Aktuelle Adresse: Princes Maxima Center for Pediatric Oncology, Utrecht, Niederlande

Folgende Autoren haben gleichermaßen beigetragen: Manfred Kayser, Eskeatnaf Mulugeta.

Abteilung für genetische Identifizierung, Erasmus MC, Universitätsklinikum Rotterdam, Rotterdam, Niederlande

Lucie Kulhankova, Diego Montiel Gonzalez, Manfred Kayser und Skeatnaf Mulugeta

Abteilung für Hämatologie, Erasmus MC, Universitätsklinikum Rotterdam, Rotterdam, Niederlande

Eric Bindels

Abteilung für forensische Genetik und Toxikologie, National Board of Forensic Medicine, Linköping, Schweden

Daniel Kling

Abteilung für Zellbiologie, Erasmus MC, Universitätsklinikum Rotterdam, Rotterdam, Niederlande

Skeatnaf Mulugeta

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MK und EM konzipierten und gestalteten die Studie, interpretierten die Daten, überwachten die Arbeit, stellten Ressourcen bereit und verfassten das Manuskript; LK bereitete die Proben vor, sammelte, analysierte und interpretierte die Daten, half bei der Bioinformatik-Pipeline, visualisierte die Ergebnisse und schrieb das Manuskript; DMG hat die Bioinformatik-Pipeline entwickelt; EB führte die sc-RNA-Sequenzierung durch; DK trug zu den einzelnen Identifikationsanalysen bei. Alle Autoren haben das endgültige Manuskript kommentiert und genehmigt.

Korrespondenz mit Manfred Kayser oder Skeatnaf Mulugeta.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Die Studie wurde in Übereinstimmung mit den Forschungsregeln und -vorschriften des Erasmus MC durchgeführt, einschließlich derjenigen zur Ethik des Medical Ethics Committee (METC) des Erasmus MC. Alle beteiligten Freiwilligen gaben ihr schriftliches Einverständnis.

Communications Biology dankt Sumanta Ray und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteure: Debarka Sengupta und Christina Karlsson Rosenthal.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Kulhankova, L., Montiel González, D., Bindels, E. et al. Die Einzelzell-Transkriptomsequenzierung ermöglicht die genetische Trennung, Charakterisierung und Identifizierung von Individuen in biologischen Mehrpersonenmischungen. Commun Biol 6, 201 (2023). https://doi.org/10.1038/s42003-023-04557-z

Zitat herunterladen

Eingegangen: 31. Mai 2022

Angenommen: 06. Februar 2023

Veröffentlicht: 20. Februar 2023

DOI: https://doi.org/10.1038/s42003-023-04557-z

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.