بیوانفورماتیک برای همه
104 subscribers
9 photos
1 file
12 links
بیوانفورماتیک برای همه
Download Telegram
آمار و احتمالات در بیوانفورماتیک:


آمار و احتمالات ابزارهای قدرتمندی هستند که به ما کمک می‌کنند تا الگوها را در داده‌های زیستی شناسایی کنیم، نتایج آزمایش‌ها را تفسیر کنیم و پیش‌بینی‌هایی بر اساس داده‌ها انجام دهیم.

در مبانی آمار، ما معمولاً با دو شاخه اصلی سروکار داریم:

1. آمار توصیفی (Descriptive Statistics): این شاخه به جمع‌آوری، سازماندهی، خلاصه کردن و نمایش داده‌ها می‌پردازد. مفاهیمی مانند میانگین، میانه، مد، واریانس و انحراف معیار در این بخش مورد بحث قرار می‌گیرند. این‌ها به ما کمک می‌کنند تا یک تصویر کلی از داده‌هایمان به دست آوریم.
2. آمار استنباطی (Inferential Statistics): این شاخه از آمار به ما امکان می‌دهد تا بر اساس یک نمونه کوچک از داده‌ها، نتایجی را در مورد یک جمعیت بزرگتر استنباط کنیم. مفاهیمی مانند آزمون‌های فرضیه، فاصله اطمینان و رگرسیون در این بخش قرار می‌گیرند. این‌ها به ما کمک می‌کنند تا تصمیم‌گیری‌های آگاهانه بر اساس داده‌ها انجام دهیم.

در بیوانفورماتیک، ما اغلب با مجموعه‌های داده‌ای بزرگ روبرو هستیم. برای مثال، در تحلیل داده‌های ژنومیکس، ممکن است اطلاعات مربوط به ژنوم هزاران فرد را داشته باشیم. آمار توصیفی به ما کمک می‌کند تا ویژگی‌های کلی این داده‌ها را خلاصه کنیم (مثلاً میانگین سن افراد شرکت‌کننده در مطالعه). آمار استنباطی به ما کمک می‌کند تا الگوهای معناداری را در این داده‌ها پیدا کنیم (مثلاً آیا یک نوع ژن خاص با افزایش خطر ابتلا به یک بیماری مرتبط است؟).

آمار توصیفی به خلاصه کردن و توصیف ویژگی‌های اصلی یک مجموعه داده می‌پردازد. تصور کنید شما نتایج یک آزمایش را جمع‌آوری کرده‌اید که در آن سطح بیان یک ژن خاص در 20 نمونه مختلف سلولی اندازه‌گیری شده است. آمار توصیفی به شما کمک می‌کند تا با محاسبه مواردی مانند میانگین (average) سطح بیان، میانه (median)، و میزان پراکندگی داده‌ها (مانند انحراف معیار)، یک دید کلی از این 20 مقدار به دست آورید.

از طرف دیگر، آمار استنباطی به شما امکان می‌دهد تا با استفاده از این 20 نمونه، در مورد سطح بیان این ژن در کل جمعیت سلول‌ها (که ممکن است بسیار بزرگتر باشد) نتیجه‌گیری کنید. برای این کار از تکنیک‌هایی مانند آزمون‌های فرضیه استفاده می‌شود تا مشخص شود آیا الگوهای مشاهده شده در نمونه تصادفی هستند یا نشان‌دهنده یک اثر واقعی در کل جمعیت هستند.

به نظر شما، در یک مطالعه بیوانفورماتیکی که هدف آن شناسایی ژن‌های مرتبط با یک بیماری خاص است، کدام شاخه از آمار (توصیفی یا استنباطی) نقش مهم‌تری ایفا می‌کند؟ چرا؟


در مطالعه‌ای که هدف آن شناسایی ژن‌های مرتبط با یک بیماری است، آمار استنباطی نقش بسیار مهمی ایفا می‌کند. ما معمولاً داده‌ها را از یک نمونه از افراد بیمار و سالم جمع‌آوری می‌کنیم و سپس از آمار استنباطی برای تعیین اینکه آیا تفاوت‌های مشاهده شده در سطح بیان ژن‌ها بین این دو گروه به احتمال زیاد در کل جمعیت بیماران و افراد سالم نیز وجود دارد یا خیر، استفاده می‌کنیم.

با این حال، آمار توصیفی نیز در این فرآیند نادیده گرفته نمی‌شود. قبل از انجام هرگونه استنباط، ما از آمار توصیفی برای خلاصه کردن و درک ویژگی‌های اساسی داده‌هایمان استفاده می‌کنیم (مثلاً توزیع سن بیماران، میانگین سطح بیان یک ژن در هر گروه). این کار به ما کمک می‌کند تا داده‌هایمان را بهتر بشناسیم و فرضیه‌های مناسبی را برای آزمون‌های استنباطی فرموله کنیم.

بنابراین، هر دو شاخه آمار، توصیفی و استنباطی، در تحلیل داده‌های بیوانفورماتیکی اهمیت دارند و مکمل یکدیگر هستند.
1
آمار توصیفی :


حالا بیایید کمی عمیق‌تر به آمار توصیفی بپردازیم. برخی از مهم‌ترین مقادیر در آمار توصیفی عبارتند از:

• میانگین (Mean): مجموع تمام مقادیر تقسیم بر تعداد آن‌ها.
• میانه (Median): مقدار وسط در یک مجموعه داده مرتب شده.
• مد (Mode): مقداری که بیشترین تکرار را در یک مجموعه داده دارد.
• واریانس (Variance): معیاری از میزان پراکندگی داده‌ها حول میانگین.
• انحراف معیار (Standard Deviation): جذر واریانس و معیاری از پراکندگی داده‌ها که در واحد مشابه با داده‌ها بیان می‌شود

برای اینکه این مفاهیم آمار توصیفی برایتان ملموس‌تر شود، یک مثال با یک مجموعه داده فرضی از نتایج یک آزمایش در نظر می‌گیریم.

فرض کنید ما سطح بیان یک ژن خاص را در 5 نمونه مختلف سلولی اندازه‌گیری کرده‌ایم و نتایج به این صورت است:

{2.1,3.5,2.8,4.0,3.1}


حالا بیایید مقادیر مهم آمار توصیفی را برای این مجموعه داده محاسبه کنیم:

میانگین (Mean): برای محاسبه میانگین، تمام مقادیر را با هم جمع می‌کنیم و سپس بر تعداد آن‌ها تقسیم می‌کنیم:

(2.1+3.5+2.8+4.0+3.1 )/5 =3.1
بنابراین، میانگین سطح بیان این ژن در این 5 نمونه برابر با 3.1 است.

میانه (Median): برای یافتن میانه، ابتدا باید داده‌ها را به صورت صعودی مرتب کنیم:
{2.1,2.8,3.1,3.5,4.0}

چون تعداد داده‌ها فرد (5) است، میانه مقدار وسطی است که در اینجا 3.1 است. اگر تعداد داده‌ها زوج بود، میانه میانگین دو مقدار وسطی می‌شد.

مد (Mode): مد مقداری است که بیشترین تکرار را دارد. در مجموعه داده ما
{2.1,3.5,2.8,4.0,3.1}
هیچ مقداری تکرار نشده است، بنابراین این مجموعه داده مد ندارد. اگر مثلاً داده‌ها
{2.1,3.5,2.8,4.0,3.1,3.5}
بودند، مد 3.5 می‌شد زیرا دوبار تکرار شده است.

واریانس (Variance): واریانس میانگین مربعات انحرافات از میانگین است. برای محاسبه آن:

ابتدا انحراف هر مقدار از میانگین را محاسبه می‌کنیم; سپس این انحرافات را به توان دو می‌رسانیم :
(2.1−3.1)=−1.0 ; Power 2 : 1
(3.5−3.1)=0.4 ; Power 2 : 0.16
(2.8−3.1)=−0.3 ; Power 2 : 0.09
(4.0−3.1)=0.9 ; Power 2 : 0.81
(3.1−3.1)=0.0 ; Power 2 : 0

در نهایت، میانگین این مربعات را محاسبه می‌کنیم . چون مثال ما نمونه است و نه جمعیت، بر n−1 تقسیم می‌کنیم که در اینجا 4 می شود تا برآورد بهتری از واریانس جمعیت به دست آید:
(1.0+0.16+0.09+0.81+0.0)/(5-1) = 2.06/4= 0.515

انحراف معیار (Standard Deviation): انحراف معیار جذر واریانس است:
Root 2 of 0.515 ≈0.718

انحراف معیار نشان می‌دهد که داده‌ها به طور متوسط چقدر از میانگین فاصله دارند.

این مقادیر به ما یک توصیف کلی از مجموعه داده ما می‌دهند. برای مثال، میانگین سطح بیان 3.1 است و داده‌ها با انحراف معیاری حدود 0.718 حول این میانگین پراکنده شده‌اند.
1
آشنایی با احتمالات و توزیع‌های آماری:


حالا که با مفاهیم پایه آمار توصیفی آشنا شدیم، می‌خواهیم به بخش دوم از مبانی آمار و احتمالات بپردازیم: آشنایی با احتمالات و توزیع‌های آماری.

احتمال :


بیایید با مفهوم احتمال شروع کنیم. در ساده‌ترین حالت، احتمال یک رویداد، نسبتی از تعداد دفعاتی است که آن رویداد رخ می‌دهد به تعداد کل نتایج ممکن.

تصور کنید یک آزمایش ژنتیکی انجام می‌دهید که در آن احتمال وقوع یک جهش خاص در یک ژن 0.05 است. این بدان معناست که اگر شما این آزمایش را بارها و بارها تکرار کنید، انتظار دارید که در حدود 5 درصد از مواقع این جهش رخ دهد.

یک مثال ساده‌تر: اگر یک سکه سالم ( به گونه ای ساختار سکه تغییر نکرده که احتمال آمدن یک سمت نسبت به سمت سمت دیگر متفاوت باشد) را پرتاب کنید، دو نتیجه ممکن وجود دارد: رو آمدن (Heads) یا پشت آمدن (Tails). فرض می‌کنیم که هر دو نتیجه احتمال یکسانی دارند. بنابراین، احتمال رو آمدن سکه برابر است با:

P(Heads)= تعداد دفعات رو آمدن / تعداد کل نتایج ممکن= 1/2=0.5

به همین ترتیب، احتمال پشت آمدن سکه نیز 0.5 است.

در بیوانفورماتیک، ما اغلب با احتمالات در زمینه‌های مختلف سروکار داریم. برای مثال:

• احتمال اینکه یک نوکلئوتید خاص در یک موقعیت مشخص در توالی DNA قرار بگیرد.
• احتمال اینکه یک تغییر ژنتیکی خاص با یک بیماری مرتبط باشد (که معمولاً از طریق مطالعات آماری بزرگ تعیین می‌شود).
• احتمال اینکه یک الگوریتم بیوانفورماتیکی یک توالی DNA را به درستی تراز کند : Alignment

مثال دیگر :

فرض کنید در یک جمعیت از مگس‌های سرکه، ژنی وجود دارد که دو الل (شکل مختلف ژن) دارد: الل غالب (A) و الل مغلوب (a). فرض کنید که در این جمعیت، 30 درصد از الل‌ها A و 70 درصد a هستند. اگر ما به طور تصادفی یک مگس را از این جمعیت انتخاب کنیم، احتمال اینکه این مگس دارای ژنوتیپ (ترکیب الل‌ها) aa باشد چقدر است؟

برای سادگی فرض می‌کنیم که انتخاب هر الل مستقل از دیگری است. بنابراین، احتمال اینکه یک الل 'a' انتخاب شود 0.7 است. برای اینکه مگس ژنوتیپ aa داشته باشد، ما باید دو بار متوالی الل 'a' را انتخاب کنیم.

احتمال وقوع دو رویداد مستقل به طور همزمان، حاصلضرب احتمالات وقوع هر رویداد است. بنابراین:

P(aa)=P(انتخاب اول) * P(انتخاب دوم) = 0.7×0.7= 0.49


این بدان معناست که حدود 49 درصد از مگس‌های این جمعیت احتمالاً دارای ژنوتیپ aa خواهند بود.

این مثال نشان می‌دهد که چگونه می‌توان از مفهوم احتمال برای درک توزیع صفات ژنتیکی در یک جمعیت استفاده کرد.
👍1
آشنایی با احتمالات و توزیع‌های آماری 2 :


توزیع های آماری :



مهم ترین مفهوم مرتبط با احتمال، توزیع‌های آماری هستند. یک توزیع آماری نشان می‌دهد که چگونه مقادیر یک متغیر تصادفی (مانند قد افراد در یک جمعیت یا تعداد جهش‌ها در یک ژن) در یک محدوده مشخص پخش شده‌اند. در بیوانفورماتیک، برخی از توزیع‌های آماری بسیار رایج هستند، از جمله:

توزیع نرمال (Normal Distribution): یک توزیع متقارن و bell-shaped که که به آن توزیع گاوسی یا زنگوله‌ای هم می‌گویند و یکی از رایج‌ترین توزیع‌ها در طبیعت است. بسیاری از صفات کمی مانند قد، وزن، و سطح بیان بسیاری از ژن‌ها در یک جمعیت بزرگ، تقریباً از توزیع نرمال پیروی می‌کنند.

مثال زیستی: تصور کنید سطح بیان یک ژن خاص را در تعداد زیادی سلول اندازه‌گیری کرده‌اید. اگر این سطح بیان تحت تأثیر عوامل زیادی با اثرات کوچک و مستقل باشد، احتمالاً توزیع مقادیر به دست آمده شبیه به یک توزیع نرمال خواهد بود. بیشتر سلول‌ها سطح بیان متوسطی خواهند داشت و تعداد کمی از سلول‌ها سطح بیان بسیار بالا یا بسیار پایینی نشان خواهند داد.


توزیع دوجمله‌ای (Binomial Distribution): برای مدل‌سازی تعداد موفقیت‌ها در یک تعداد ثابت از آزمایش‌های مستقل با احتمال موفقیت ثابت استفاده می‌شود (مثلاً تعداد دفعاتی که یک جهش خاص در یک گروه از افراد رخ می‌دهد).هر آزمایش فقط دو نتیجه ممکن دارد (موفقیت یا شکست).

مثال زیستی: فرض کنید در حال مطالعه یک جمعیت از باکتری‌ها هستید و می‌دانید که احتمال وقوع یک جهش خاص در هر باکتری در طول یک دوره زمانی مشخص 0.01 است. اگر شما 100 باکتری را بررسی کنید، توزیع دوجمله‌ای به شما کمک می‌کند تا احتمال مشاهده 0، 1، 2، ... یا 100 باکتری دارای این جهش را محاسبه کنید.

توزیع پواسون (Poisson Distribution): این توزیع برای مدل‌سازی تعداد رویدادهایی که در یک بازه زمانی یا مکانی مشخص رخ می‌دهند، زمانی که این رویدادها به طور مستقل و با یک نرخ متوسط ثابت اتفاق می‌افتند، استفاده می‌شود.

مثال زیستی: تصور کنید در حال بررسی تعداد جهش‌هایی هستید که در یک ژن خاص در طول یک نسل رخ می‌دهند. اگر نرخ متوسط جهش در این ژن مشخص باشد، توزیع پواسون به شما کمک می‌کند تا احتمال مشاهده 0، 1، 2، یا تعداد بیشتری جهش در آن ژن را تخمین بزنید.
👍1
آشنایی با بیوانفورماتیک:

در این بخش، ما به طور خاص به این خواهیم پرداخت که چگونه مفاهیمی که یاد گرفتیم در عمل برای تحلیل داده‌های زیستی به کار می‌روند.
پایگاه‌های داده‌های زیستی:

اولین قدم در این بخش، معرفی پایگاه‌های داده‌های زیستی است. حجم عظیمی از داده‌های زیستی در سراسر جهان تولید می‌شود و این داده‌ها در پایگاه‌های داده‌های تخصصی ذخیره و سازماندهی می‌شوند تا برای محققان در دسترس باشند. از مهم‌ترین این پایگاه‌های داده NCBI و EMBL-EBI هستند . این پایگاه‌های داده منابع بسیار ارزشمندی برای محققان بیوانفورماتیک هستند. آن‌ها به ما امکان می‌دهند تا توالی‌های ژنتیکی و پروتئینی را جستجو کنیم، اطلاعات مربوط به ژن‌ها و پروتئین‌ها را پیدا کنیم، مقالات علمی مرتبط را مرور کنیم و داده‌های خام آزمایش‌ها را دانلود کنیم. آشنایی با هر دو پایگاه داده NCBI و EMBL-EBI بسیار مفید است، زیرا هر کدام مجموعه‌های داده و ابزارهای منحصربه‌فردی را ارائه می‌دهند.

NCBI (National Center for Biotechnology Information):



یک منبع جامع که پایگاه‌های داده‌های مختلفی از جمله GenBank (توالی‌های ژنتیکی)، PubMed (مقالات علمی زیست‌پزشکی) و GEO (آرایه‌های ژنی و داده‌های میکرواری) را در خود جای داده است.

• پایگاه‌های داده کلیدی:
GenBank:
یک پایگاه داده بزرگ از توالی‌های نوکلئوتیدی (DNA و RNA). شما می‌توانید توالی‌های ژنی، ژنوم‌های کامل و سایر اطلاعات توالی را در اینجا پیدا کنید.

PubMed:
یک موتور جستجو برای مقالات علمی در زمینه زیست‌پزشکی و علوم مرتبط. این شامل میلیون‌ها مقاله منتشر شده است.

GEO (Gene Expression Omnibus):
یک مخزن داده‌های بیان ژن که از آرایه‌های ژنی و تعیین توالی RNA (RNA-Seq) به دست آمده‌اند.

BLAST (Basic Local Alignment Search Tool):
ابزاری برای یافتن توالی‌های مشابه در پایگاه‌های داده توالی. ما بعداً به طور مفصل در مورد BLAST صحبت خواهیم کرد.

Entrez:
یک سیستم جستجو و بازیابی یکپارچه که به شما امکان می‌دهد در تمام پایگاه‌های داده NCBI جستجو کنید.


EMBL-EBI (European Molecular Biology Laboratory - European Bioinformatics Institute)


• مرکز اروپایی: EMBL-EBI مرکز اصلی برای داده‌های بیولوژیکی معادل NCBI در اروپا است و همکاری‌های بین‌المللی گسترده‌ای دارد.

• پایگاه‌های داده کلیدی:
ENA (European Nucleotide Archive):
مشابه GenBank، این پایگاه داده توالی‌های نوکلئوتیدی را ذخیره می‌کند.

UniProt:
یک پایگاه داده جامع و با کیفیت بالا از اطلاعات پروتئینی، شامل توالی‌ها، ساختارها و عملکردهای پروتئین‌ها.

ArrayExpress:
مشابه GEO، این پایگاه داده داده‌های بیان ژن را نگهداری می‌کند.

Ensembl:
یک پایگاه داده ژنومی که ژنوم‌های یوکاریوتی را حاشیه‌نویسی و تحلیل می‌کند. این شامل اطلاعاتی در مورد ساختار ژن، رونوشت‌ها و تغییرات ژنتیکی است.

InterPro:
یک پایگاه داده از خانواده‌های پروتئینی، دامنه‌ها و سایت‌های عملکردی.

هر دو پایگاه داده NCBI و EMBL-EBI اطلاعات بسیار ارزشمندی را ارائه می‌دهند و اغلب مکمل یکدیگر هستند. برای مثال، یک توالی ژنی ممکن است در GenBank (NCBI) یافت شود، در حالی که اطلاعات دقیق‌تر در مورد پروتئین حاصل از آن ممکن است در UniProt (EMBL-EBI) موجود باشد.
BLAST (Basic Local Alignment Search Tool)

بلاست یک الگوریتم و یک مجموعه برنامه است که برای یافتن نواحی مشابه بین توالی‌های بیولوژیکی (مانند توالی‌های DNA، RNA یا پروتئین) استفاده می‌شود. اساس کار BLAST مقایسه یک توالی ورودی (query sequence) با توالی‌های موجود در یک پایگاه داده بزرگ است تا توالی‌هایی را پیدا کند که شباهت قابل توجهی با توالی ورودی دارند. حال چرا BLAST اینقدر مهم است؟

شناسایی توالی‌های جدید: وقتی یک توالی جدید به دست می‌آوریم (مثلاً از طریق تعیین توالی DNA)، می‌توانیم از BLAST برای جستجو در پایگاه‌های داده استفاده کنیم و ببینیم آیا توالی‌های مشابهی قبلاً شناسایی شده‌اند یا خیر. این می‌تواند به ما در تعیین عملکرد احتمالی توالی جدید کمک کند.

یافتن ژن‌های همولوگ: همولوگ‌ها ژن‌هایی در گونه‌های مختلف هستند که از یک ژن اجدادی مشترک مشتق شده‌اند و اغلب عملکردهای مشابهی دارند. BLAST به ما کمک می‌کند تا ژن‌های همولوگ را در ارگانیسم‌های مختلف پیدا کنیم.

بررسی پایگاه‌های داده: BLAST یک راه قدرتمند برای جستجو در حجم وسیع داده‌های موجود در پایگاه‌های داده‌های زیستی است. تصور کنید شما یک قطعه DNA با توالی ناشناخته دارید. با وارد کردن این توالی به عنوان query در وب‌سایت NCBI BLAST، این ابزار توالی شما را با میلیون‌ها توالی موجود در پایگاه داده GenBank مقایسه می‌کند و لیستی از توالی‌های مشابه را به همراه میزان شباهت آن‌ها به شما نشان می‌دهد.
نحوه کار با BLAST


1.ورود توالی (Query): شما ابتدا توالی بیولوژیکی مورد نظر خود (DNA، RNA یا پروتئین) را در فرم جستجوی BLAST در وب‌سایت NCBI یا EMBL-EBI وارد می‌کنید. می‌توانید توالی را مستقیماً تایپ کنید یا آن را از یک فایل آپلود کنید.

2.انتخاب پایگاه داده: شما باید پایگاه داده‌ای را انتخاب کنید که می‌خواهید توالی شما در آن جستجو شود. بسته به نوع توالی ورودی شما (مثلاً DNA) و هدف جستجو (مثلاً یافتن ژن‌های مشابه در انسان یا در تمام موجودات)، پایگاه داده‌های مختلفی وجود دارد (مانند GenBank برای توالی‌های نوکلئوتیدی، UniProtKB/Swiss-Prot برای توالی‌های پروتئینی).

3.انتخاب الگوریتم: BLAST چندین الگوریتم مختلف دارد که برای انواع مختلف جستجو بهینه شده‌اند (مانند blastn برای جستجوی نوکلئوتید در نوکلئوتید، blastp برای جستجوی پروتئین در پروتئین، blastx برای ترجمه توالی نوکلئوتیدی ورودی به پروتئین و جستجو در پایگاه داده پروتئین). معمولاً BLAST به طور خودکار بهترین الگوریتم را بر اساس نوع توالی ورودی شما پیشنهاد می‌دهد.

4.تنظیم پارامترها (اختیاری): شما می‌توانید پارامترهای مختلفی را برای تنظیم حساسیت و سرعت جستجو تغییر دهید (مانند مقدار E-value که در ادامه توضیح خواهیم داد).

5.اجرای جستجو: پس از وارد کردن توالی و انتخاب پایگاه داده و الگوریتم، روی دکمه "BLAST" کلیک می‌کنید تا جستجو آغاز شود.

تفسیر خروجی BLAST


خروجی BLAST معمولاً شامل بخش‌های زیر است:

1.توضیح (Description): این بخش لیستی از توالی‌های موجود در پایگاه داده را نشان می‌دهد که با توالی ورودی شما همتایی دارند. برای هر همتایی، اطلاعاتی مانند نام توالی، نام ارگانیسم و میزان همتایی (Score و E-value) ارائه می‌شود. معمولاً نتایج بر اساس E-value مرتب می‌شوند (از کمترین به بیشترین).

2.همتایی‌ها (Alignments): این بخش همتایی‌های دقیق بین توالی ورودی شما و توالی‌های همتا در پایگاه داده را نشان می‌دهد. در اینجا، نواحی مشابه با خطوط و حروف یکسان مشخص می‌شوند. میزان همتایی معمولاً به صورت درصد هویت (Percent Identity) نشان داده می‌شود (درصد نوکلئوتیدها یا آمینو اسیدهای یکسان در طول همتایی).

3.امتیاز (Score) :یک مقدار عددی است که نشان‌دهنده میزان شباهت بین توالی ورودی و توالی همتا است. امتیازهای بالاتر نشان‌دهنده شباهت بیشتر هستند.
4. مقدارEیا E-value : مهم‌ترین معیار برای ارزیابی معنی‌دار بودن یک همتایی است. E-value نشان می‌دهد که انتظار می‌رود چند همتایی با امتیازی برابر یا بهتر از همتایی مشاهده شده، به طور تصادفی در جستجو در پایگاه داده با آن اندازه رخ دهد. E-valueهای نزدیک به صفر نشان‌دهنده همتایی‌های بسیار معنی‌دار هستند که احتمال تصادفی بودن آن‌ها بسیار کم است. به طور معمول، E-value کمتر از 0.001 به عنوان یک همتایی معنی‌دار در نظر گرفته می‌شود.

4.درصد هویت (Percent Identity): درصد نوکلئوتیدها یا آمینو اسیدهایی که در طول همتایی دقیقاً یکسان هستند. درصد هویت بالا نیز نشان‌دهنده شباهت زیاد است.
در عمل، وقتی شما یک توالی جدید را BLAST می‌کنید، به دنبال همتایی‌هایی با E-value بسیار پایین و درصد هویت بالا می‌گردید. این نشان می‌دهد که توالی شما احتمالاً با یک توالی شناخته شده در پایگاه داده ارتباط تکاملی دارد یا عملکرد مشابهی دارد.
بسیار خب، فرض کنید شما یک توالی DNA ناشناخته را به عنوان query در NCBI BLAST وارد کرده‌اید و نتایج زیر به دست آمده است (این یک مثال ساده و فرضی است):
🟩 همتایی‌ها (Alignments) در جدول:

برای اولین همتایی (human protein)
در این مثال بخش Descriptions لیستی از توالی‌های موجود در پایگاه داده را نشان می‌دهد که با توالی ورودی شما همتایی دارند. هر سطر اطلاعات مربوط به یک همتایی را ارائه می‌دهد.

🔺شرح توالی (Description) یک توضیح مختصر از توالی همتا را نشان می‌دهد (در اینجا، یک پروتئین فرضی در انسان و پروتئین p53 در شامپانزه و میمون).

🔺 ارگانیسم (Organism) نام موجودی را نشان می‌دهد که توالی همتا از آن به دست آمده است.

🔺 درصد هویت (Ident) نشان می‌دهد که چند درصد از نوکلئوتیدها در طول همتایی بین توالی ورودی و توالی همتا یکسان هستند. درصد هویت بالا نشان‌دهنده شباهت زیاد است.

🔺 طول همتایی (Length) طول ناحیه‌ای از توالی ورودی است که با توالی همتا همتایی دارد.

🔺 E-value
بسیار کوچک است (نزدیک به صفر)، که نشان می‌دهد این همتایی‌ها بسیار معنی‌دار هستند و احتمال تصادفی بودن آن‌ها بسیار کم است. E-valueهای کوچکتر به معنای معنی‌دارتر بودن همتایی هستند.

🔺 امتیاز (Score) نیز بالا است، که نشان‌دهنده شباهت زیاد است.

🟩 تصویر همتایی

🔺 بخش Alignments همتایی دقیق بین توالی ورودی (Query) و توالی همتا (Sbjct - Subject) را نشان می‌دهد. خطوط عمودی (|) نشان‌دهنده نوکلئوتیدهای یکسان در موقعیت مربوطه هستند.

در این مثال فرضی، توالی ورودی شما شباهت بسیار زیادی به یک پروتئین فرضی در انسان و همچنین پروتئین p53 (یک پروتئین مهم در جلوگیری از سرطان) در شامپانزه و میمون دارد، که با E-valueهای بسیار پایین و درصد هویت بالا نشان داده شده است. این می‌تواند نشان دهد که توالی ورودی شما ممکن است یک ژن همولوگ با p53 باشد.
کاربردهای بیوانفورماتیک در زمینه‌های مختلف:

بیوانفورماتیک یک حوزه بسیار گسترده است و در زمینه‌های متنوعی از علوم زیستی و پزشکی کاربرد دارد. در اینجا به برخی از مهم‌ترین آن‌ها اشاره می‌کنیم:

🟠 ژنومیکس (Genomics): ژنومیکس به مطالعه‌ی کامل مواد ژنتیکی یک موجود زنده، یعنی ژنوم آن، می‌پردازد. ژنوم شامل تمام DNA (یا RNA در برخی ویروس‌ها) است که حاوی تمام ژن‌ها و همچنین نواحی غیرکدکننده است. بیوانفورماتیک در این حوزه نقش‌های متعددی ایفا می‌کند:

🔶 تعیین توالی ژنوم (Genome Sequencing): تکنیک‌های پیشرفته تعیین توالی نسل بعد (Next-Generation Sequencing - NGS) حجم عظیمی از داده‌های توالی DNA را تولید می‌کنند. الگوریتم‌های بیوانفورماتیکی برای مونتاژ این قطعات کوتاه توالی به یک توالی ژنوم کامل استفاده می‌شوند.

🔶 حاشیه‌نویسی ژنوم (Genome Annotation): پس از تعیین توالی ژنوم، باید محل ژن‌ها، عناصر تنظیمی و سایر ویژگی‌های عملکردی در آن شناسایی شوند. ابزارهای بیوانفورماتیکی با استفاده از الگوریتم‌های پیش‌بینی ژن و مقایسه با پایگاه‌های داده‌های توالی شناخته‌شده، این اطلاعات را استخراج می‌کنند.

🔶 تحلیل تغییرات ژنتیکی (Variant Analysis): مقایسه ژنوم‌های افراد مختلف به شناسایی تغییرات ژنتیکی مانند تک‌نوکلئوتیدی چندشکلی‌ها (SNPs)، حذف‌ها و درج‌ها (indels) و تغییرات ساختاری منجر می‌شود. بیوانفورماتیک ابزارهایی برای شناسایی، فیلتر و تفسیر این تغییرات، به ویژه در ارتباط با بیماری‌ها، فراهم می‌کند.

🔶 ژنومیکس مقایسه‌ای (Comparative Genomics): مقایسه ژنوم‌های گونه‌های مختلف به درک روابط تکاملی، شناسایی ژن‌های محافظت‌شده و درک تنوع ژنتیکی کمک می‌کند.

🔶 متاژنومیکس (Metagenomics): تحلیل مواد ژنتیکی به دست آمده مستقیماً از نمونه‌های محیطی (بدون کشت موجودات) به شناسایی و مطالعه جوامع میکروبی پیچیده کمک می‌کند.

🟠 پروتئومیکس (Proteomics): پروتئومیکس به مطالعه‌ی مجموعه‌ی کامل پروتئین‌های بیان شده توسط یک سلول، بافت یا ارگانیسم در یک زمان خاص می‌پردازد. بیوانفورماتیک در این حوزه به موارد زیر کمک می‌کند:

شناسایی پروتئین (Protein Identification): تکنیک‌هایی مانند طیف‌سنجی جرمی (Mass Spectrometry) پپتیدهای حاصل از تجزیه پروتئین‌ها را شناسایی می‌کنند. الگوریتم‌های بیوانفورماتیکی این داده‌ها را با پایگاه‌های داده‌های توالی پروتئین مقایسه کرده و پروتئین‌های موجود در نمونه را شناسایی می‌کنند.

تعیین ساختار پروتئین (Protein Structure Prediction): پیش‌بینی ساختار سه‌بعدی پروتئین‌ها از توالی آمینو اسید آن‌ها یک چالش بزرگ است. روش‌های بیوانفورماتیکی از جمله مدل‌سازی همولوژی، پیش‌بینی ساختار ab initio و روش‌های یادگیری ماشین برای تخمین ساختار پروتئین‌ها استفاده می‌شوند.

تحلیل عملکرد پروتئین (Protein Function Analysis): بیوانفورماتیک ابزارهایی برای پیش‌بینی عملکرد پروتئین‌ها بر اساس توالی و ساختار آن‌ها، شناسایی دامنه‌های عملکردی و پیش‌بینی سایت‌های اتصال به لیگاند فراهم می‌کند.

مطالعه تعاملات پروتئین-پروتئین (Protein-Protein Interaction Studies): روش‌های محاسباتی برای پیش‌بینی و مدل‌سازی چگونگی تعامل پروتئین‌ها با یکدیگر و تشکیل شبکه‌های پیچیده در سلول استفاده می‌شوند.

تحلیل بیان پروتئین (Protein Expression Analysis): تحلیل داده‌های کمی به دست آمده از تکنیک‌هایی مانند طیف‌سنجی جرمی کمی به تعیین میزان بیان پروتئین‌ها در شرایط مختلف کمک می‌کند.
🟠 ترانسکریپتومیکس (Transcriptomics): ترانسکریپتومیکس به مطالعه‌ی مجموعه‌ی کامل مولکول‌های RNA، یعنی ترانسکریپتوم، در یک سلول یا بافت می‌پردازد. نقش بیوانفورماتیک در این حوزه عبارت است از:

🔶 تحلیل RNA-Seq: داده‌های حاصل از تعیین توالی RNA برای تعیین سطح بیان ژن‌ها، شناسایی ایزوفرم‌های مختلف RNA و کشف رونوشت‌های جدید استفاده می‌شوند. پایپ‌لاین‌های بیوانفورماتیکی مراحل مختلفی از جمله تراز کردن توالی‌ها با ژنوم، تعیین کمیت بیان ژن و انجام تحلیل‌های آماری برای شناسایی ژن‌های با بیان متفاوت را شامل می‌شوند.

🔶 تحلیل میکروآرایه (Microarray Analysis): اگرچه RNA-Seq روش غالب است، اما تحلیل داده‌های میکروآرایه (برای اندازه‌گیری سطح بیان ژن) همچنان در برخی موارد کاربرد دارد و نیازمند روش‌های بیوانفورماتیکی برای نرمال‌سازی، تحلیل آماری و شناسایی ژن‌های با بیان متفاوت است.

🔶 مطالعه RNAهای غیرکدکننده (Non-coding RNA Analysis): بیوانفورماتیک در شناسایی، حاشیه‌نویسی و تعیین عملکرد RNAهای غیرکدکننده مانند میکروRNAها و RNAهای طویل غیرکدکننده نقش دارد.

🔶 تحلیل Single-cell RNA-seq (scRNA-seq) : یک تکنیک پیشرفته است که به محققان اجازه می‌دهد تا سطح بیان ژن را در تک تک سلول‌ها اندازه‌گیری کنند. این تکنیک در مقایسه با RNA-seq سنتی که سطح بیان را به صورت میانگین برای یک جمعیت از سلول‌ها اندازه‌گیری می‌کند، دیدگاه بسیار دقیق‌تری از تنوع سلولی ارائه می‌دهد. با استفاده از روش‌های بیوانفورماتیکی، داده‌های scRNA-seq برای موارد زیر تحلیل می‌شوند :

🔸شناسایی انواع سلول: با گروه‌بندی سلول‌ها بر اساس الگوهای بیان ژن مشابه، می‌توان انواع سلولی مختلف موجود در یک نمونه پیچیده (مانند یک تومور یا یک بافت) را شناسایی کرد.

🔸 مطالعه تمایز سلولی: با بررسی تغییرات بیان ژن در طول زمان، می‌توان مسیرهای تمایز سلولی را درک کرد.

🔸 شناسایی جمعیت‌های سلولی نادر: scRNA-seq می‌تواند به شناسایی انواع سلولی کمیاب که ممکن است در تحلیل‌های bulk RNA-seq پنهان بمانند، کمک کند.

🔸بررسی ناهمگونی تومور: در سرطان‌شناسی، scRNA-seq برای بررسی تنوع سلولی درون تومورها و شناسایی زیرجمعیت‌های سلولی مختلف که ممکن است به درمان‌های مختلف پاسخ متفاوتی دهند، استفاده می‌شود.

🟠 متابولومیکس (Metabolomics): متابولومیکس به مطالعه‌ی مجموعه‌ی کامل متابولیت‌های کوچک در یک سیستم بیولوژیکی می‌پردازد. بیوانفورماتیک در این حوزه به موارد زیر کمک می‌کند:

🔶 شناسایی متابولیت (Metabolite Identification): داده‌های حاصل از تکنیک‌هایی مانند طیف‌سنجی جرمی و NMR با پایگاه‌های داده‌های متابولیت مقایسه می‌شوند تا متابولیت‌های موجود در نمونه شناسایی شوند.

🔶 تعیین کمیت متابولیت (Metabolite Quantification): روش‌های بیوانفورماتیکی برای تعیین غلظت متابولیت‌های شناسایی شده استفاده می‌شوند.

🔶 تحلیل مسیر متابولیکی (Metabolic Pathway Analysis): داده‌های متابولومیکس با پایگاه‌های داده‌های مسیرهای متابولیکی ادغام می‌شوند تا تغییرات در شبکه‌های متابولیکی در شرایط مختلف بررسی شوند.

🟠بیولوژی سیستم‌ها (Systems Biology): بیولوژی سیستم‌ها به درک سیستم‌های بیولوژیکی به عنوان شبکه‌های پیچیده از تعاملات می‌پردازد. بیوانفورماتیک در این حوزه نقش اساسی در موارد زیر دارد:

🔶 مدل‌سازی شبکه (Network Modeling): ساخت مدل‌های ریاضی از شبکه‌های بیولوژیکی (مانند شبکه‌های تنظیم ژن، شبکه‌های سیگنالینگ و شبکه‌های متابولیکی) بر اساس داده‌های تجربی.

🔶 شبیه‌سازی سیستم (System Simulation): استفاده از مدل‌های ساخته شده برای شبیه‌سازی رفتار سیستم در شرایط مختلف و پیش‌بینی پاسخ‌ها به تغییرات.

🔶 تحلیل شبکه (Network Analysis): استفاده از نظریه گراف برای تحلیل خواص شبکه‌ها و شناسایی اجزای کلیدی.

🟠 داروشناسی محاسباتی (Computational Pharmacology): بیوانفورماتیک در فرآیند کشف و توسعه دارو نقش مهمی ایفا می‌کند:

🔶 شناسایی هدف دارویی (Drug Target Identification): تحلیل داده‌های ژنومیکس، پروتئومیکس و ترانسکریپتومیکس برای شناسایی مولکول‌هایی (معمولاً پروتئین‌ها) که در بیماری‌ها نقش دارند و می‌توانند هدف دارو باشند.

🔶 غربالگری مجازی (Virtual Screening): استفاده از مدل‌های ساختار سه‌بعدی پروتئین‌ها برای پیش‌بینی اینکه کدام مولکول‌های کوچک (داروها) احتمالاً به هدف متصل می‌شوند.

🔶 طراحی دارو (Drug Design): استفاده از روش‌های محاسباتی برای طراحی مولکول‌های جدید با خواص دارویی مطلوب.

🔶 فارماکوژنومیکس (Pharmacogenomics): مطالعه‌ی چگونگی تأثیر تغییرات ژنتیکی افراد بر پاسخ آن‌ها به داروها، با هدف توسعه داروهای شخصی‌سازی‌شده.
📣 سلام و احترام

اگر تازه عضو کانال شده اید:

⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید

⬅️ فهرست مطالب تا کنون هم اینجاست.

✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.

امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.

در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.

جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.

آدرس کانال هم مجدد:

https://t.me/BFE_pod
👍21
ژنومیکس


ژنومیکس و آنالیز واریانت از مباحث بسیار مهم در تحقیقات زیستی هستند. به طور خلاصه، ژنومیکس مطالعه کل ماده ژنتیکی یک موجود زنده است و تجزیه و تحلیل انواع آن بر شناسایی و درک تفاوت‌های درون آن ژنوم‌ها متمرکز است. جهت کاهش تعداد پست ها محتواهای چند رسانه ای در بخش نظرات قرار میگیرند.


🟠عنوان های اصلی این مبحث:

1. پیشینه زیستی ژنومیکس : باور مرکزی (Central Dogma) ؛ اساس توالی یابی DNA؛

2. مقدمه ای بر تنوع ژنتیکی

3. مفاهیم آماری در تحلیل واریانت ها

4. برنامه نویسی برای بیوانفورماتیک

5. پایگاه های داده ژنومی مهم
👍1
باور مرکزی :


بدن خود را به عنوان یک دستورالعمل فوق العاده پیچیده در نظر بگیرید، که زبان آن راهنما، زبانی به نام DNA است. DNA یا اسید دئوکسی ریبونوکلئیک، مانند طرح اولیه هر چیزی است که شما را این چیزی که هستید می سازد. DNA یک مولکول طولانی و پیچ در پیچ است که حاوی دستورالعمل های ژنتیکی برای همه موجودات زنده است. این DNA در ساختارهایی به نام کروموزوم سازماندهی شده است. کروموزوم ها را به عنوان فصل هایی در کتابچه راهنمای خود تصور کنید. انسان ها معمولاً 23 جفت کروموزوم (در مجموع 46 کروموزوم( دارند: 22 جفت مشترک بین دو جنس (اتوزوم) دو کروموزم Y X , ( جنسی) . حضور یا عدم حضور Y تعیین کننده جنسیت است؛ اگر کروموزوم های جنسی هردو X باشد جنسیت زن و اگر یکی X و دیگری Y باشد جنسیت مرد است. از این در درون این کروموزوم ها ژن ها وجود دارند که مانند دستور العمل های خاصی در یک فصل کتابچه هستند. هر ژن حاوی دستورالعمل هایی برای ساخت یک پروتئین خاص است و این پروتئین ها بیشتر کار را در سلول های ما انجام می دهند.

حال، چگونه اطلاعات موجود در DNA برای ساخت پروتئین ها استفاده می شود؟ اینجاست که RNA وارد می شود. RNA یا اسید ریبونوکلئیک مانند یک پیام رسان است. اطلاعات یک ژن در DNA به RNA کپی می‌شود (به این رونویسی می‌گویند)، و سپس RNA این پیام را به ماشین‌های پروتئین‌ساز در سلول می‌رساند (به آن ترجمه می‌گویند). این جریان اطلاعات از DNA به RNA به پروتئین اغلب دگم یا باور مرکزی زیست‌شناسی مولکولی (Central Dogma)نامیده می شود.


🔺خوب، اکنون که ما درک اولیه ای از چیستی DNA داریم، بیایید در مورد اینکه چگونه می توانیم واقعا آن را "خوانش" کنیم(reading)، صحبت کنیم. اینجاست که توالی یابی DNA وارد می شود.

تصور کنید دفترچه راهنمای DNA ما با فونت بسیار ریز و تنها با چهار حرف نوشته شده است: A، T، C و G. این حروف بلوک های سازنده DNA هستند که نوکلئوتید نامیده می شوند. ترتیب ظاهر شدن این حروف حاوی اطلاعات ژنتیکی است. توالی یابی DNA فرآیند تعیین ترتیب دقیق این بازهای A، T، C و G در بخشی از DNA است. برای درک بهتر به این موضوع مانند " خواندن دقیق هر حرف در یک جمله و اهمیت ترتیب حروف برای درک معنای آن جمله " فکر کنید.

🟡 چرا این موضوع اینقدر برای ژنومیک مهم است؟ چون با تعیین توالی DNA، می توانید:

🔸 ژن ها را شناسایی کنید

🔸 ببینید ژن ها چگونه سازماندهی می شوند

🔸 به دنبال واریانت ها یا تغییرات در توالی های DNA باشید (بعداً در مورد آن صحبت خواهیم کرد)

🔸 ماده ژنتیکی یا DNA موجودات مختلف را با هم مقایسه کنید

🟡 توسعه فن‌آوری‌های توالی‌یابی DNA انقلابی زیستی بوده که به ما این امکان را می‌دهد تا کد ژنتیکی حیات را با جزئیات بی‌سابقه مورد بررسی دقیق قرار دهیم.
👍1
اساس توالی یابی DNA:

در حالی که فن آوری های مختلف تعیین توالی وجود دارد، اما اغلب آنها شامل این مراحل کلیدی هستند:

🟠 استخراج DNA: ابتدا باید DNA را از نمونه ای که مطالعه می کنید (به عنوان مثال، خون، بافت، بزاق) جدا کنید. مانند جدا کردن دستور آشپزی مد نظر از کتاب آشپزی.

🟠 تکه تکه کردن: DNA اغلب به قطعات کوچکتر و قابل کنترل تر تجزیه می شود. تصور کنید که یک دستور غذای طولانی را به بخش های کوچکتر (بدون حفظ ترتیب آنها) تقسیم کنید تا بتوانید راحت تر آنها را بخوانید.

🟠 تکثیر (گاهی اوقات): گاهی اوقات، مقدار DNA از طریق فرآیندی به نام PCR (واکنش زنجیره ای پلیمراز) افزایش می یابد تا اطمینان حاصل شود که مواد کافی برای توالی یابی وجود دارد. این مانند ساختن چندین کپی از دستور غذاست.

🟠 واکنش توالی یابی: این مرحله اصلی است که در آن ترتیب پایه های A، T، C و G برای هر قطعه تعیین می شود. فن‌آوری‌های مختلف از روش‌های مختلفی برای این کار استفاده می‌کنند، که اغلب شامل سنتز یک رشته مکمل و تشخیص اینکه کدام پایه در هر مرحله اضافه می‌شود.

🟠 تجزیه و تحلیل داده ها: در نهایت، داده های توالی یابی خام با استفاده از ابزارهای بیوانفورماتیک پردازش می شوند تا قطعات را دوباره کنار هم جمع کنند و نتایج را تفسیر کنند. این مانند این است که بخش های جدا شده دستور پخت خود را دوباره کنار هم قرار دهید و دستورالعمل کامل را درک کنید.


امروزه در بین روش های توالی یابی DNA دو روش دارای کاربرد بالایی هستند :

سنگر و NGS
👍1
توالی‌یابی سنگر: «نسل اول»


توالی‌یابی سنگر که در دهه ۱۹۷۰ توسعه یافت، سال‌ها محور اصلی توالی‌یابی DNA بود و هنوز هم برای کاربردهای خاص استفاده می‌شود. در اینجا یک مرور کلی ساده از مراحل آن آمده است:

🔸 آماده‌سازی الگوی DNA: یک قطعه DNA که می‌خواهید توالی‌یابی کنید، جدا می‌شود.

🔸 تکثیر با کمک PCR (گاهی): اگر مقدار DNA اولیه کم باشد، ممکن است از PCR برای ساخت کپی‌های بیشتر از قطعه هدف استفاده شود.

🔸 واکنش توالی‌یابی: این هسته اصلی توالی‌یابی سنگر است. این شامل مخلوط کردن موارد زیر است:

🔻الگوی DNA
🔻یک پرایمر DNA (یک قطعه کوتاه از DNA که سنتز را آغاز می‌کند)
🔻 آنزیم DNA پلیمراز (آنزیمی که رشته‌های DNA جدید را می‌سازد)
🔻دئوکسی نوکلئوتیدهای طبیعی (dNTPs ) از A، T، C، G که بلوک‌های سازنده DNA هستند.
🔻 دی‌دئوکسی نوکلئوتیدها (ddNTPs: ddATP، ddTTP، ddCTP، ddGTP) : اینها نوکلئوتیدهای اصلاح‌شده ویژه‌ای هستند که وقتی در یک رشته DNA در حال رشد قرار می‌گیرند، سنتز را متوقف می‌کنند. هر ddNTP با یک رنگ فلورسنت متفاوت برچسب‌گذاری می‌شود.

🔸 خاتمه زنجیره: همانطور که DNA پلیمراز رشته‌های جدیدی می‌سازد، به طور تصادفی یک dNTP طبیعی یا یک ddNTP را در خود جای می‌دهد. اگر یک ddNTP را در خود جای دهد، طویل شدن رشته در آن نقطه متوقف می‌شود. این منجر به مجموعه‌ای از قطعات DNA با طول‌های مختلف می‌شود که هر کدام با یک ddNTP با برچسب فلورسنت به پایان می‌رسند.

🔸 جداسازی براساس اندازه با کمک الکتروفورز مویرگی یا Capillary Electrophoresis: سپس این قطعات بر اساس اندازه‌شان با استفاده از تکنیکی به نام الکتروفورز مویرگی از هم جدا می‌شوند. قطعات کوتاه‌تر سریع‌تر از قطعات بلندتر از مویرگ عبور می‌کنند.

🔸 تشخیص: با عبور قطعات از آشکارساز، لیزر برچسب‌های فلورسنت را تحریک می‌کند و رنگ خوانده می‌شود. از آنجایی که هر رنگ مربوط به یک باز خاص (A، T، C یا G) است، توالی قطعه DNA اصلی را می‌توان با ترتیب رنگ‌ها بر اساس اندازه عبور قطعات تعیین کرد.
NGS : Next-Generation Sequencing

مجموعه از فناوری‌ها است که سرعت توالی‌یابی DNA و RNA را در مقایسه با روش‌های قدیمی‌تر مانند توالی‌یابی سنگر، به طرز چشمگیری افزایش داده و هزینه آن را کاهش داده است. اگر توالی‌یابی سنتی سنگر را مانند خواندن یک کتاب با دقت بسیار زیادِ یک صفحه در هر لحظه تصور کنیم، NGS مانند در اختیارگرفتن یک کتابخانه کامل از کتاب‌ها، تجزیه همه آنها به جملات جداگانه و سپس داشتن یک سیستم فوق سریع است که همه آن جملات را همزمان می‌خواند و سپس آنها را دوباره به هم متصل می‌کند.

در بین روش های کنونی NGS برای DNA، روش های زیر کاربرد تجاری بسیار بالایی دارند که مفصل به اولی خواهم پرداخت:

🔹توالی‌یابی از طریق سنتز (SBS - Illumina): نوکلئوتیدهای نشاندار شده با فلورسنت، یکی یکی به یک رشته DNA در حال رشد اضافه می‌شوند و یک دوربین ثبت می‌کند که کدام باز در هر مرحله اضافه می‌شود.

🔹توالی‌یابی تورنت یونی: این روش، آزادسازی یون‌های هیدروژن را هنگامی که یک نوکلئوتید در یک رشته DNA در حال رشد قرار می‌گیرد، تشخیص می‌دهد. این روش تغییر pH را اندازه‌گیری می‌کند.

🔹تک مولکول بلادرنگ (SMRT - PacBio): این روش، مولکول‌های DNA تکی را در زمان واقعی توالی‌یابی می‌کند و ترکیب نوکلئوتیدهای نشاندار شده با فلورسنت را مشاهده می‌کند. این روش می‌تواند خوانش‌های بسیار طولانی‌تری نسبت به سایر روش‌های NGS ایجاد کند.

🔹 توالی‌یابی نانوحفره: این روش شامل عبور یک رشته DNA از یک منفذ کوچک در یک غشاء و اندازه‌گیری تغییر جریان الکتریکی هنگام عبور هر باز است. این روش همچنین امکان خوانش‌های بسیار طولانی را فراهم می‌کند.

توالی یابی Illumina :


فناوری اصلی به کاررفته دراین توالی بایی، توالی‌یابی از طریق سنتز (SBS) نام دارد و پروتکل آن شامل موارد زیر است:

🔹 آماده‌سازی کتابخانه: همانطور که بحث کردیم، DNA قطعه قطعه می‌شود و توالی‌های آداپتور ویژه به هر دو انتهای قطعات اضافه می‌شوند. این آداپتورها به قطعات اجازه می‌دهند تا به سطح یک سلول جریان متصل شوند.

🔹 تکثیر به شیوه پل زدن: flow cell یک اسلاید شیشه‌ای است که با الیگونوکلئوتیدها (توالی‌های کوتاه DNA) که مکمل آداپتورها هستند، پوشانده شده است. قطعات DNA به این الیگوها متصل می‌شوند. سپس، فرآیندی به نام تکثیر به شیوه پل زدن رخ می‌دهد، که در آن قطعات متصل شده خم می‌شوند و به الیگوهای نزدیک روی سطح متصل می‌شوند و یک پل تشکیل می‌دهند. سپس این پل تکثیر می‌شود و خوشه‌هایی از مولکول‌های DNA یکسان را در مجاورت هم ایجاد می‌کند.

🔹 توالی‌یابی از طریق سنتز: اکنون بخش "خواندن" فرا می‌رسد. نوکلئوتیدهای دارای برچسب فلورسنت (A، T، C و G) با پایان دهنده های برگشت‌پذیر در مجاورت flow cell ها قرار میگیرند. آنزیم پلیمراز هر بار یک نوکلئوتید را به رشته DNA در حال رشد اضافه می‌کند. هر نوکلئوتید یک برچسب فلورسنت منحصر به فرد دارد. پس از هر اتصال، یک لیزر برچسب فلورسنت را تحریک می‌کند و یک دوربین رنگ را ثبت می‌کند و بدین ترتیب مشخص می‌شود که کدام باز اضافه شده است.مهمترین نکته این است که پایان دهنده روی هر نوکلئوتید از اضافه شدن باز بعدی تا زمانی که به صورت شیمیایی حذف شود، جلوگیری می‌کند. این سبب می شود که فقط یک باز در هر زمان اضافه و خوانده شود. پس از تصویربرداری، برچسب فلورسنت و پایانه جدا می‌شوند و اجازه می‌دهند چرخه بعدی اضافه شدن نوکلئوتید آغاز شود. این چرخه بارها و بارها، پایه به پایه، تکرار می‌شود تا توالی هر قطعه DNA در خوشه‌ها تعیین شود.

🔹 تجزیه و تحلیل داده‌ها: در نهایت، میلیون‌ها خوانش توالی کوتاه تولید شده با یک ژنوم مرجع هم‌تراز می‌شوند و تغییرات شناسایی می‌شوند.

برای مشاهده تفاوت های سنگر و Illumina بخش نظرات را ببینید.
👍1
Audio
DNA sequencing at 40: past, present and future


این مقاله مروری بر تاریخچه، وضعیت کنونی و آینده توالی‌یابی DNA ارائه می‌دهد. این حوزه در طول چند دهه شاهد چندین تغییر پارادایم مهم در فناوری بوده است : از روش‌های اولیه توالی‌یابی بیوپلیمرها و توسعه روش‌های الکتروفورتیکی برای DNA مانند روش‌های سنگر و ماکسام-گیلبرت، این فناوری به مقیاس پروژه ژنوم انسان ارتقا یافت. ظهور نسل دومNGS، با معرفی مولتی‌پلکسینگ گسترده و کاهش چشمگیر هزینه‌ها، انقلابی در این زمینه ایجاد کرد. اخیراً، نسل سوم،NGS، توالی‌یابی در زمان واقعی و تک‌مولکولی، با قابلیت خوانش‌های بسیار طولانی و تشخیص مستقیم اصلاحات بومی DNA پدیدار شده است. کاربردهای توالی‌یابی DNA نیز به‌طور چشمگیری گسترش یافته و اکنون شامل مونتاژ ژنوم از ابتدا (de novo genome assembly)، توالی‌یابی مجدد ژنوم افراد، کاربردهای بالینی (مانند NIPT و تشخیص بیماری‌ها)، و استفاده از توالی‌یاب‌ها به عنوان دستگاه‌های شمارش مولکولی برای مطالعه پدیده‌های مختلف بیوشیمیایی و مولکولی می‌شود.
4
📣 سلام و احترام

اگر تازه عضو کانال شده اید:

⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید

⬅️ فهرست مطالب تا کنون هم اینجاست.

✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.

امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.

در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.

جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.

آدرس کانال هم مجدد:

https://t.me/BFE_pod
👍3👏3