آشنایی با احتمالات و توزیعهای آماری 2 :
توزیع های آماری :
مهم ترین مفهوم مرتبط با احتمال، توزیعهای آماری هستند. یک توزیع آماری نشان میدهد که چگونه مقادیر یک متغیر تصادفی (مانند قد افراد در یک جمعیت یا تعداد جهشها در یک ژن) در یک محدوده مشخص پخش شدهاند. در بیوانفورماتیک، برخی از توزیعهای آماری بسیار رایج هستند، از جمله:
• توزیع نرمال (Normal Distribution): یک توزیع متقارن و bell-shaped که که به آن توزیع گاوسی یا زنگولهای هم میگویند و یکی از رایجترین توزیعها در طبیعت است. بسیاری از صفات کمی مانند قد، وزن، و سطح بیان بسیاری از ژنها در یک جمعیت بزرگ، تقریباً از توزیع نرمال پیروی میکنند.
مثال زیستی: تصور کنید سطح بیان یک ژن خاص را در تعداد زیادی سلول اندازهگیری کردهاید. اگر این سطح بیان تحت تأثیر عوامل زیادی با اثرات کوچک و مستقل باشد، احتمالاً توزیع مقادیر به دست آمده شبیه به یک توزیع نرمال خواهد بود. بیشتر سلولها سطح بیان متوسطی خواهند داشت و تعداد کمی از سلولها سطح بیان بسیار بالا یا بسیار پایینی نشان خواهند داد.
• توزیع دوجملهای (Binomial Distribution): برای مدلسازی تعداد موفقیتها در یک تعداد ثابت از آزمایشهای مستقل با احتمال موفقیت ثابت استفاده میشود (مثلاً تعداد دفعاتی که یک جهش خاص در یک گروه از افراد رخ میدهد).هر آزمایش فقط دو نتیجه ممکن دارد (موفقیت یا شکست).
مثال زیستی: فرض کنید در حال مطالعه یک جمعیت از باکتریها هستید و میدانید که احتمال وقوع یک جهش خاص در هر باکتری در طول یک دوره زمانی مشخص 0.01 است. اگر شما 100 باکتری را بررسی کنید، توزیع دوجملهای به شما کمک میکند تا احتمال مشاهده 0، 1، 2، ... یا 100 باکتری دارای این جهش را محاسبه کنید.
• توزیع پواسون (Poisson Distribution): این توزیع برای مدلسازی تعداد رویدادهایی که در یک بازه زمانی یا مکانی مشخص رخ میدهند، زمانی که این رویدادها به طور مستقل و با یک نرخ متوسط ثابت اتفاق میافتند، استفاده میشود.
مثال زیستی: تصور کنید در حال بررسی تعداد جهشهایی هستید که در یک ژن خاص در طول یک نسل رخ میدهند. اگر نرخ متوسط جهش در این ژن مشخص باشد، توزیع پواسون به شما کمک میکند تا احتمال مشاهده 0، 1، 2، یا تعداد بیشتری جهش در آن ژن را تخمین بزنید.
👍1
آشنایی با بیوانفورماتیک:
در این بخش، ما به طور خاص به این خواهیم پرداخت که چگونه مفاهیمی که یاد گرفتیم در عمل برای تحلیل دادههای زیستی به کار میروند.
پایگاههای دادههای زیستی:
اولین قدم در این بخش، معرفی پایگاههای دادههای زیستی است. حجم عظیمی از دادههای زیستی در سراسر جهان تولید میشود و این دادهها در پایگاههای دادههای تخصصی ذخیره و سازماندهی میشوند تا برای محققان در دسترس باشند. از مهمترین این پایگاههای داده NCBI و EMBL-EBI هستند . این پایگاههای داده منابع بسیار ارزشمندی برای محققان بیوانفورماتیک هستند. آنها به ما امکان میدهند تا توالیهای ژنتیکی و پروتئینی را جستجو کنیم، اطلاعات مربوط به ژنها و پروتئینها را پیدا کنیم، مقالات علمی مرتبط را مرور کنیم و دادههای خام آزمایشها را دانلود کنیم. آشنایی با هر دو پایگاه داده NCBI و EMBL-EBI بسیار مفید است، زیرا هر کدام مجموعههای داده و ابزارهای منحصربهفردی را ارائه میدهند.
NCBI (National Center for Biotechnology Information):
یک منبع جامع که پایگاههای دادههای مختلفی از جمله GenBank (توالیهای ژنتیکی)، PubMed (مقالات علمی زیستپزشکی) و GEO (آرایههای ژنی و دادههای میکرواری) را در خود جای داده است.
• پایگاههای داده کلیدی:
GenBank:
یک پایگاه داده بزرگ از توالیهای نوکلئوتیدی (DNA و RNA). شما میتوانید توالیهای ژنی، ژنومهای کامل و سایر اطلاعات توالی را در اینجا پیدا کنید.
PubMed:
یک موتور جستجو برای مقالات علمی در زمینه زیستپزشکی و علوم مرتبط. این شامل میلیونها مقاله منتشر شده است.
GEO (Gene Expression Omnibus):
یک مخزن دادههای بیان ژن که از آرایههای ژنی و تعیین توالی RNA (RNA-Seq) به دست آمدهاند.
BLAST (Basic Local Alignment Search Tool):
ابزاری برای یافتن توالیهای مشابه در پایگاههای داده توالی. ما بعداً به طور مفصل در مورد BLAST صحبت خواهیم کرد.
Entrez:
یک سیستم جستجو و بازیابی یکپارچه که به شما امکان میدهد در تمام پایگاههای داده NCBI جستجو کنید.
EMBL-EBI (European Molecular Biology Laboratory - European Bioinformatics Institute)
• مرکز اروپایی: EMBL-EBI مرکز اصلی برای دادههای بیولوژیکی معادل NCBI در اروپا است و همکاریهای بینالمللی گستردهای دارد.
• پایگاههای داده کلیدی:
ENA (European Nucleotide Archive):
مشابه GenBank، این پایگاه داده توالیهای نوکلئوتیدی را ذخیره میکند.
UniProt:
یک پایگاه داده جامع و با کیفیت بالا از اطلاعات پروتئینی، شامل توالیها، ساختارها و عملکردهای پروتئینها.
ArrayExpress:
مشابه GEO، این پایگاه داده دادههای بیان ژن را نگهداری میکند.
Ensembl:
یک پایگاه داده ژنومی که ژنومهای یوکاریوتی را حاشیهنویسی و تحلیل میکند. این شامل اطلاعاتی در مورد ساختار ژن، رونوشتها و تغییرات ژنتیکی است.
InterPro:
یک پایگاه داده از خانوادههای پروتئینی، دامنهها و سایتهای عملکردی.
هر دو پایگاه داده NCBI و EMBL-EBI اطلاعات بسیار ارزشمندی را ارائه میدهند و اغلب مکمل یکدیگر هستند. برای مثال، یک توالی ژنی ممکن است در GenBank (NCBI) یافت شود، در حالی که اطلاعات دقیقتر در مورد پروتئین حاصل از آن ممکن است در UniProt (EMBL-EBI) موجود باشد.
BLAST (Basic Local Alignment Search Tool)
بلاست یک الگوریتم و یک مجموعه برنامه است که برای یافتن نواحی مشابه بین توالیهای بیولوژیکی (مانند توالیهای DNA، RNA یا پروتئین) استفاده میشود. اساس کار BLAST مقایسه یک توالی ورودی (query sequence) با توالیهای موجود در یک پایگاه داده بزرگ است تا توالیهایی را پیدا کند که شباهت قابل توجهی با توالی ورودی دارند. حال چرا BLAST اینقدر مهم است؟
•شناسایی توالیهای جدید: وقتی یک توالی جدید به دست میآوریم (مثلاً از طریق تعیین توالی DNA)، میتوانیم از BLAST برای جستجو در پایگاههای داده استفاده کنیم و ببینیم آیا توالیهای مشابهی قبلاً شناسایی شدهاند یا خیر. این میتواند به ما در تعیین عملکرد احتمالی توالی جدید کمک کند.
•یافتن ژنهای همولوگ: همولوگها ژنهایی در گونههای مختلف هستند که از یک ژن اجدادی مشترک مشتق شدهاند و اغلب عملکردهای مشابهی دارند. BLAST به ما کمک میکند تا ژنهای همولوگ را در ارگانیسمهای مختلف پیدا کنیم.
•بررسی پایگاههای داده: BLAST یک راه قدرتمند برای جستجو در حجم وسیع دادههای موجود در پایگاههای دادههای زیستی است. تصور کنید شما یک قطعه DNA با توالی ناشناخته دارید. با وارد کردن این توالی به عنوان query در وبسایت NCBI BLAST، این ابزار توالی شما را با میلیونها توالی موجود در پایگاه داده GenBank مقایسه میکند و لیستی از توالیهای مشابه را به همراه میزان شباهت آنها به شما نشان میدهد.
نحوه کار با BLAST
1.ورود توالی (Query): شما ابتدا توالی بیولوژیکی مورد نظر خود (DNA، RNA یا پروتئین) را در فرم جستجوی BLAST در وبسایت NCBI یا EMBL-EBI وارد میکنید. میتوانید توالی را مستقیماً تایپ کنید یا آن را از یک فایل آپلود کنید.
2.انتخاب پایگاه داده: شما باید پایگاه دادهای را انتخاب کنید که میخواهید توالی شما در آن جستجو شود. بسته به نوع توالی ورودی شما (مثلاً DNA) و هدف جستجو (مثلاً یافتن ژنهای مشابه در انسان یا در تمام موجودات)، پایگاه دادههای مختلفی وجود دارد (مانند GenBank برای توالیهای نوکلئوتیدی، UniProtKB/Swiss-Prot برای توالیهای پروتئینی).
3.انتخاب الگوریتم: BLAST چندین الگوریتم مختلف دارد که برای انواع مختلف جستجو بهینه شدهاند (مانند blastn برای جستجوی نوکلئوتید در نوکلئوتید، blastp برای جستجوی پروتئین در پروتئین، blastx برای ترجمه توالی نوکلئوتیدی ورودی به پروتئین و جستجو در پایگاه داده پروتئین). معمولاً BLAST به طور خودکار بهترین الگوریتم را بر اساس نوع توالی ورودی شما پیشنهاد میدهد.
4.تنظیم پارامترها (اختیاری): شما میتوانید پارامترهای مختلفی را برای تنظیم حساسیت و سرعت جستجو تغییر دهید (مانند مقدار E-value که در ادامه توضیح خواهیم داد).
5.اجرای جستجو: پس از وارد کردن توالی و انتخاب پایگاه داده و الگوریتم، روی دکمه "BLAST" کلیک میکنید تا جستجو آغاز شود.
تفسیر خروجی BLAST
خروجی BLAST معمولاً شامل بخشهای زیر است:
1.توضیح (Description): این بخش لیستی از توالیهای موجود در پایگاه داده را نشان میدهد که با توالی ورودی شما همتایی دارند. برای هر همتایی، اطلاعاتی مانند نام توالی، نام ارگانیسم و میزان همتایی (Score و E-value) ارائه میشود. معمولاً نتایج بر اساس E-value مرتب میشوند (از کمترین به بیشترین).
2.همتاییها (Alignments): این بخش همتاییهای دقیق بین توالی ورودی شما و توالیهای همتا در پایگاه داده را نشان میدهد. در اینجا، نواحی مشابه با خطوط و حروف یکسان مشخص میشوند. میزان همتایی معمولاً به صورت درصد هویت (Percent Identity) نشان داده میشود (درصد نوکلئوتیدها یا آمینو اسیدهای یکسان در طول همتایی).
3.امتیاز (Score) :یک مقدار عددی است که نشاندهنده میزان شباهت بین توالی ورودی و توالی همتا است. امتیازهای بالاتر نشاندهنده شباهت بیشتر هستند.
4. مقدارEیا E-value : مهمترین معیار برای ارزیابی معنیدار بودن یک همتایی است. E-value نشان میدهد که انتظار میرود چند همتایی با امتیازی برابر یا بهتر از همتایی مشاهده شده، به طور تصادفی در جستجو در پایگاه داده با آن اندازه رخ دهد. E-valueهای نزدیک به صفر نشاندهنده همتاییهای بسیار معنیدار هستند که احتمال تصادفی بودن آنها بسیار کم است. به طور معمول، E-value کمتر از 0.001 به عنوان یک همتایی معنیدار در نظر گرفته میشود.
4.درصد هویت (Percent Identity): درصد نوکلئوتیدها یا آمینو اسیدهایی که در طول همتایی دقیقاً یکسان هستند. درصد هویت بالا نیز نشاندهنده شباهت زیاد است.
در عمل، وقتی شما یک توالی جدید را BLAST میکنید، به دنبال همتاییهایی با E-value بسیار پایین و درصد هویت بالا میگردید. این نشان میدهد که توالی شما احتمالاً با یک توالی شناخته شده در پایگاه داده ارتباط تکاملی دارد یا عملکرد مشابهی دارد.
بسیار خب، فرض کنید شما یک توالی DNA ناشناخته را به عنوان query در NCBI BLAST وارد کردهاید و نتایج زیر به دست آمده است (این یک مثال ساده و فرضی است):
🟩 همتاییها (Alignments) در جدول:
برای اولین همتایی (human protein)
در این مثال بخش Descriptions لیستی از توالیهای موجود در پایگاه داده را نشان میدهد که با توالی ورودی شما همتایی دارند. هر سطر اطلاعات مربوط به یک همتایی را ارائه میدهد.
🔺شرح توالی (Description) یک توضیح مختصر از توالی همتا را نشان میدهد (در اینجا، یک پروتئین فرضی در انسان و پروتئین p53 در شامپانزه و میمون).
🔺 ارگانیسم (Organism) نام موجودی را نشان میدهد که توالی همتا از آن به دست آمده است.
🔺 درصد هویت (Ident) نشان میدهد که چند درصد از نوکلئوتیدها در طول همتایی بین توالی ورودی و توالی همتا یکسان هستند. درصد هویت بالا نشاندهنده شباهت زیاد است.
🔺 طول همتایی (Length) طول ناحیهای از توالی ورودی است که با توالی همتا همتایی دارد.
🔺 E-value
بسیار کوچک است (نزدیک به صفر)، که نشان میدهد این همتاییها بسیار معنیدار هستند و احتمال تصادفی بودن آنها بسیار کم است. E-valueهای کوچکتر به معنای معنیدارتر بودن همتایی هستند.
🔺 امتیاز (Score) نیز بالا است، که نشاندهنده شباهت زیاد است.
🟩 تصویر همتایی
🔺 بخش Alignments همتایی دقیق بین توالی ورودی (Query) و توالی همتا (Sbjct - Subject) را نشان میدهد. خطوط عمودی (|) نشاندهنده نوکلئوتیدهای یکسان در موقعیت مربوطه هستند.
در این مثال فرضی، توالی ورودی شما شباهت بسیار زیادی به یک پروتئین فرضی در انسان و همچنین پروتئین p53 (یک پروتئین مهم در جلوگیری از سرطان) در شامپانزه و میمون دارد، که با E-valueهای بسیار پایین و درصد هویت بالا نشان داده شده است. این میتواند نشان دهد که توالی ورودی شما ممکن است یک ژن همولوگ با p53 باشد.
برای اولین همتایی (human protein)
در این مثال بخش Descriptions لیستی از توالیهای موجود در پایگاه داده را نشان میدهد که با توالی ورودی شما همتایی دارند. هر سطر اطلاعات مربوط به یک همتایی را ارائه میدهد.
🔺شرح توالی (Description) یک توضیح مختصر از توالی همتا را نشان میدهد (در اینجا، یک پروتئین فرضی در انسان و پروتئین p53 در شامپانزه و میمون).
🔺 ارگانیسم (Organism) نام موجودی را نشان میدهد که توالی همتا از آن به دست آمده است.
🔺 درصد هویت (Ident) نشان میدهد که چند درصد از نوکلئوتیدها در طول همتایی بین توالی ورودی و توالی همتا یکسان هستند. درصد هویت بالا نشاندهنده شباهت زیاد است.
🔺 طول همتایی (Length) طول ناحیهای از توالی ورودی است که با توالی همتا همتایی دارد.
🔺 E-value
بسیار کوچک است (نزدیک به صفر)، که نشان میدهد این همتاییها بسیار معنیدار هستند و احتمال تصادفی بودن آنها بسیار کم است. E-valueهای کوچکتر به معنای معنیدارتر بودن همتایی هستند.
🔺 امتیاز (Score) نیز بالا است، که نشاندهنده شباهت زیاد است.
🟩 تصویر همتایی
🔺 بخش Alignments همتایی دقیق بین توالی ورودی (Query) و توالی همتا (Sbjct - Subject) را نشان میدهد. خطوط عمودی (|) نشاندهنده نوکلئوتیدهای یکسان در موقعیت مربوطه هستند.
در این مثال فرضی، توالی ورودی شما شباهت بسیار زیادی به یک پروتئین فرضی در انسان و همچنین پروتئین p53 (یک پروتئین مهم در جلوگیری از سرطان) در شامپانزه و میمون دارد، که با E-valueهای بسیار پایین و درصد هویت بالا نشان داده شده است. این میتواند نشان دهد که توالی ورودی شما ممکن است یک ژن همولوگ با p53 باشد.
کاربردهای بیوانفورماتیک در زمینههای مختلف:
بیوانفورماتیک یک حوزه بسیار گسترده است و در زمینههای متنوعی از علوم زیستی و پزشکی کاربرد دارد. در اینجا به برخی از مهمترین آنها اشاره میکنیم:
🟠 ژنومیکس (Genomics): ژنومیکس به مطالعهی کامل مواد ژنتیکی یک موجود زنده، یعنی ژنوم آن، میپردازد. ژنوم شامل تمام DNA (یا RNA در برخی ویروسها) است که حاوی تمام ژنها و همچنین نواحی غیرکدکننده است. بیوانفورماتیک در این حوزه نقشهای متعددی ایفا میکند:
🔶 تعیین توالی ژنوم (Genome Sequencing): تکنیکهای پیشرفته تعیین توالی نسل بعد (Next-Generation Sequencing - NGS) حجم عظیمی از دادههای توالی DNA را تولید میکنند. الگوریتمهای بیوانفورماتیکی برای مونتاژ این قطعات کوتاه توالی به یک توالی ژنوم کامل استفاده میشوند.
🔶 حاشیهنویسی ژنوم (Genome Annotation): پس از تعیین توالی ژنوم، باید محل ژنها، عناصر تنظیمی و سایر ویژگیهای عملکردی در آن شناسایی شوند. ابزارهای بیوانفورماتیکی با استفاده از الگوریتمهای پیشبینی ژن و مقایسه با پایگاههای دادههای توالی شناختهشده، این اطلاعات را استخراج میکنند.
🔶 تحلیل تغییرات ژنتیکی (Variant Analysis): مقایسه ژنومهای افراد مختلف به شناسایی تغییرات ژنتیکی مانند تکنوکلئوتیدی چندشکلیها (SNPs)، حذفها و درجها (indels) و تغییرات ساختاری منجر میشود. بیوانفورماتیک ابزارهایی برای شناسایی، فیلتر و تفسیر این تغییرات، به ویژه در ارتباط با بیماریها، فراهم میکند.
🔶 ژنومیکس مقایسهای (Comparative Genomics): مقایسه ژنومهای گونههای مختلف به درک روابط تکاملی، شناسایی ژنهای محافظتشده و درک تنوع ژنتیکی کمک میکند.
🔶 متاژنومیکس (Metagenomics): تحلیل مواد ژنتیکی به دست آمده مستقیماً از نمونههای محیطی (بدون کشت موجودات) به شناسایی و مطالعه جوامع میکروبی پیچیده کمک میکند.
🟠 پروتئومیکس (Proteomics): پروتئومیکس به مطالعهی مجموعهی کامل پروتئینهای بیان شده توسط یک سلول، بافت یا ارگانیسم در یک زمان خاص میپردازد. بیوانفورماتیک در این حوزه به موارد زیر کمک میکند:
•شناسایی پروتئین (Protein Identification): تکنیکهایی مانند طیفسنجی جرمی (Mass Spectrometry) پپتیدهای حاصل از تجزیه پروتئینها را شناسایی میکنند. الگوریتمهای بیوانفورماتیکی این دادهها را با پایگاههای دادههای توالی پروتئین مقایسه کرده و پروتئینهای موجود در نمونه را شناسایی میکنند.
•تعیین ساختار پروتئین (Protein Structure Prediction): پیشبینی ساختار سهبعدی پروتئینها از توالی آمینو اسید آنها یک چالش بزرگ است. روشهای بیوانفورماتیکی از جمله مدلسازی همولوژی، پیشبینی ساختار ab initio و روشهای یادگیری ماشین برای تخمین ساختار پروتئینها استفاده میشوند.
•تحلیل عملکرد پروتئین (Protein Function Analysis): بیوانفورماتیک ابزارهایی برای پیشبینی عملکرد پروتئینها بر اساس توالی و ساختار آنها، شناسایی دامنههای عملکردی و پیشبینی سایتهای اتصال به لیگاند فراهم میکند.
•مطالعه تعاملات پروتئین-پروتئین (Protein-Protein Interaction Studies): روشهای محاسباتی برای پیشبینی و مدلسازی چگونگی تعامل پروتئینها با یکدیگر و تشکیل شبکههای پیچیده در سلول استفاده میشوند.
•تحلیل بیان پروتئین (Protein Expression Analysis): تحلیل دادههای کمی به دست آمده از تکنیکهایی مانند طیفسنجی جرمی کمی به تعیین میزان بیان پروتئینها در شرایط مختلف کمک میکند.
🟠 ترانسکریپتومیکس (Transcriptomics): ترانسکریپتومیکس به مطالعهی مجموعهی کامل مولکولهای RNA، یعنی ترانسکریپتوم، در یک سلول یا بافت میپردازد. نقش بیوانفورماتیک در این حوزه عبارت است از:
🔶 تحلیل RNA-Seq: دادههای حاصل از تعیین توالی RNA برای تعیین سطح بیان ژنها، شناسایی ایزوفرمهای مختلف RNA و کشف رونوشتهای جدید استفاده میشوند. پایپلاینهای بیوانفورماتیکی مراحل مختلفی از جمله تراز کردن توالیها با ژنوم، تعیین کمیت بیان ژن و انجام تحلیلهای آماری برای شناسایی ژنهای با بیان متفاوت را شامل میشوند.
🔶 تحلیل میکروآرایه (Microarray Analysis): اگرچه RNA-Seq روش غالب است، اما تحلیل دادههای میکروآرایه (برای اندازهگیری سطح بیان ژن) همچنان در برخی موارد کاربرد دارد و نیازمند روشهای بیوانفورماتیکی برای نرمالسازی، تحلیل آماری و شناسایی ژنهای با بیان متفاوت است.
🔶 مطالعه RNAهای غیرکدکننده (Non-coding RNA Analysis): بیوانفورماتیک در شناسایی، حاشیهنویسی و تعیین عملکرد RNAهای غیرکدکننده مانند میکروRNAها و RNAهای طویل غیرکدکننده نقش دارد.
🔶 تحلیل Single-cell RNA-seq (scRNA-seq) : یک تکنیک پیشرفته است که به محققان اجازه میدهد تا سطح بیان ژن را در تک تک سلولها اندازهگیری کنند. این تکنیک در مقایسه با RNA-seq سنتی که سطح بیان را به صورت میانگین برای یک جمعیت از سلولها اندازهگیری میکند، دیدگاه بسیار دقیقتری از تنوع سلولی ارائه میدهد. با استفاده از روشهای بیوانفورماتیکی، دادههای scRNA-seq برای موارد زیر تحلیل میشوند :
🔸شناسایی انواع سلول: با گروهبندی سلولها بر اساس الگوهای بیان ژن مشابه، میتوان انواع سلولی مختلف موجود در یک نمونه پیچیده (مانند یک تومور یا یک بافت) را شناسایی کرد.
🔸 مطالعه تمایز سلولی: با بررسی تغییرات بیان ژن در طول زمان، میتوان مسیرهای تمایز سلولی را درک کرد.
🔸 شناسایی جمعیتهای سلولی نادر: scRNA-seq میتواند به شناسایی انواع سلولی کمیاب که ممکن است در تحلیلهای bulk RNA-seq پنهان بمانند، کمک کند.
🔸بررسی ناهمگونی تومور: در سرطانشناسی، scRNA-seq برای بررسی تنوع سلولی درون تومورها و شناسایی زیرجمعیتهای سلولی مختلف که ممکن است به درمانهای مختلف پاسخ متفاوتی دهند، استفاده میشود.
🟠 متابولومیکس (Metabolomics): متابولومیکس به مطالعهی مجموعهی کامل متابولیتهای کوچک در یک سیستم بیولوژیکی میپردازد. بیوانفورماتیک در این حوزه به موارد زیر کمک میکند:
🔶 شناسایی متابولیت (Metabolite Identification): دادههای حاصل از تکنیکهایی مانند طیفسنجی جرمی و NMR با پایگاههای دادههای متابولیت مقایسه میشوند تا متابولیتهای موجود در نمونه شناسایی شوند.
🔶 تعیین کمیت متابولیت (Metabolite Quantification): روشهای بیوانفورماتیکی برای تعیین غلظت متابولیتهای شناسایی شده استفاده میشوند.
🔶 تحلیل مسیر متابولیکی (Metabolic Pathway Analysis): دادههای متابولومیکس با پایگاههای دادههای مسیرهای متابولیکی ادغام میشوند تا تغییرات در شبکههای متابولیکی در شرایط مختلف بررسی شوند.
🟠بیولوژی سیستمها (Systems Biology): بیولوژی سیستمها به درک سیستمهای بیولوژیکی به عنوان شبکههای پیچیده از تعاملات میپردازد. بیوانفورماتیک در این حوزه نقش اساسی در موارد زیر دارد:
🔶 مدلسازی شبکه (Network Modeling): ساخت مدلهای ریاضی از شبکههای بیولوژیکی (مانند شبکههای تنظیم ژن، شبکههای سیگنالینگ و شبکههای متابولیکی) بر اساس دادههای تجربی.
🔶 شبیهسازی سیستم (System Simulation): استفاده از مدلهای ساخته شده برای شبیهسازی رفتار سیستم در شرایط مختلف و پیشبینی پاسخها به تغییرات.
🔶 تحلیل شبکه (Network Analysis): استفاده از نظریه گراف برای تحلیل خواص شبکهها و شناسایی اجزای کلیدی.
🟠 داروشناسی محاسباتی (Computational Pharmacology): بیوانفورماتیک در فرآیند کشف و توسعه دارو نقش مهمی ایفا میکند:
🔶 شناسایی هدف دارویی (Drug Target Identification): تحلیل دادههای ژنومیکس، پروتئومیکس و ترانسکریپتومیکس برای شناسایی مولکولهایی (معمولاً پروتئینها) که در بیماریها نقش دارند و میتوانند هدف دارو باشند.
🔶 غربالگری مجازی (Virtual Screening): استفاده از مدلهای ساختار سهبعدی پروتئینها برای پیشبینی اینکه کدام مولکولهای کوچک (داروها) احتمالاً به هدف متصل میشوند.
🔶 طراحی دارو (Drug Design): استفاده از روشهای محاسباتی برای طراحی مولکولهای جدید با خواص دارویی مطلوب.
🔶 فارماکوژنومیکس (Pharmacogenomics): مطالعهی چگونگی تأثیر تغییرات ژنتیکی افراد بر پاسخ آنها به داروها، با هدف توسعه داروهای شخصیسازیشده.
🔶 تحلیل RNA-Seq: دادههای حاصل از تعیین توالی RNA برای تعیین سطح بیان ژنها، شناسایی ایزوفرمهای مختلف RNA و کشف رونوشتهای جدید استفاده میشوند. پایپلاینهای بیوانفورماتیکی مراحل مختلفی از جمله تراز کردن توالیها با ژنوم، تعیین کمیت بیان ژن و انجام تحلیلهای آماری برای شناسایی ژنهای با بیان متفاوت را شامل میشوند.
🔶 تحلیل میکروآرایه (Microarray Analysis): اگرچه RNA-Seq روش غالب است، اما تحلیل دادههای میکروآرایه (برای اندازهگیری سطح بیان ژن) همچنان در برخی موارد کاربرد دارد و نیازمند روشهای بیوانفورماتیکی برای نرمالسازی، تحلیل آماری و شناسایی ژنهای با بیان متفاوت است.
🔶 مطالعه RNAهای غیرکدکننده (Non-coding RNA Analysis): بیوانفورماتیک در شناسایی، حاشیهنویسی و تعیین عملکرد RNAهای غیرکدکننده مانند میکروRNAها و RNAهای طویل غیرکدکننده نقش دارد.
🔶 تحلیل Single-cell RNA-seq (scRNA-seq) : یک تکنیک پیشرفته است که به محققان اجازه میدهد تا سطح بیان ژن را در تک تک سلولها اندازهگیری کنند. این تکنیک در مقایسه با RNA-seq سنتی که سطح بیان را به صورت میانگین برای یک جمعیت از سلولها اندازهگیری میکند، دیدگاه بسیار دقیقتری از تنوع سلولی ارائه میدهد. با استفاده از روشهای بیوانفورماتیکی، دادههای scRNA-seq برای موارد زیر تحلیل میشوند :
🔸شناسایی انواع سلول: با گروهبندی سلولها بر اساس الگوهای بیان ژن مشابه، میتوان انواع سلولی مختلف موجود در یک نمونه پیچیده (مانند یک تومور یا یک بافت) را شناسایی کرد.
🔸 مطالعه تمایز سلولی: با بررسی تغییرات بیان ژن در طول زمان، میتوان مسیرهای تمایز سلولی را درک کرد.
🔸 شناسایی جمعیتهای سلولی نادر: scRNA-seq میتواند به شناسایی انواع سلولی کمیاب که ممکن است در تحلیلهای bulk RNA-seq پنهان بمانند، کمک کند.
🔸بررسی ناهمگونی تومور: در سرطانشناسی، scRNA-seq برای بررسی تنوع سلولی درون تومورها و شناسایی زیرجمعیتهای سلولی مختلف که ممکن است به درمانهای مختلف پاسخ متفاوتی دهند، استفاده میشود.
🟠 متابولومیکس (Metabolomics): متابولومیکس به مطالعهی مجموعهی کامل متابولیتهای کوچک در یک سیستم بیولوژیکی میپردازد. بیوانفورماتیک در این حوزه به موارد زیر کمک میکند:
🔶 شناسایی متابولیت (Metabolite Identification): دادههای حاصل از تکنیکهایی مانند طیفسنجی جرمی و NMR با پایگاههای دادههای متابولیت مقایسه میشوند تا متابولیتهای موجود در نمونه شناسایی شوند.
🔶 تعیین کمیت متابولیت (Metabolite Quantification): روشهای بیوانفورماتیکی برای تعیین غلظت متابولیتهای شناسایی شده استفاده میشوند.
🔶 تحلیل مسیر متابولیکی (Metabolic Pathway Analysis): دادههای متابولومیکس با پایگاههای دادههای مسیرهای متابولیکی ادغام میشوند تا تغییرات در شبکههای متابولیکی در شرایط مختلف بررسی شوند.
🟠بیولوژی سیستمها (Systems Biology): بیولوژی سیستمها به درک سیستمهای بیولوژیکی به عنوان شبکههای پیچیده از تعاملات میپردازد. بیوانفورماتیک در این حوزه نقش اساسی در موارد زیر دارد:
🔶 مدلسازی شبکه (Network Modeling): ساخت مدلهای ریاضی از شبکههای بیولوژیکی (مانند شبکههای تنظیم ژن، شبکههای سیگنالینگ و شبکههای متابولیکی) بر اساس دادههای تجربی.
🔶 شبیهسازی سیستم (System Simulation): استفاده از مدلهای ساخته شده برای شبیهسازی رفتار سیستم در شرایط مختلف و پیشبینی پاسخها به تغییرات.
🔶 تحلیل شبکه (Network Analysis): استفاده از نظریه گراف برای تحلیل خواص شبکهها و شناسایی اجزای کلیدی.
🟠 داروشناسی محاسباتی (Computational Pharmacology): بیوانفورماتیک در فرآیند کشف و توسعه دارو نقش مهمی ایفا میکند:
🔶 شناسایی هدف دارویی (Drug Target Identification): تحلیل دادههای ژنومیکس، پروتئومیکس و ترانسکریپتومیکس برای شناسایی مولکولهایی (معمولاً پروتئینها) که در بیماریها نقش دارند و میتوانند هدف دارو باشند.
🔶 غربالگری مجازی (Virtual Screening): استفاده از مدلهای ساختار سهبعدی پروتئینها برای پیشبینی اینکه کدام مولکولهای کوچک (داروها) احتمالاً به هدف متصل میشوند.
🔶 طراحی دارو (Drug Design): استفاده از روشهای محاسباتی برای طراحی مولکولهای جدید با خواص دارویی مطلوب.
🔶 فارماکوژنومیکس (Pharmacogenomics): مطالعهی چگونگی تأثیر تغییرات ژنتیکی افراد بر پاسخ آنها به داروها، با هدف توسعه داروهای شخصیسازیشده.
📣 سلام و احترام
اگر تازه عضو کانال شده اید:
⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید
⬅️ فهرست مطالب تا کنون هم اینجاست.
✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.
امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.
در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.
جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.
آدرس کانال هم مجدد:
https://t.me/BFE_pod
اگر تازه عضو کانال شده اید:
⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید
⬅️ فهرست مطالب تا کنون هم اینجاست.
✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.
امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.
در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.
جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.
آدرس کانال هم مجدد:
https://t.me/BFE_pod
👍2❤1
ژنومیکس
ژنومیکس و آنالیز واریانت از مباحث بسیار مهم در تحقیقات زیستی هستند. به طور خلاصه، ژنومیکس مطالعه کل ماده ژنتیکی یک موجود زنده است و تجزیه و تحلیل انواع آن بر شناسایی و درک تفاوتهای درون آن ژنومها متمرکز است. جهت کاهش تعداد پست ها محتواهای چند رسانه ای در بخش نظرات قرار میگیرند.
🟠عنوان های اصلی این مبحث:
1. پیشینه زیستی ژنومیکس : باور مرکزی (Central Dogma) ؛ اساس توالی یابی DNA؛
2. مقدمه ای بر تنوع ژنتیکی
3. مفاهیم آماری در تحلیل واریانت ها
4. برنامه نویسی برای بیوانفورماتیک
5. پایگاه های داده ژنومی مهم
👍1
باور مرکزی :
بدن خود را به عنوان یک دستورالعمل فوق العاده پیچیده در نظر بگیرید، که زبان آن راهنما، زبانی به نام DNA است. DNA یا اسید دئوکسی ریبونوکلئیک، مانند طرح اولیه هر چیزی است که شما را این چیزی که هستید می سازد. DNA یک مولکول طولانی و پیچ در پیچ است که حاوی دستورالعمل های ژنتیکی برای همه موجودات زنده است. این DNA در ساختارهایی به نام کروموزوم سازماندهی شده است. کروموزوم ها را به عنوان فصل هایی در کتابچه راهنمای خود تصور کنید. انسان ها معمولاً 23 جفت کروموزوم (در مجموع 46 کروموزوم( دارند: 22 جفت مشترک بین دو جنس (اتوزوم) دو کروموزم Y X , ( جنسی) . حضور یا عدم حضور Y تعیین کننده جنسیت است؛ اگر کروموزوم های جنسی هردو X باشد جنسیت زن و اگر یکی X و دیگری Y باشد جنسیت مرد است. از این در درون این کروموزوم ها ژن ها وجود دارند که مانند دستور العمل های خاصی در یک فصل کتابچه هستند. هر ژن حاوی دستورالعمل هایی برای ساخت یک پروتئین خاص است و این پروتئین ها بیشتر کار را در سلول های ما انجام می دهند.
حال، چگونه اطلاعات موجود در DNA برای ساخت پروتئین ها استفاده می شود؟ اینجاست که RNA وارد می شود. RNA یا اسید ریبونوکلئیک مانند یک پیام رسان است. اطلاعات یک ژن در DNA به RNA کپی میشود (به این رونویسی میگویند)، و سپس RNA این پیام را به ماشینهای پروتئینساز در سلول میرساند (به آن ترجمه میگویند). این جریان اطلاعات از DNA به RNA به پروتئین اغلب دگم یا باور مرکزی زیستشناسی مولکولی (Central Dogma)نامیده می شود.
🔺خوب، اکنون که ما درک اولیه ای از چیستی DNA داریم، بیایید در مورد اینکه چگونه می توانیم واقعا آن را "خوانش" کنیم(reading)، صحبت کنیم. اینجاست که توالی یابی DNA وارد می شود.
تصور کنید دفترچه راهنمای DNA ما با فونت بسیار ریز و تنها با چهار حرف نوشته شده است: A، T، C و G. این حروف بلوک های سازنده DNA هستند که نوکلئوتید نامیده می شوند. ترتیب ظاهر شدن این حروف حاوی اطلاعات ژنتیکی است. توالی یابی DNA فرآیند تعیین ترتیب دقیق این بازهای A، T، C و G در بخشی از DNA است. برای درک بهتر به این موضوع مانند " خواندن دقیق هر حرف در یک جمله و اهمیت ترتیب حروف برای درک معنای آن جمله " فکر کنید.
🟡 چرا این موضوع اینقدر برای ژنومیک مهم است؟ چون با تعیین توالی DNA، می توانید:
🔸 ژن ها را شناسایی کنید
🔸 ببینید ژن ها چگونه سازماندهی می شوند
🔸 به دنبال واریانت ها یا تغییرات در توالی های DNA باشید (بعداً در مورد آن صحبت خواهیم کرد)
🔸 ماده ژنتیکی یا DNA موجودات مختلف را با هم مقایسه کنید
🟡 توسعه فنآوریهای توالییابی DNA انقلابی زیستی بوده که به ما این امکان را میدهد تا کد ژنتیکی حیات را با جزئیات بیسابقه مورد بررسی دقیق قرار دهیم.
👍1
اساس توالی یابی DNA:
در حالی که فن آوری های مختلف تعیین توالی وجود دارد، اما اغلب آنها شامل این مراحل کلیدی هستند:
🟠 استخراج DNA: ابتدا باید DNA را از نمونه ای که مطالعه می کنید (به عنوان مثال، خون، بافت، بزاق) جدا کنید. مانند جدا کردن دستور آشپزی مد نظر از کتاب آشپزی.
🟠 تکه تکه کردن: DNA اغلب به قطعات کوچکتر و قابل کنترل تر تجزیه می شود. تصور کنید که یک دستور غذای طولانی را به بخش های کوچکتر (بدون حفظ ترتیب آنها) تقسیم کنید تا بتوانید راحت تر آنها را بخوانید.
🟠 تکثیر (گاهی اوقات): گاهی اوقات، مقدار DNA از طریق فرآیندی به نام PCR (واکنش زنجیره ای پلیمراز) افزایش می یابد تا اطمینان حاصل شود که مواد کافی برای توالی یابی وجود دارد. این مانند ساختن چندین کپی از دستور غذاست.
🟠 واکنش توالی یابی: این مرحله اصلی است که در آن ترتیب پایه های A، T، C و G برای هر قطعه تعیین می شود. فنآوریهای مختلف از روشهای مختلفی برای این کار استفاده میکنند، که اغلب شامل سنتز یک رشته مکمل و تشخیص اینکه کدام پایه در هر مرحله اضافه میشود.
🟠 تجزیه و تحلیل داده ها: در نهایت، داده های توالی یابی خام با استفاده از ابزارهای بیوانفورماتیک پردازش می شوند تا قطعات را دوباره کنار هم جمع کنند و نتایج را تفسیر کنند. این مانند این است که بخش های جدا شده دستور پخت خود را دوباره کنار هم قرار دهید و دستورالعمل کامل را درک کنید.
امروزه در بین روش های توالی یابی DNA دو روش دارای کاربرد بالایی هستند :
سنگر و NGS
👍1
توالییابی سنگر: «نسل اول»
توالییابی سنگر که در دهه ۱۹۷۰ توسعه یافت، سالها محور اصلی توالییابی DNA بود و هنوز هم برای کاربردهای خاص استفاده میشود. در اینجا یک مرور کلی ساده از مراحل آن آمده است:
🔸 آمادهسازی الگوی DNA: یک قطعه DNA که میخواهید توالییابی کنید، جدا میشود.
🔸 تکثیر با کمک PCR (گاهی): اگر مقدار DNA اولیه کم باشد، ممکن است از PCR برای ساخت کپیهای بیشتر از قطعه هدف استفاده شود.
🔸 واکنش توالییابی: این هسته اصلی توالییابی سنگر است. این شامل مخلوط کردن موارد زیر است:
🔻الگوی DNA
🔻یک پرایمر DNA (یک قطعه کوتاه از DNA که سنتز را آغاز میکند)
🔻 آنزیم DNA پلیمراز (آنزیمی که رشتههای DNA جدید را میسازد)
🔻دئوکسی نوکلئوتیدهای طبیعی (dNTPs ) از A، T، C، G که بلوکهای سازنده DNA هستند.
🔻 دیدئوکسی نوکلئوتیدها (ddNTPs: ddATP، ddTTP، ddCTP، ddGTP) : اینها نوکلئوتیدهای اصلاحشده ویژهای هستند که وقتی در یک رشته DNA در حال رشد قرار میگیرند، سنتز را متوقف میکنند. هر ddNTP با یک رنگ فلورسنت متفاوت برچسبگذاری میشود.
🔸 خاتمه زنجیره: همانطور که DNA پلیمراز رشتههای جدیدی میسازد، به طور تصادفی یک dNTP طبیعی یا یک ddNTP را در خود جای میدهد. اگر یک ddNTP را در خود جای دهد، طویل شدن رشته در آن نقطه متوقف میشود. این منجر به مجموعهای از قطعات DNA با طولهای مختلف میشود که هر کدام با یک ddNTP با برچسب فلورسنت به پایان میرسند.
🔸 جداسازی براساس اندازه با کمک الکتروفورز مویرگی یا Capillary Electrophoresis: سپس این قطعات بر اساس اندازهشان با استفاده از تکنیکی به نام الکتروفورز مویرگی از هم جدا میشوند. قطعات کوتاهتر سریعتر از قطعات بلندتر از مویرگ عبور میکنند.
🔸 تشخیص: با عبور قطعات از آشکارساز، لیزر برچسبهای فلورسنت را تحریک میکند و رنگ خوانده میشود. از آنجایی که هر رنگ مربوط به یک باز خاص (A، T، C یا G) است، توالی قطعه DNA اصلی را میتوان با ترتیب رنگها بر اساس اندازه عبور قطعات تعیین کرد.
NGS : Next-Generation Sequencing
مجموعه از فناوریها است که سرعت توالییابی DNA و RNA را در مقایسه با روشهای قدیمیتر مانند توالییابی سنگر، به طرز چشمگیری افزایش داده و هزینه آن را کاهش داده است. اگر توالییابی سنتی سنگر را مانند خواندن یک کتاب با دقت بسیار زیادِ یک صفحه در هر لحظه تصور کنیم، NGS مانند در اختیارگرفتن یک کتابخانه کامل از کتابها، تجزیه همه آنها به جملات جداگانه و سپس داشتن یک سیستم فوق سریع است که همه آن جملات را همزمان میخواند و سپس آنها را دوباره به هم متصل میکند.
در بین روش های کنونی NGS برای DNA، روش های زیر کاربرد تجاری بسیار بالایی دارند که مفصل به اولی خواهم پرداخت:
🔹توالییابی از طریق سنتز (SBS - Illumina): نوکلئوتیدهای نشاندار شده با فلورسنت، یکی یکی به یک رشته DNA در حال رشد اضافه میشوند و یک دوربین ثبت میکند که کدام باز در هر مرحله اضافه میشود.
🔹توالییابی تورنت یونی: این روش، آزادسازی یونهای هیدروژن را هنگامی که یک نوکلئوتید در یک رشته DNA در حال رشد قرار میگیرد، تشخیص میدهد. این روش تغییر pH را اندازهگیری میکند.
🔹تک مولکول بلادرنگ (SMRT - PacBio): این روش، مولکولهای DNA تکی را در زمان واقعی توالییابی میکند و ترکیب نوکلئوتیدهای نشاندار شده با فلورسنت را مشاهده میکند. این روش میتواند خوانشهای بسیار طولانیتری نسبت به سایر روشهای NGS ایجاد کند.
🔹 توالییابی نانوحفره: این روش شامل عبور یک رشته DNA از یک منفذ کوچک در یک غشاء و اندازهگیری تغییر جریان الکتریکی هنگام عبور هر باز است. این روش همچنین امکان خوانشهای بسیار طولانی را فراهم میکند.
توالی یابی Illumina :
فناوری اصلی به کاررفته دراین توالی بایی، توالییابی از طریق سنتز (SBS) نام دارد و پروتکل آن شامل موارد زیر است:
🔹 آمادهسازی کتابخانه: همانطور که بحث کردیم، DNA قطعه قطعه میشود و توالیهای آداپتور ویژه به هر دو انتهای قطعات اضافه میشوند. این آداپتورها به قطعات اجازه میدهند تا به سطح یک سلول جریان متصل شوند.
🔹 تکثیر به شیوه پل زدن: flow cell یک اسلاید شیشهای است که با الیگونوکلئوتیدها (توالیهای کوتاه DNA) که مکمل آداپتورها هستند، پوشانده شده است. قطعات DNA به این الیگوها متصل میشوند. سپس، فرآیندی به نام تکثیر به شیوه پل زدن رخ میدهد، که در آن قطعات متصل شده خم میشوند و به الیگوهای نزدیک روی سطح متصل میشوند و یک پل تشکیل میدهند. سپس این پل تکثیر میشود و خوشههایی از مولکولهای DNA یکسان را در مجاورت هم ایجاد میکند.
🔹 توالییابی از طریق سنتز: اکنون بخش "خواندن" فرا میرسد. نوکلئوتیدهای دارای برچسب فلورسنت (A، T، C و G) با پایان دهنده های برگشتپذیر در مجاورت flow cell ها قرار میگیرند. آنزیم پلیمراز هر بار یک نوکلئوتید را به رشته DNA در حال رشد اضافه میکند. هر نوکلئوتید یک برچسب فلورسنت منحصر به فرد دارد. پس از هر اتصال، یک لیزر برچسب فلورسنت را تحریک میکند و یک دوربین رنگ را ثبت میکند و بدین ترتیب مشخص میشود که کدام باز اضافه شده است.مهمترین نکته این است که پایان دهنده روی هر نوکلئوتید از اضافه شدن باز بعدی تا زمانی که به صورت شیمیایی حذف شود، جلوگیری میکند. این سبب می شود که فقط یک باز در هر زمان اضافه و خوانده شود. پس از تصویربرداری، برچسب فلورسنت و پایانه جدا میشوند و اجازه میدهند چرخه بعدی اضافه شدن نوکلئوتید آغاز شود. این چرخه بارها و بارها، پایه به پایه، تکرار میشود تا توالی هر قطعه DNA در خوشهها تعیین شود.
🔹 تجزیه و تحلیل دادهها: در نهایت، میلیونها خوانش توالی کوتاه تولید شده با یک ژنوم مرجع همتراز میشوند و تغییرات شناسایی میشوند.
برای مشاهده تفاوت های سنگر و Illumina بخش نظرات را ببینید.
👍1
Audio
DNA sequencing at 40: past, present and future
این مقاله مروری بر تاریخچه، وضعیت کنونی و آینده توالییابی DNA ارائه میدهد. این حوزه در طول چند دهه شاهد چندین تغییر پارادایم مهم در فناوری بوده است : از روشهای اولیه توالییابی بیوپلیمرها و توسعه روشهای الکتروفورتیکی برای DNA مانند روشهای سنگر و ماکسام-گیلبرت، این فناوری به مقیاس پروژه ژنوم انسان ارتقا یافت. ظهور نسل دومNGS، با معرفی مولتیپلکسینگ گسترده و کاهش چشمگیر هزینهها، انقلابی در این زمینه ایجاد کرد. اخیراً، نسل سوم،NGS، توالییابی در زمان واقعی و تکمولکولی، با قابلیت خوانشهای بسیار طولانی و تشخیص مستقیم اصلاحات بومی DNA پدیدار شده است. کاربردهای توالییابی DNA نیز بهطور چشمگیری گسترش یافته و اکنون شامل مونتاژ ژنوم از ابتدا (de novo genome assembly)، توالییابی مجدد ژنوم افراد، کاربردهای بالینی (مانند NIPT و تشخیص بیماریها)، و استفاده از توالییابها به عنوان دستگاههای شمارش مولکولی برای مطالعه پدیدههای مختلف بیوشیمیایی و مولکولی میشود.
❤4
بیوانفورماتیک برای همه
DNA sequencing at 40: past, present and future این مقاله مروری بر تاریخچه، وضعیت کنونی و آینده توالییابی DNA ارائه میدهد. این حوزه در طول چند دهه شاهد چندین تغییر پارادایم مهم در فناوری بوده است : از روشهای اولیه توالییابی بیوپلیمرها و توسعه روشهای الکتروفورتیکی…
DNA sequencing at 40 past, present and future.pdf
1 MB
متن مقاله
❤4
Forwarded from بیوانفورماتیک برای همه
📣 سلام و احترام
اگر تازه عضو کانال شده اید:
⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید
⬅️ فهرست مطالب تا کنون هم اینجاست.
✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.
امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.
در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.
جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.
آدرس کانال هم مجدد:
https://t.me/BFE_pod
اگر تازه عضو کانال شده اید:
⬅️ از اینجا توضیحات مربوطه را مطالعه بفرمایید
⬅️ فهرست مطالب تا کنون هم اینجاست.
✔️ تا اینجا مقدماتی بر بیوانفورماتیک گفته شد.
امیدوارم تعداد بالای پست ها موجب ناراحتی نشده باشد.
در ادامه و براساس اولویت ان شا الله، وارد مبحث ژنومیکس شده ایم و پس از آن ترانسکریپتومیکس را شروع خواهیم کرد.
جهت بهره وری بیشتر، امکان یادداشت برداری از مطالب و باز ارسال آنها برای شما فراهم شد.
آدرس کانال هم مجدد:
https://t.me/BFE_pod
👍3👏3
تنوع ژنتیکی:
تنها 2 درصد از DNA ما از ژن ها ایجاد شده ، بنابراین 98 درصد از DNA ما مناطق غیر کد کننده هستند.
همچنین، همانطور که اشاره شد DNA ما حاوی ژنهایی است که طرح اولیه پروتئینها را تشکیل میدهند. ژنها خود از اگزونها (مناطق کدکننده که حاوی دستورالعملهای پروتئین هستند) و اینترونها (مناطق غیرکدکننده درون ژن که در طول پردازش RNA حذف میشوند) تشکیل شدهاند.
پردازش RNA مرحله ای است که منحصر به یوکاریوت ها بوده و برای آماده سازی نهایی RNA جهت تولید پروتئین انجام می شود.پس می توان گفت مناطق غیر کد کننده شامل دو گروه می شوند : اینترون ها و نواحی بین ژنی. این نواحی میتوانند حاوی عناصر تنظیمی باشند که زمان و مکان روشن یا خاموش شدن ژنها را کنترل میکنند و عناصر ساختاری که به سازماندهی کروموزومها کمک میکنند.
تنوع ژنتیکی میتوانند در بخش های مختلف DNA رخ دهند:
اگزون : واریانت درون یک اگزون را میتوان واریانت کدکننده نامید. اگر این جهش، توالی اسید آمینه پروتئین را تغییر دهد، براساس نوع جهش می تواند Missense( جهش با اثر احتمالی در توالی پروتئینی)؛ Nonsense ( جهش با ایچاد توالی ناقص پروتئینی ) و Silent (( جهش فاقد اثر جدی در عملکرد پروتئینی) باشد. در مورد این جهش ها بعدا صحبت خواهیم کرد. انواع جهش در اگزونها اغلب مورد توجه زیادی هستند زیرا میتوانند مستقیماً بر توالی پروتئین تأثیر بگذارند.
اینترون : یک واریانت درون یک اینترون اغلب واریانت اینترونی نامیده میشود.
نواحی بین ژنی : واریانتهای موجود در نواحی بین ژنها، واریانتهای بین ژنی نامیده میشوند.زمانی تصور میشد که جهش در اینترونها و مناطق بین ژنی اهمیت کمتری دارند زیرا مستقیماً توالی پروتئین را تغییر نمیدهند. با این حال، اکنون میدانیم که این جهش ها میتوانند بر بیان ژن، پیرایش (حذف اینترونها) و سایر فرآیندهای تنظیمی تأثیر بگذارند.
انواع تنوع ژنتیکی شامل موارد زیر می شوند:
۱. چندریختی تک نوکلئوتیدی (SNP) Single Nucleotide Polymorphism :
این توالی کوتاه DNA را به عنوان رشتهای از مهرههای رنگی تصور کنید:
شخص ۱: 🔴🔵🟢⚫️🟦🟢🔴 (... A T G C T A G ...)
شخص ۲: 🔴🔵🟢⚫️🟪🟢🔴 (... A T G C C A G ...)
تفاوت رنگ مهرهها (آبی در مقابل بنفش) نشان دهنده یک SNP است که در آن یک باز (نوکلئوتید) متفاوت است.
اثر احتمالی:
این تغییر به ظاهر کوچک میتواند منجر به ایجاد نسخه متفاوتی از پروتئین رنگ مو شود که منجر به تغییر رنگ مو (مثلاً از قهوهای به قرمز) میشود. بسیاری از صفات رایج مانند رنگ چشم تحت تأثیر چندین SNP قرار دارند. به عنوان مثال، SNP های خاصی در ژن OCA2 به شدت با رنگ چشم آبی مرتبط هستند.
۲. درج (Insertion ) و حذف (Deletion ) با مخفف کلی Indel برای هر دو رخداد:
درج :
اصلی: 🔴🔵🟢⚫️🟢🔴 (... A T G C A G ...)
درج: 🔴🔵🟢⚫️🟡🟢🔴 (... A T G C T A G ...)
مهره زرد درج شده نشان دهنده درج یک نوکلئوتید است.
حذف :
اصلی: 🔴🔵🟢⚫️🟢🔴 (... A T G C A G ...)
حذف: 🔴🔵🟢⚫️➖🔴 (... A T - C A G ...)
مهره آبی گم شده (که با '-' نشان داده شده است) حذف یک نوکلئوتید را نشان میدهد.
اثر احتمالی: اگر این اتفاق در یک ناحیه کدکننده رخ دهد، میتواند «چارچوب خواندن» کد ژنتیکی را تغییر دهد و منجر به یک توالی پروتئینی کاملاً متفاوت شود. که اغلب میتواند منجر به یک پروتئین غیرفعال می شود. مثال زیستی این امر در برخی موارد فیبروز کیستیک مشاهده میشود که در آن الحاق یا حذف در ژن CFTR عملکرد آن را مختل میکند. همینطور برخی از اشکال دیستروفی عضلانی دوشن که در اثر حذفهایی در ژن DMD ایجاد میشوند
۳. تنوع تعداد کپی (CNV)Copy Number Variation :
بیایید از شکل مثلث برای نمایش یک قطعه DNA استفاده کنیم:
شخص ۱: 🔴🔵🟢 △ ⚫️🟢🔴 (... A T G XYZ C ...)
شخص ۲: 🔴🔵🟢 △ △ ⚫️🟢🔴 (... A T G XYZ XYZ C ...)
شخص ۲ یک کپی اضافی از قطعه مثلثی دارد.
اثر احتمالی: داشتن تعداد بسیار کم یا بسیار زیاد کپی از یک ژن میتواند بر میزان پروتئین تولید شده تأثیر بگذارد. به عنوان مثال، برخی از سرطانها با افزایش کپی از ژنهایی که رشد سلول (آنکوژنها) را تقویت میکنند، مرتبط هستند و منجر به تقسیم سلولی کنترل نشده میشوند. برعکس، داشتن کپیهای کمتر از ژنهای سرکوبگر تومور نیز میتواند خطر ابتلا به سرطان را افزایش دهد.
۴. تنوع ساختاری (وارونگی) یا Structural Variant (Inversion) :
یک قطعه فرضی با نام BCD را به صورت 🟦🟢⚫️ تصور کنید.
اصلی: 🔴 🟦🟢⚫️ 🔴 (... A B C D E F G ...)
وارونگی: 🔴 ⚫️🟢🟦🔴 (... A D C B F G ...)
ترتیب مهرههای رنگی در قطعه میانی برعکس شده است.
اثر احتمالی: وارونگی میتواند بر تنظیم ژن تأثیر بگذارد، ا به عنوان مثال، یک وارونگی مشهور و مطالعه شده در کروموزوم ۱۷ با اختلالات عصبی مرتبط است.
👍2❤1👏1