اهمیت سیستم لینوکس در آنالیز دادههای نسل نوین توالییابی (NGS)
این مقاله بخشی از محتوای محصولات ما میباشد و برای درک کامل آن باید در دوره لینوکس برای آنالیز ngs شرکت کنید.
زمان مطالعه: 20 دقیقه
چکیده اهمیت لینوکس در NGS
نسل نوین توالییابی (NGS) امکان توالییابی صدها، هزاران یا حتی کل ژنوم در یک آزمایش را فراهم میکند. پیشرفتهای چشمگیری در رمزگشایی اطلاعات ژنتیکی با استفاده از این تکنولوژی به دست آمده است. با این حال، چالش اصلی شناسایی دقیق و سریع واریانتهای بیماری ژنتیکی از بین خطاهای توالییابی و پلیمورفیسمهای تک نوکلئوتیدی است.
فراخوانی یک واریانت ژنتیکی به تنهایی ارزش چندانی ندارد؛ آنچه برای پزشکان و محققان بسیار با ارزش است اطلاعاتی از قبیل: موقعیت ژنومیکی واریانت مورد نظر، اثر واریانت بر عملکرد پروتئین، فراوانی جمعیتی آن، نقش ژن و پروتئینی که واریانت در آن واقع شده و ارتباط آن با فنوتیپ مشاهده شده، اطلاعات مربوط به واریانتهایی که در همسایگی واریانت مورد نظر قرار گرفتهاند و مطالعات بالینی منتشر شده در رابطه با واریانت مورد نظر است.
استفاده از سیستم عامل لینوکس و ابزارهای تخصصی آنالیز دادههای NGS میتواند به کاربران کمک کند تا با سرعت، دقت، و امنیت بالاتر، آنالیز دادههای خود را انجام دهند. سیستم عامل لینوکس، با قابلیت اجرای اکثر ابزارهای تخصصی آنالیز دادهههای NGS (مانند ابزار BWA در مرحله الاینمنت، ابزار DeepVariant در فراخوانی واریانت، ابزار ANNOVAR در مرحله حاشیهنویسی) و امکانات گستردهای نظیر پایداری و امنیت، وجود انجمنهای فعال و قابلیت استفاده از خط دستور به کاربران امکان میدهد تا به بهترین شکل ممکن آنالیز دادههای خود را انجام دهند.
مقدمه اهمیت لینوکس در NGS
نسل نوین توالییابی (NGS) به عنوان تکنولوژی تعریف میشود که امکان توالییابی DNA با سایز بیش از یک میلیون جفت باز را در یک آزمایش فراهم میکند. از دیدگاه بالینی مهمترین ویژگی تکنولوژی NGS، امکان توالیابی صدها، هزاران یا حتی کل ژنوم در یک آزمایش میباشد. همچنین با ظهور این نوع تکنولوژیها، پیشرفتهای چشمگیری در توانایی پژوهشگران به منظور رمزگشایی اطلاعات ژنتیکی افراد حاصل شده است.
پیشرفتهای اخیر در زمینهی تکنولوژیهای توالییابی ژنوم این فرصت را به وجود آورده است که بتوان ژنوم هر انسانی را در کمتر از یک هفته به طور کامل توالییابی کرد و به این ترتیب بازدهی تشخیص را بهبود بخشیده است. امروزه محدودیتی در رابطه با توالییابی یک، چندین یا همهی ژنهای انسانی وجود ندارند اما چالش اساسی شناسایی سریع و دقیق یک یا دو واریانت عامل بیماری ژنتیکی از بین خطاهای توالییابی و میلیونهای پلی مورفیسمی است که در ژنوم هر فرد وجود دارد.
یافتن یک واریانت ژنتیکی به تنهایی ارزش چندانی ندارد؛ آنچه برای پزشکان و محققان بسیار با ارزش است اطلاعاتی از قبیل: موقعیت ژنومیکی واریانت مورد نظر، اثر واریانت بر عملکرد پروتئین، فراوانی جمعیتی آن، نقش ژن و پروتئینی که واریانت در آن واقع شده و ارتباط آن با فنوتیپ مشاهده شده، اطلاعات مربوط به واریانتهایی که در همسایگی واریانت مورد نظر قرار گرفتهاند و مطالعات بالینی منتشر شده در رابطه با واریانت مورد نظر است.
کاربران با استفاده از سیستم لینوکس میتوانند از ابزارهای مختلفی برای آنالیز دادههای NGS (Next Generation Sequencing) استفاده کنند (جدول1 و 2). تعداد محدودی از این ابزارها به خوبی در سیستمهای دیگر نیز قابل اجرا هستند اما تعداد زیادی از آنها به طور خاص برای سیستم عامل لینوکس توسعه داده شدهاند.
ریچارد ام. لگت و همکاران در سال 2013، ابزار FASTQC را برای کنترل کیفیت خوانشهای NGS ارائه کردهاند که این ابزار برای سیستمهای مک، ویندوز و لینوکس در دسترس میباشد. آنتونی ام. بولگر و همکاران در سال 2014 ابزارTrimmomatic که تنها در سیستم لینوکس قابل اجرا است را به منظور حذف بخشهایی از خوانشهای NGS دارای کیفیت پایین (اصطلاحا اصلاح و ترمیم) ایجاد کردهاند که این یک استراتژی رایج برای کاهش خطای در آنالیز دادههای NGS میباشد. نتایج توالییابی WGS یا WES معمولاً منجر به ایجاد یک یا چند فایل متنی با فرمت FASTQ میشود. این فایل شامل میلیونها خوانش کوتاه، همراه با مقادیر امتیاز کیفیت برای هر نوکلئوتید است.
به منظور درک این خوانشها، باید ژنوم (یا اگزوم) فرد توالییابی شده، بازسازی شود. بازسازی ژنوم یا اختصاص دادن (mapping) هر خوانش به یک موقعیت از ژنوم با دو روش de novo assembly و alignment قابل انجام است. مرحله mapping در روش de novo assembly با استفاده از خوانشهای NGS و بدون اطلاعات اضافی انجام میشود. یعنی این روش توالی فرد را بدون داشتن توالی مرجع بازسازی میکند. اما متأسفانه بهترین ابزارهای de novo assembly نمیتوانند ژنومهای پیچیده پستانداران را تنها با استفاده از خوانشهای کوتاه NGS بازسازی کنند. بنابراین ابزارهای الاینمنت مختلفی مانند Bowtie، GEM و Burrows-Wheeler Alignment (BWA) برای دادههای NGS توسعه یافتهاند که تنها در سیستم لینوکس قابلیت اجرا دارند. ابزارهای مختلف الاینمنت هر خوانش را با کل ژنوم مقایسه کرده و آن را در موقعیتی با بیشترین احتمال تطابق قرار میدهد.
خوانشهای خامی که از ابزار الاینمنت BWA-MEM بدست میآیند، مناسب برای استفاده در آنالیزهای بعدی نبوده و به چندین مرحله پردازش نیاز دارند. آرون مک کنا و همکاران در سال 2010 پکیج GATK (Genome Analysis Toolkit) را به منظور انجام فراخوانی واریانت توسعه دادند که تنها در سیستم لینوکس قابلیت اجرا دارد. این ابزار در فراخوانی واریانت بسیار قدرتمند و قابل انعطاف بوده اما در حقیقت این پکیج دارای مجموعهای از ماژولهای مختلفی است که میتواند در بهبود الاینمنت و امتیازات کیفی فایل BAM استفاده شود.
کاربران با استفاده از پکیج Picard میتوانند برای اعتبارسنجی فایلهایBAM ، مرتبسازی خوانشها (sorting) بر اساس موقعیت ژنومی، علامتگذاری یا حذف خوانشهای تکراری و ایندکس کردن فایل BAM استفاده کنند. همچنین این پکیج شامل ماژولهای متعددی برای کار با دادهها و فرمتهای مختلف NGS مانند SAM/BAM و VCF بوده و تمرکز آن بیشتر در مراحل بعد از الاینمنت میباشد که به منظور آمادهسازی الاینمنتهای خام برای فراخوانی واریانت با ابزار GATK استفاده میشود.
ابزارهای Picard و GATK در موسسه Broad توسعه یافتهاند و تنها در سیستم لینوکس قابل اجرا هستند. ابزارهایی وجود دارند که اطلاعات مربوط به واریانتها مانند پیشبینی اثرات واریانت بر روی transcript ها و پروتئینهای مرتبط با آن را با سرعت و دقت بالایی برای محققان و پزشکان فراهم کنند که میتوان به Jannovar، ANNOVAR، SnpEff و VEP اشاره کرد (جدول3).
همانطور که گفته شد چندین نرم افزار نیز در این حوزه توسعه یافته است به طور مثال ونگ و همکاران در سال 2010، نرم افزاری را به نام ANNOVAR طراحی کردند. کاربر برای استفاده از این ابزار نیاز به دانلود مجموعهای از پایگاههای داده با حجم بالا و مهارت کدنویسی در محیط لینوکس دارد. اکثر ابزارهای کاربردی در این مرحله مانند Jannovar، Annovar و VEP در لینوکس قابل اجرا بوده و تعدادی از این ابزرهای هم در دیگر سیستم عاملها و تعدادی هم به صورت آنلاین در دسترس هستند.
موارد و روش اهمیت لینوکس در NGS
سیستم لینوکس دارای ویژگیهای منحصر بفردی مانند متنباز بودن، امنیت و پایداری، قابلیت گسترش و توسعه، پشتیبانی از نرمافزارهای مختلف تحلیل دادهی NGS، انجمنهای متعدد و پشتیبانی مناسب و غیره است. محققان و پژوهشگران حوزه آنالیز دیتای NGS با آموزش در زمینه سیستم عامل لینوکس میتوانند دادههای بیمار خود را به طور اصولی و با پارامترهای مختلف در محیطی امن و پایدار پردازش کنند.
محققان از طریق آشنایی با ابزارها و تکنیکهای لینوکسی، امکان استفاده بهینه از نرمافزارهای بیوانفورماتیک و پردازش دادههای NGS را دارند. همچنین با استفاده از سیستم لینوکس قادر خواهند بود که دادههای بیمار خود را به طور اصولی (از فایل FASTQ) و متناسب با نوع بیمار خود پردازش کنند (چون اکثر آنالیزورهایی که مسلط به سیستم لینوکس نیستند از فایل VCF که توسط آزمایشگاه و شرکتهای مختلف ایجاد شده، استفاده میکنند و دخالتی در نحوه و نوع فراخوانی واریانتها ندارند) و به نتایج دقیقتر و قابل اعتمادتری در تحلیل دادههای NGS دست یابند.
نتایج اهمیت لینوکس در NGS
بر اساس مطالعه و بررسیهای انجام شده، استفاده از سیستم عامل لینوکس برای آنالیز دادههای NGS دارای اهمیت بسیاری است. پنج دلیل اساسی که نشان دهنده اهمیت این سیستم عامل برای کاربران آنالیز دیتای NGS میباشد شامل موارد زیر است.
دلیل اول) پشتیبانی از ابزارهای آنالیز دیتای NGS: سیستم عامل لینوکس به عنوان یک سیستم عامل قدرتمند قابلیت اجرای ابزارهای متداول آنالیز دیتای NGS را فراهم میکند.
دلیل دوم) پایداری و امنیت سیستم عامل لینوکس: با توجه به معماری امن و مکانیزمهای امنیتی قدرتمند، کاربران میتوانند از بستری پایدار و امن برای تحلیل دادههای خود استفاده کنند.
دلیل سوم) استفاده از خط دستور در سیستم لینوکس: این امکان به کاربران میدهد که به صورت دقیق و کنترل شدهتری به پردازش آنالیز دادههای خود بپردازند و فرآیند آنالیز را اتوماتیکتر انجام دهند.
دلیل چهارم) وجود انجمنهای متعدد و پشتیبانی مناسب: وجود انجمنهای فعال لینوکس باعث شده که کاربران در صورت نیاز به راهنمایی و حل مشکلات، از تجربیات و دانش افراد دیگر استفاده کنند.
دلیل پنجم) امکانات گسترده سیستم عامل لینوکس: وجود امکانات گسترده و انعطافپذیری بالا در این سیستم عامل، به کاربران این امکان را میدهد که پایپلاینهای مختلفی را برای تحلیل دادههای NGS خود ایجاد کنند.
این مقاله محتوایی از کتابها و دورههای ما است.
دوره لینوکس برای آنالیز NGS
1,470,000 تومانکتاب لینوکس (lpic1)
253,000 تومان![دوره لینوکس برای آنالیز داده های نسل نوین توالییابی (NGS)](https://www.ngsacademy.com/wp-content/uploads/2024/04/2.png)
Importance of Linux System in Next-Generation Sequencing (NGS) Data Analysis
Mahdi shahhoseini1
1 M.Sc. in Biomedical Engineering, Faculty of Advanced Medical Technologies in Medicine, Isfahan University of Medical Sciences, Isfahan
ngsacademyy@gmail.com
Abstract
Next-generation sequencing (NGS) has revolutionized genetic research by enabling the simultaneous sequencing of hundreds, thousands, or even entire genomes. This technology has led to significant advancements in our ability to decode genetic information. However, the vast amount of data generated by NGS poses a substantial challenge for researchers in identifying and interpreting disease-causing variants from among sequencing errors and single-nucleotide polymorphisms (SNPs). Merely calling a genetic variant holds little value in itself. Of far greater importance to physicians and researchers is comprehensive information about the variant, including its genomic location, impact on protein function, population frequency, the role of the gene and protein harboring the variant, its association with the observed phenotype, information about neighboring variants, and published clinical studies related to the variant. Leveraging the Linux operating system and its specialized NGS data analysis tools empowers users to conduct their analyses with enhanced speed, accuracy, and security. The Linux operating system’s ability to run a wide range of NGS data analysis tools (such as BWA for alignment, DeepVariant for variant calling, and ANNOVAR for annotation), coupled with its extensive features like stability, security, active communities, and command-line capabilities, enables users to perform their data analyses with unparalleled efficiency and effectiveness.
Keywords: Next-generation sequencing, Linux operating system, variant annotation, variant effect prediction,