次世代シーケンス(NGS)解析
北海道システム・サイエンス株式会社では、次世代シーケンス(NGS)受託解析サービスを承ります。
お客様の解析目的に応じて、最適な解析プランをご提案します。まずはご相談ください。
※新型コロナウイルス・インフルエンザウイルスを含むサンプルはお受入れできません。
弊社では【SARS-CoV-2】および【Influenza A/B virus】のPCR検査用オリゴを製造しているため、鋳型となり得る核酸サンプルの受け入れを中止しております。何卒ご了承ください。
次世代シーケンサー機種
Illumima
シーケンサー | NovaSeq(S4) | HiSeqX | MiSeq(V2) | MiSeq(V3) | |||
---|---|---|---|---|---|---|---|
リード長 | 150 PE | 150 PE | 150 PE | 250 PE | 75 PE | 300 PE | |
1レーン | リード数 | 26億リードペア (52億リード) |
3億6,000万リードぺア (7億2,000万リード) |
1,000万リードペア (2,000万リード) |
1,600万リードペア (3,200万リード) |
||
塩基数 | 800 Gb | 110 Gb | 3 Gb | 5 Gb | 2.5 Gb | 10 Gb | |
対応プラン | 乗り合いシーケンス解析 | レーンシーケンスのみ | 微生物群集解析 アンプリコンシーケンス解析 |
シーケンサー | NextSeq(HighOutput) | NextSeq(MidOutput) | ||||
---|---|---|---|---|---|---|
リード長 | 150 PE | 75 PE | 75 SR | 150 PE | 75 PE | |
1レーン | リード数 | 4憶リードペア (8億リード) |
4憶リード | 1.3億リードペア (2.6億リード) |
||
塩基数 | 120 Gb | 60 Gb | 30 Gb | 39 Gb | 19.5 Gb | |
対応プラン | レーンシーケンスのみ |
- ※ 上記データ量は参考値であり、保証値ではありません。
PacBio
シーケンサー | Sequel | Sequel II | |
---|---|---|---|
1 SMRT Cell | ZMW | 1,000,000 | 8,000,000 |
CCS reads (Amplicon, Iso-Seq) |
~500,000 reads | 約1,000,000~4,000,000 reads | |
Data Yield (Genome) |
~15 Gb | ~30 Gb |
- ※ 上記データ量は参考値であり、保証値ではありません。
解析アプリケーション
・Illumina Rawデータ前処理
・微生物ゲノム配列決定
・動植物ゲノム配列決定
・ヒトゲノム解析
・ゲノムリシーケンス解析(ヒト以外)
・リピートモチーフ検索
・GRAS-Di
・遺伝子発現解析(リファレンス配列のある生物)
・De novo トランスクリプトーム解析
・Iso-Seq
・バイサルファイトシーケンス
・small RNA-Seq解析
・ChIP-Seq解析
・Illumina アンプリコンシーケンス解析
・PacBio アンプリコンシーケンス解析
・CRISPRスクリーニング解析
・微生物群集解析
・ホールメタゲノム解析
・メタトランスクリプトーム解析
・病理組織標本から遺伝子解析(オプション)
シーケンス原理
Illumina
Illuminaのシーケンスライブラリは、DNA・RNAサンプルに由来するインサート配列の両端にアダプターが付いた構造となります。
シーケンサーのフローセルと呼ばれる基板上にライブラリが結合し、1分子のライブラリが増幅してクラスターを形成します。
各クラスターにおいて、1塩基伸長と蛍光読み取りのサイクルを繰り返します。
<Illuminaシーケンスライブラリ> | <Illuminaシーケンス原理> |
![]() |
![]() |
PacBio
PacBioのシーケンスライブラリは、10~20kbの長いインサート配列の両端に、ヘアピン型のアダプターが付いた構造となります。
SMRT CellにはZMWと呼ばれる小孔があり、1つのZMWで1分子のライブラリのシーケンスが行われます。
1分子のライブラリにおいて、ポリメラーゼが周回しながら数十kbのシーケンスが行われます。
<PacBioシーケンス原理> ※ゲノムシーケンス解析の例
![]() |
||
ゲノムDNAを物理的に断片 化し、20kb程度の断片を 回収します。 |
DNA断片の両端に、 ヘアピン型のアダプ ターを付加します。 |
SMRT Cellの孔(ZMW)において、1分子のライブラリと ポリメラーゼが結合し、DNA合成がリアルタイムに検出されます。 |
![]() |
||
環状のライブラリを繰り 返し周回してシーケンス が行われます。 |
出力されるポリメラーゼリード からアダプター配列を除き、サブ リードが得られます。 |
サブリードデータを使用し、以降のデータ解析 を行います。 |
Rawデータについて
Illumina
Illuminaシーケンス解析サービスで納品させていただくRawデータは、FASTQ形式のリードデータとなります。
【 FASTQ形式 】
リードの「塩基配列」と「クオリティ値」の記述様式。
4行で1本のリードの情報が記述され、2行目に塩基配列、4行目にクオリティ値が記載される。
<よくある質問と回答>
Q:FASTQ形式ファイルを開くことはできますか
FASTQ形式ファイルは、テキストファイルと同様に開くことができます。
ファイルがGZ圧縮されている場合には、解凍を行ってください。
また、ファイルサイズが大きい場合には、巨大テキストファイルに対応した閲覧ソフトをご使用ください。
Q:ペアエンドリードはどのように出力されますか
ペアエンドのRawデータは、Read1とRead2が別々のFASTQ形式ファイルとして出力されます。
[ファイル名]_Read1/Read2.fastq または [ファイル名]_R1/R2.fastq などのように、 同じ接頭名のFASTQファイルにペアのリードが同じ順番で出力されています。
Q:シングルリードとペアエンドはそれぞれどのようなシーケンス方法ですか
Illuminaのシーケンスではインサート配列の末端からリードの読み取りが行われます。
下図において、シングルリードではRead1のみ、ペアエンドではRead1とRead2がシーケンスされます。
Q:インデックス配列とは何ですか
インデックス配列は、アダプターの中に6~8bp程度含まれる配列で、同じレーンでマルチプレックスシーケンスを行ったサンプルを識別するために使用されます。
弊社のRawデータ出力方法では、リードデータのFASTQファイル内、配列IDの中にインデックス配列が出力されます。
シングルインデックスは片側のアダプター内のインデックスを、デュアルインデックスは両側のアダプター内のインデックスをシーケンスします。
シーケンサーやラン試薬のバージョンにより、インデックスの読み取り方向が異なる場合がございます。
Q:Rawデータにはアダプター配列が含まれていますか
インサートの塩基長がリードの読み取り塩基長よりも短いライブラリでは、リードの3’側にアダプター配列が出現します。
そのため、データ解析を行う前に、3’側のアダプター配列をトリミングしていただくことを推奨しております。
リードの5’側は、アダプター配列の直下からシーケンスが行われるため、基本的にアダプター配列を含みません。
Q:Rawデータについてフィルタリングは行われていますか
弊社のIllumina Rawデータは、基本的にChastityフィルタリング(※)を通過したデータを納品させていただいております。
その他のクオリティフィルタリングは行っておりません。
正常なシーケンスにおいても、リードの後半では読み取り精度が低下する傾向があるため、必要に応じてクオリティを参照したトリミングやフィルタリングを行ってください。
※ Chastityフィルタリング
Illuminaシーケンサーでは、1塩基の伸長反応(1サイクル)ごとにA・T・G・Cの画像データを取得し、個々のリードにおいて、各サイクルで最も強いシグナル値が検出された塩基を採用します。
Chastityフィルタリングでは、以下の計算式に従い、信頼性の低いリードの情報を除外します。
…4種の塩基シグナルの内、最大値をI1、その次に大きい値をI2として、最初の25サイクルまでに{I1/(I1+I2) > 0.6}を満たさないサイクルが2回以上検出されたリードを排除。