マルチキー準同型暗号によるゲノム計算のプライバシー保護フレームワーク

ゲノム解析のプライバシー保護フレームワーク:マルチキー準同型暗号に基づく研究 学術的背景 ゲノムシーケンスのコスト低下により、ゲノムデータの広範な利用可能性は、個別化医療(ゲノム医療とも呼ばれる)に新たな可能性をもたらしました。しかし、ゲノムデータには疾患の感受性、祖先情報、身体的特徴などの機密情報が含まれており、これらのプライバシー問題は医学研究とデータ共有における重大な障壁となっています。これまでに研究者たちはさまざまなプライバシー保護技術を提案してきましたが、既存の暗号ベースの手法は相互運用性、拡張性、プライバシー保護レベル、および複数者分析のサポートにおいて依然として課題を抱えています。これらの制限はゲノムデータの潜在能力を制約し、医学研究への応用を妨げています。そのため、プライバシ...

EPICPred:注意ベースのマルチインスタンス学習を用いたエピトープ結合TCR駆動型表現型の予測

T細胞受容体(TCR)は適応免疫システムにおいて重要な役割を果たしており、特定の抗原エピトープ(epitope)に結合することで病原体を認識します。TCRとエピトープ間の相互作用を理解することは、免疫応答の生物学的メカニズムを解明し、T細胞を介した免疫療法を開発する上で極めて重要です。しかし、TCRのCDR3領域がエピトープ認識において重要であることは広く認められているものの、特定の疾患や表現型に関連するTCR-エピトープ相互作用を正確に予測する方法は依然として課題となっています。この問題に対処するため、研究者たちはEpicPredを開発しました。これは注意メカニズムに基づく多インスタンス学習(Multiple Instance Learning, MIL)モデルであり、がんやCOVID-1...

DeepES: ディープラーニングに基づく酵素スクリーニングによるオーファン酵素遺伝子の特定

学術的背景 シーケンシング技術の急速な進展により、科学者たちは大量のタンパク質配列データを取得できるようになり、その中には多くの酵素配列も含まれています。しかし、京都遺伝子とゲノム百科事典(KEGG)やBRENDAのような大規模な酵素データベースが構築されているにもかかわらず、多くの酵素の配列情報は依然として欠落しています。これらの配列情報が欠如している酵素は「オーファン酵素」(orphan enzymes)と呼ばれています。オーファン酵素の存在は、配列類似性に基づく機能アノテーションを著しく妨げ、配列と酵素反応の間の関係を理解する上で大きな空白を生んでいます。 オーファン酵素の問題は、配列情報の欠如に限らず、生物学的プロセスの理解にも影響を及ぼしています。例えば、ヒト腸内細菌叢における多く...

MostPlas: プラスミド宿主範囲予測のための自己修正多ラベル学習モデル

プラスミド(plasmid)は、細菌の染色体DNAとは独立した小型の環状二本鎖DNA分子であり、水平遺伝子伝達(horizontal gene transfer)を通じて宿主細菌が抗生物質耐性や金属耐性などの有益な特性を獲得するのを助けます。一部のプラスミドは、複数の微生物間で転移、複製、または持続することが可能であり、これらは広宿主範囲プラスミド(broad-host-range plasmids, BHR plasmids)と呼ばれます。BHRプラスミドの宿主範囲を正確に予測することは、プラスミドがどのように細菌の進化を促進し、耐性遺伝子を広めるかを理解するだけでなく、組換えベクターの開発においても重要な意義を持ちます。しかし、現在のところ、BHRプラスミドの詳細な宿主範囲ラベルを提供す...

Transformerモデルを用いたDNA配列アラインメントの研究

学術的背景 DNAシーケンスアラインメントは、ゲノム解析における中心的な課題であり、短いDNA断片(リード)を参照ゲノム上の最も可能性の高い位置にマッピングすることを目的としています。従来の方法は通常、2つのステップに分かれています。まずゲノムをインデックス化し、次に効率的な検索を行ってリードの可能性のある位置を特定します。しかし、ゲノムデータの爆発的な増加、特に数十億塩基対の参照ゲノムを扱う場合、従来のアラインメント方法は計算効率と精度の面で大きな課題に直面しています。近年、Transformerモデルが自然言語処理(NLP)分野で成功を収めたことから、研究者はこれをDNAシーケンス解析に応用しようとしています。これまでの研究では、Transformerモデルが短いDNAシーケンスの分類タ...