ゲノムをゼロから生成するDNA言語AI「Evo 2」。全生命から収集された9.3兆塩基対のDNAで訓練(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、ゼロからゲノムを生成できる、9.3兆個塩基対のDNA配列データを学習した40Bパラメータを持つ大規模言語モデル(LLM)を提案した論文「Genome modeling and design across all domains of life with Evo 2」(GitHub)に注目します。

▲Evo 2は全生命から収集された9.3兆塩基対のDNAで訓練されたLLM

Evo 2は、バクテリアから植物、動物まで、地球上の様々な生物から集めた9.3兆個塩基対のDNA配列データを学習しています。これは生物学分野で最大規模の学習データとなります。この膨大なデータを処理するため、Evo 2には40Bパラメータを持つ大規模版と、7Bパラメータを持つ小規模版の2種類が用意されています。

▲Evo 2の機能と応用範囲を示した概要図

特筆すべき点は、Evo 2が100万個の塩基配列を一度に分析できることです。これは、長大なDNA配列の中から重要な特徴を見つけ出すのに役立ちます。

また、事前の訓練なしに、DNAの変異が生物に与える影響を高い精度で予測できます。例えば、ヒトの遺伝病に関連する遺伝子変異について、その病原性を正確に予測することができます。特に、乳がんなどの原因遺伝子として知られるBRCA1遺伝子の変異の影響を、既存の手法よりも高い精度で予測することに成功しました。

▲Evo 2がDNAやRNAからタンパク質、そして生物レベルまでの様々な生物学的特徴を解読・予測できることを示した図

さらにEvo 2は、新しいDNA配列を一から設計する能力も持っています。研究チームは、細胞のエネルギー工場であるミトコンドリアの全遺伝情報(約16,000塩基対)や、生存に必要最小限の遺伝子セットを持つ細菌のゲノム(約580,000塩基対)、酵母の染色体(約330,000塩基対)などの設計に成功しました。これらの人工的に設計されたDNA配列は、自然界に存在するものと同様の特徴を持っていることが確認されています。

《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。