1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。
今回は、AIがRNAの未知なる領域を解析し、7万以上の新種ウイルスを発見した論文「Using artificial intelligence to document the hidden RNA virosphere」に注目します。
RNAは「リボ核酸」(Ribonucleic Acid)の略称で、DNAの遺伝情報を基に合成され、タンパク質の生成に必要な情報を運ぶ一本鎖の核酸です。
中国の中山大学やアリババグループなどに所属する研究チームは、世界中の多様な環境から採取された1万487のサンプルを分析しました。これらのサンプルには、海洋、河川、湖沼、土壌、湿地帯、温泉、深海熱水噴出孔など、さまざまな生態系が含まれています。分析には、研究チームが新たに開発した「LucaProt」と呼ばれるAIモデルが使用されました。
▲さまざまなサンプルをLucaProtで多数のRNAウイルスを検出
LucaProtは、Metaの研究者らが開発した「ESMFold」というタンパク質予測ツールを組み込んだAIモデルです。深層学習を用いたトランスフォーマーベースのモデルで、RNAウイルスの特徴的な酵素であるRNA依存性RNAポリメラーゼ(RdRP)を高精度で検出するよう設計されています。
このAIモデルの特筆すべき点は、タンパク質の配列情報だけでなく、構造情報も利用している点です。これにより、従来の手法では見逃されていた非常に変異の大きいウイルスも検出することが可能になりました。
この新しい手法を用いた分析の結果、16万1979種の推定RNAウイルス種が発見されました。さらに、180の新しいRNAウイルスの「スーパーグループ」も特定されました。これらのスーパーグループは、既知のウイルス目や門に匹敵する大きな分類群です。特筆すべきは、LucaProtによって新たに7万458種の固有のウイルス種が同定されたことです。
▲RNAウイルススーパーグループの信頼性の評価
発見されたウイルスの中には、これまでに知られている中で最も長いRNAゲノムを持つものも含まれていました。土壌サンプルから見つかったこのウイルスのゲノムは、約4万7250塩基対の長さがあり、既知のRNAウイルスの中でも最長クラスです。