「生成AI vs. 著名な詩人」どっちの詩が好き？　シェイクスピアやディキンソンなどとAI詩を比較（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深い技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、AIが生成した詩と詩人による作品とが区別できるのか、またどちらが好まれるかを調査した論文「AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably」に注目します。

▲シェイクスピア（Wikipediaより引用）

研究チームは、1634人の参加者を対象に、AIが生成した詩と有名な詩人による作品を区別できるかを検証する実験を実施しました。

実験では、ChatGPT 3.5を使用して、10人の著名な詩人それぞれのスタイルで5編ずつ、計50編の詩を生成しました。

Geoffrey Chaucer (1340年代-1400年)
William Shakespeare (1564-1616年)
Samuel Butler (1613-1680年)
Lord Byron (1788-1824年)
Walt Whitman (1819-1892年)
Emily Dickinson (1830-1886年)
T.S. Eliot (1888-1965年)
Allen Ginsberg (1926-1997年)
Sylvia Plath (1932-1963年)
Dorothea Lasky (1978年- )

これらの詩は、特別な調整や人間による選別を行わず、AIが最初に生成したものをそのまま使用しています。同時に、各詩人の実際の作品からも5編ずつを選び、比較対象としました。

その結果、参加者の正答率は46.6%にとどまり、これは偶然による判別率を下回る水準でした。さらに興味深いことに、参加者はAIが生成した詩を、実際の人間の詩人による作品よりも頻繁に「人間が書いた」と判断する傾向が明らかになりました。

次に、696人の参加者を対象に、どの詩が好きかという質的評価を実施しました。質的評価では、リズム、美しさ、感情表現、意味の深さなど14の評価項目に基準を分け、細かく評価しました。

結果は、ほとんどの評価項目において、AIが生成した詩の方が高い評価を得ました。

▲詩の質的評価における14の尺度

▲詩の全体的な質の評価を、AIと人間の作者別に比較した図

参加者は「AIは韻を踏むのが苦手」「長い詩を作れない」という誤った思い込みを持っていましたが、実際にはAIの詩の方が韻を踏む割合が高く（AI：89%、人間：40%）、長さにも有意な差はありませんでした。

また、参加者は詩がAIによって生成されたと告げられた場合、その評価を下げる傾向がありました。この結果は、人々のAIに対する期待や先入観と、実際のAIの能力との間にギャップが存在することを示しています。

山下裕毅（Seamless）