自然言語処理的視点から見た「覚え違いタイトル集」

7年振りに記事を書く。


異なる表現で書かれたテキストの同義性の認識は、自然言語処理がほとんど常に直面する本質的な問題である*1。ある言語表現と同等の意味を持つ別の言語表現を認識/生成するタスクは,パラフレーズ(言い換え)認識/生成として、言語処理において昔(少なくとも1990年代)からある問題である。

福井県立図書館サイトの「覚え違いタイトル集」では、利用者が誤って覚えた図書タイトルと正しい図書タイトル*2のリストが公開されている。
https://www.library-archives.pref.fukui.lg.jp/tosyo/category/shiraberu/368.html

例えば、次のようなものがある。(誤 → 正)

  • 強い風が吹いてきた → 風が強く吹いている
  • さんまのおふだ → さんまいのおふだ
  • 「バトルロイヤル」もしくは「バトルロイアル」 → バトル・ロワイアル
  • 「探さない」とかそんな感じのヤツ → 求めない

Twitterで話題になっているように、エンターテインメントとしてリストを眺めても楽しめるが、言語処理で対処するにはどうするかという観点で眺めても、示唆的である。

福井県立図書館の「覚え違いタイトル集」久々に見たらやっぱり面白すぎて無理だった😂https://t.co/2Dp3ZkS8RS pic.twitter.com/jwirwM3xb0— きっかわ (@tegenosan) 2021年1月21日

 「覚え違いタイトル集」にあるペアは、二つのテキストの同義性または類似性を判定するタスク*3と考えると、言語処理要素技術を総動員しても解けない超高難度の事例が豊富にある。そもそも「意味が同じ」というパラフレーズの関係を超えた超パラフレーズ的事例で、一種の誤り訂正でもある。言語処理の対象としてユーザ生成テキスト(ブログやSNSの投稿)を眺めていると、人間の言語使用の自由さ・柔軟さと言語処理の難しさを考えさせられるが、本タイトル集ではそれに勝るとも劣らない複雑な言語現象が生じている。

そのことを踏まえた上で、以下、正タイトルが誤タイトルに変更される要因に基づいてペアを分類してみる。 

同義・類義(語レベル)

  • あと全部ホリデイ → 残り全部バケーション
  • よるのおばけ → よるのばけもの
  • 悪者 → 悪人
  • カウンセラー → セラピスト
  • そのへんの石 → 路傍の石

兄弟概念(上位概念が共通)(語レベル)

反義(語レベル)

  • 100万回死んだねこ → 100万回生きたねこ
  • けむたい先輩 → けむたい後輩
  • 都市消滅 → 地方消滅
  • 蟹の横ばい → 蟹の縦ばい

文字の視覚的類似

  • 痔 → 痣
  • 蚊にピアス → 蛇にピアス
  • 権児楼 → 稚児桜
  • 城中の露 → 城中の霜

文字列の類似

  • サラダ日記 → サラダ記念日
  • 入札 → 入れ札

音的類似

動詞の付属要素の変更

  • バトンを渡す → そして、バトンは渡された
  • 「払わない」というタイトルの本 → 払いません。

特に同義ではない名詞・動詞への変更

  • 天の光はすべて道 → 天の光はすべて星
  • もりのがっこう → くまのがっこう
  • 『世界のたね』と似たようなタイトルの本 → 未来のたね
  • 人魚の住む家 → 人魚の眠る家
  • こころの医者、本を聴く → ココロ医者、ホンを診る

節レベルの同義・含意

  • なぜ生きているのか → 生きているのはなぜだろう
  • 郷里忘れ難し… → 故郷忘じがたく候
  • 私、残業しません → わたし、定時で帰ります。
  • いぬたちのさいごのひ → 犬たちをおくる日
  • この空間を埋めよ → 空白を満たしなさい

構造の変更

  • アーモンドチョコレート入りのワルツ → アーモンド入りチョコレートのワルツ
  • 人生が片付くときめきの魔法 → 人生がときめく片づけの魔法
  • インド2千年前のレシピ → チャラカの食卓 二千年前のインド料理

数値表現・助数詞の変更

複雑な例(類義語+音的類似+高度な含意)

複雑な例(その他)

  • 肌の色 → ぼくはイエローでホワイトで、ちょっとブルー
  • ストラディバリウスはこう言った → ツァラトゥストラはこう言った
  • 俺がいて俺だけだったみたいなタイトル → 俺か、俺以外か。
  • 「鳥の学者だけどそんなに鳥が好きではない」みたいなタイトル → 鳥類学者だからって、鳥が好きだと思うなよ
  • 食パン食べると乳がんになるみたいなタイトルの本 → 乳がん患者の8割は朝、パンを食べている
  • ほんださんが書いたこうやって生きなさいって感じの本 → 気楽に生きれば、自分が活きる(本多信一

最後の方は分析が困難で分類を諦めたが、人間の覚え違いでは、意味的類似(同義、類義、反義)、音的類似、視覚的類似、文字列的類似などの観点で同一視が行われていることがわかる。つまり、これらの観点は類似性を捉える特徴として有用であり、実際にいろいろな研究で利用されている場面を見かける。*4

大規模事前学習ニューラルネットモデルに代表される最近の自然言語処理技術の進歩によって、数年前から考えると驚くような質・精度の向上が実現されてきている*5一方で、まだまだ解けていない問題も存在する。本タイトル集は、解けない/解くべき問題を考えるヒントを与えてくれる貴重な資源かもしれない。

*1:とは言いつつ、著者の最近の研究トピックである単語分割は、意味の領域に踏み込まなくても解けるタスクである。

*2:「覚え違い?」と「こうかも!」という列名となっており、後者は図書館員のサジェストのように見えるが、投稿フォーム経由でユーザ自身が「正しいタイトル」として入力した情報のようである。

*3:正解候補提示までを自動で行うなら、入力に対して候補を探索し、各候補を評価して最適な候補を選択するタスクとなる。

*4:これらの特徴の使用頻度には差があり、視覚的類似性は主に漢字のような表語文字を扱う場合に限られる。

*5:BERTをはじめとするセサミストリートファミリーの各モデル、印象的な事例ではGPT-3やDALL·Eなど。