自然言語処理的視点から見た「覚え違いタイトル集」
n 年振りに記事を書く。
異なる表現で書かれたテキストの同義性の認識(言い換え認識)は、自然言語処理がほとんど常に直面する本質的な問題である*1。
福井県立図書館サイトの「覚え違いタイトル集」では、利用者が誤って覚えた図書タイトルと正しい図書タイトル*2のリストが公開されている。
https://www.library-archives.pref.fukui.lg.jp/tosyo/category/shiraberu/368.html
例えば、次のようなものがある。(誤 → 正)
- 強い風が吹いてきた → 風が強く吹いている
- さんまのおふだ → さんまいのおふだ
- 「バトルロイヤル」もしくは「バトルロイアル」 → バトル・ロワイアル
- 「探さない」とかそんな感じのヤツ → 求めない
Twitterで話題になっているように、エンターテインメントとしてリストを眺めても楽しめるが、言語処理で対処するにはどうするかという観点で眺めても、示唆的である。
福井県立図書館の「覚え違いタイトル集」久々に見たらやっぱり面白すぎて無理だった😂https://t.co/2Dp3ZkS8RS pic.twitter.com/jwirwM3xb0— きっかわ (@tegenosan) 2021年1月21日
「覚え違いタイトル集」にあるペアは、二つのテキストの同義性または類似性を判定するタスク*3と考えると、言語処理要素技術を総動員しても解けない超高難度の事例が豊富にある。そもそも「意味が同じ」というパラフレーズの関係を超えた超パラフレーズ的事例で、一種の誤り訂正でもある。言語処理の対象としてユーザ生成テキスト(ブログやSNSの投稿)を眺めていると、人間の言語使用の自由さ・柔軟さと言語処理の難しさを考えさせられるが、本タイトル集ではそれに勝るとも劣らない複雑な言語現象が生じている。
そのことを踏まえた上で、以下、正タイトルが誤タイトルに変更される要因に基づいてペアを分類してみる。
同義・類義(語レベル)
- あと全部ホリデイ → 残り全部バケーション
- よるのおばけ → よるのばけもの
- 悪者 → 悪人
- カウンセラー → セラピスト
- そのへんの石 → 路傍の石
兄弟概念(上位概念が共通)(語レベル)
- ニート、家を買う → フリーター、家を買う。
- 岩に泳ぐ魚 → 石に泳ぐ魚
- カラスの撃退法 → 鳩の撃退法
反義(語レベル)
- 100万回死んだねこ → 100万回生きたねこ
- けむたい先輩 → けむたい後輩
- 都市消滅 → 地方消滅
- 蟹の横ばい → 蟹の縦ばい
文字の視覚的類似
- 痔 → 痣
- 蚊にピアス → 蛇にピアス
- 権児楼 → 稚児桜
- 城中の露 → 城中の霜
文字列の類似
- サラダ日記 → サラダ記念日
- 入札 → 入れ札
音的類似
- 滅びた後のシンデレラ → 滅びの前のシャングリラ
- ぎんぎつね → ごん狐
- 唐魔族三兄弟 → カラマーゾフの兄弟
- アーム・ジョー → 噫無情
- グリーンサラダ → グイン・サーガ
- 情弱探偵 → 病弱探偵
- ねじ曲がったクロマニョンみたいな名前 → ねじまき鳥クロニクル
動詞の付属要素の変更
- バトンを渡す → そして、バトンは渡された
- 「払わない」というタイトルの本 → 払いません。
特に同義ではない名詞・動詞への変更
- 天の光はすべて道 → 天の光はすべて星
- もりのがっこう → くまのがっこう
- 『世界のたね』と似たようなタイトルの本 → 未来のたね
- 人魚の住む家 → 人魚の眠る家
- こころの医者、本を聴く → ココロ医者、ホンを診る
節レベルの同義・含意
- なぜ生きているのか → 生きているのはなぜだろう
- 郷里忘れ難し… → 故郷忘じがたく候
- 私、残業しません → わたし、定時で帰ります。
- いぬたちのさいごのひ → 犬たちをおくる日
- この空間を埋めよ → 空白を満たしなさい
構造の変更
- アーモンドチョコレート入りのワルツ → アーモンド入りチョコレートのワルツ
- 人生が片付くときめきの魔法 → 人生がときめく片づけの魔法
- インド2千年前のレシピ → チャラカの食卓 二千年前のインド料理
数値表現・助数詞の変更
複雑な例(類義語+音的類似+高度な含意)
- ドクタードリンク宇宙へgo →ドリトル先生月へゆく
複雑な例(その他)
- 肌の色 → ぼくはイエローでホワイトで、ちょっとブルー
- ストラディバリウスはこう言った → ツァラトゥストラはこう言った
- 俺がいて俺だけだったみたいなタイトル → 俺か、俺以外か。
- 「鳥の学者だけどそんなに鳥が好きではない」みたいなタイトル → 鳥類学者だからって、鳥が好きだと思うなよ
- 食パン食べると乳がんになるみたいなタイトルの本 → 乳がん患者の8割は朝、パンを食べている
- ほんださんが書いたこうやって生きなさいって感じの本 → 気楽に生きれば、自分が活きる(本多信一)
最後の方は分析が困難で分類を諦めたが、人間の覚え違いでは、意味的類似(同義、類義、反義)、音的類似、視覚的類似、文字列的類似などの観点で同一視が行われていることがわかる。つまり、これらの観点は類似性を捉える特徴として有用であり、実際にいろいろな研究で利用されている場面を見かける。*4
大規模事前学習ニューラルネットモデルに代表される最近の自然言語処理技術の進歩によって、数年前から考えると驚くような質・精度の向上が実現されてきている一方で、まだまだ解けていない問題も存在する。本タイトル集は、解けない/解くべき問題を考えるヒントを与えてくれる貴重な資源かもしれない。