Google イメージ検索の研究

先日から Google がベータ公開しているイメージ検索サービスについて考察してみました。

現時点で分かっていることは、イメージ検索といっても実体はテキスト分析による画像の索引化だということ。画像そのものではなくウェブページによるメタ情報や、文脈情報といったものが検索されるということ。そしてメタ情報と文脈はどちらが主でどちらが従ということはなく、スコアリング次第でメタ情報より文脈情報が優先する場合があるということ。

このページは、随時更新しています。

Google イメージ検索とは

大手検索エンジンの米 Google が現在テスト公開中のサービスで、ワールドワイドウェブ上の画像を、キーワードを使って検索する。

検索の方法は普通のウェブページの検索とほとんど同じだが、検索結果ページには画像のサムネイルが並び、どれかを選択するとより大きな写真と、その画像を含むウェブページが紹介される。つまり画像は常に、ウェブページとセットになった形で表示される。

イメージ検索でヒットするための条件

筆者が確認した検索例をもとに、イメージ検索でヒットするためのいくつかの条件をあげてみる。前提として検索のキーワードと何らかの形で関連付けられていることが必要だが、その関係付けの方法については今のところ、以下のことがわかっている。

メタ情報(直接的な意味付け)

ここでメタ情報とは、ウェブページの HTML の中で、その画像に与えられ意味情報。これはウェブページの著者が明示的に与えた意味付け情報であり、Google がこれに注目するのは当然といえる。

具体的には img 要素の alt オプション内容のテキストが Google で索引化に使われるようだ。他にも title オプションあたりは有効そうに思えるが、具体例は確認できていない。

同じ画像が、別のウェブページで使われることがある。それぞれのページで同じ画像に別の意味付けをしている場合には、一つの画像が複数の意味付けを持つことになる。このような場合、ページが Google にクロールされていれば、両方とも索引化される。

文脈情報(間接的意味付け、あるいはHTML分析による推定)

ここで文脈とは、上記のメタ情報以外のあらゆる情報を一応まとめてそう呼ぶことにする。メタ情報という直接的な意味付けに対する、間接的な意味付けといったくらいの意味。

HTML 仕様上、ウェブページ内で使用する画像にはalt文字列による代替文字列をつけることになっており、titleオプションで説明を加えるといったことも可能になってはいる。しかし実際のワールドワイドウェブでは、そのような情報が一切なしに使われている画像も多い。

Googleイメージ検索では、こうしたメタ情報を全く持たない画像についても、間接的な情報に基づいて特定のキーワードと関連付け、検索の対象としているようだ。この関連付けについては、ウェブ検索の技術が応用されているように見える。

画像とキーワードの近接度

ウェブページ内の、検索キーワードと画像ファイルの距離が近い場合に、検索対象となるようだ。メタ情報を伴わない場合は、たまたま近接しているというだけで、的外れな画像がヒットするといった場合も見られる。たとえば有名人の名前で検索してみると、明らかに別人の画像が混じっているのがわかる。

その他

画像が表組みの中に置かれている場合、Google はテーブルセルの切れ目を意味の切れ目とみなすようだ。HTML コード内で画像とキーワードの位置が比較的近い場合であっても、テーブル内の別のセルにある場合は、 Google のイメージ検索ではヒットしないことがある。

検索キーワードに対し、ウェブ検索で使用されているシソーラスが適用されるようだ。イメージ検索でも、「ビル・ゲイツ」「ビルゲイツ」の検索結果は非常に近い。

スコアリングについての考察

複数の画像がヒットする場合、どの画像が高いスコアで評価されるかという問題。

上記のメタ情報と文脈情報は、それぞれに重み付けされた上で両方とも重視されるようで、どちらが主でどちらが従ということはない。ケースによってはメタ情報による画像よりも、文脈情報から拾ったページが優先されることがある。

リンク

Google イメージ検索

Google イメージ検索に関する FAQ

Google、日本語サイトをリニューアルし、イメージサーチやツールバーサービスをスタート


Last Update:
Copyright 2002 © サーチエンジン対策研究会