クラスター検索でユーザーフレンドリー

従来の検索エンジンでは、検索キーワード(クエリー)を入力すると、キーワードに合致する膨大な結果が、その内容を整理することなく一覧表示される。もちろん、リンクの度合いが高いサイトなど、重要なサイトほど上位に表示されはするが、例えば、私の名前「渡辺弘美」でググって(グーグル検索して)みると、私本人に関する情報も多く表示されるが、私と同姓同名の方(名前からして女性が多い)の情報も混在した形で表示されてしまう。

このような情報の洪水問題を解決するために検索エンジン自体を改良するというアプローチもあるが、クラスター検索というアプローチで解決する方法もある。クラスター検索とは、複数の検索エンジンを利用して検索結果を得た後、検索結果の内容を分類整理し、概念や情報の内容が同じものをクラスターと呼ばれるカテゴリーにまとめて見せる手法である。画面の右側に通常の検索結果が表示され、左側にクラスターが表示される。クラスター自体をクリックすると、そのクラスターに分類された検索結果が表示される。私の名前で検索すると、私自身に関わる検索結果と、私と同姓同名の方の検索結果が分かれて表示される。

クラスター検索の代表格は、2000年に米カーネギーメロン大学の人工知能や言語学の3名の研究者で設立された米ペンシルバニアにあるビビジモ(Vivisimo)である。ビビジモは、自動的に情報を分類・整理する独自のテクノロジー であるヴェロシティ・サーチ・プログラム(Velocity Search Program)を有しており、企業向けのサービスを展開している。ビビジモの顧客には、シスコ・システムズ、P&G、米国政府(FirstGovという政府の公式ポータル)が名を連ねている。

また、ビビジモは、このクラスタリング技術をクラスティ(Clusty)という名で消費者向けにも提供している。ニュース、ブログ、ショッピングサイトなどの複数の情報を横断的に検索(メタ検索)し、その結果を自動的に分類・整理して提供している。既に2005年から日本語版(Clusty.jp)も公開が進んでいる。

さらに、クラスティの新たな試みが、クラスティラボ(Clusty Labs)に公開されている。一つは、2007年1月に発表されたもので、任天堂ウィー(Wii)向けに最適化された検索サービス(Clusty Wii)である。例えば、”Search”ボタンを押さなくとも、”OK”ボタンを押せばいいというような工夫がされている。もう一つは、クラスティの検索結果をタグ・クラウドとして見せるクラスティ・クラウド(Clusty Cloud)だ。検索結果としてよく出てくる用語を、ソーシャルブックマークのタグの集まりのように、よく出てくる用語ほど大きなフォントで表示されるという工夫がなされている。

このように、検索サービスは、検索技術自体の進化に加えて、検索結果をどう見せるかというユーザー・インターフェイス技術の進化も同時に起こっている。将来の検索サービスの姿は、これらの技術が融合されたものになるのかもしれない。

究極の検索、パーソナライズド・サーチ

「集合知」(Wisdom of Crowds)とは、自分以外の大衆の知恵を活用するということだが、「あなたの知恵」(Wisdom of Your Crowd)を使って検索、発見することができると標榜する検索サービスがある。米パロアルトにあるコラリティ(collarity)は、ユーザーの行動分析に基づいたパーソナライズド・サーチである。

先進ウェブ・テクノロジーを対象にした人気ブログであるリード・ライト・ウェブ(Read/WriteWeb)が2007年1月に読者投票した結果によると、「グーグルに打ち勝つ可能性の高い検索サービス」は、ハキアやパワーセットのような自然言語検索サービス、チャチャのような人力検索サービスよりも、コラリティのようなパーソナライズな検索サービスであるとした回答が多かった(22%の得票)。

例えば、”execution”という用語で検索する場合、ユーザーが財務に携わっている人であれば、この用語は会社のマネジメントを指すが、ユーザーがプログラマであれば、この用語はアプリケーションソフトウェアの稼働を指すという風に、ユーザーの日常の行動を踏まえた検索結果を示さないと、ユーザーにとっては不満に終わる場合がある。従って、どんなユーザーでも一律に同じ結果を示す検索エンジンよりも、パーソナライズな検索サービスの方が有用である訳だ。

コラリティは、ヤフーの検索エンジンを利用しているが、その検索窓の下には、「パーソナルなレベルでの検索」か、「コミュニティレベルでの検索」か、「グローバルなレベルでの検索」かをゲージで選択することができる。つまり、自分のこれまでの行動を踏まえた検索結果を求めたい場合には、パーソナルなレベルでの検索を選択すればいい。逆に、自分の行動パターンを無視した検索結果を得たい場合には、グローバルなレベルでの検索を選ぶ。

コラリティは、パーソナライズな検索サービスの中でも、行動に基づいたパーソナライズド・サーチ(Behavioral Personalized Search)である。つまり、コラリティは、パートナー関係にあるサイトの中で、ユーザーがどのような興味を持って行動しているかを、ジャバスクリプト(JavaScript)を利用して自動的に追跡している。

他方で、ロリヨ(Rollyo)やスウィキィ(Swicki)というパーソナライズド・サーチは、ユーザーの興味のあるキーワードや分野を予めユーザーが指定、入力する必要があるので、言わばマニュアルベースのパーソナライズド・サーチと言えよう。

ユーザーに特別の負担をかけることなく、いつの間にかユーザーの行動を精緻に分析した上でのオーダーメイドの検索結果を返してくれるコラリティのサービスは、究極の検索サービスになるかもしれない。

まだまだ開発余地のある画像・動画検索

現在よく利用されている検索技術の対象はテキスト(文字情報)である。グーグルのイメージ検索やユーチューブの映像検索は、画像や動画の内容自体を把握して検索しているのではなく、画像や動画に付されているタグ情報やメタデータを検索しているに過ぎない。

IT環境が潤沢になる中で、ネットの大海に画像や動画が溢れている。これらのリッチな情報の中身に踏み込んで検索できる技術が確立されれば、情報の利活用の第二の波が来るかもしれない。今、画像や動画の検索技術の開発競争が本格化しつつある。

2006年11月にローンチしたライク(Like)は、10万枚以上のセレブ達の写真を掲載し、画像検索技術を用いて、セレブの持っているハンドバック、アクセサリー、靴、時計などの持ち物と似た商品をユーザーに勧めるサイトである。勿論、セレブの持ち物情報からだけではなく、紳士用腕時計などの商品情報を選択し、更に色や形を指定して商品を絞り込むこともできる。最終的に選んだ商品をクリックすると、アマゾンなどのショッピング・サイトに飛ぶようになっている。

ライクを運営する米リヤ(Riya)は、元来有していた人間の顔認識の技術を発展させ、似ている画像の検索を可能にする技術(visual signature)を開発している。この技術を使えば、画像を数学的に処理して1万種類の指数が得られ、その指数の相当数が一致すれば、画像が似ていると判断するという。ライクには、ベイ・パートナーズ(Bay Partners)、ブルーラン・ベンチャーズ(BlueRun Ventures)、リープフロッグ・ベンチャーズ(Leapfrog Ventures)などが1950万ドル投資している。現在、ライクの商品売上げ規模は年間1200万ドルであり、毎月のユニークビジター数は約100万に上る。

この画像検索技術は、利用が進むウィジェット内でも活用され始めた。人気の写真ウィジェットを提供するロックユー(RockYou)は、ライクの検索結果をウィジェット内に統合した。これにより、SNSのページを訪問したユーザーが、写真中の友人が着ている服と似た服を買いたくなれば、クリック一つで購入できるようになった。

動画検索では、ブリンクス(Blinkx)の技術が興味深い。2004年に設立されたブリンクスは、今では200以上のメディア企業と提携し、1400万時間分の動画を検索可能な状態に置いている。同社の技術は、他の検索サイトのようにテキスト情報で検索するのではなく、音声認識技術や動画分析ソフトウェアを利用しているという。同社の技術の源泉はケンブリッジ大学での研究であり、以後、1億5千万ドルもの研究開発資金が投入されて、現在の同社の技術は111の特許で保護されている。ブリンクスは、現時点では、世界最大のリッチ・メディア・コンテンツのインデックスとなっている。同社は、2007年5月にロンドンにてIPOを果たした。

画像や動画の検索技術は、まだ未成熟であり、まだまだ開発の余地がある分野である。一刻も早く開発競争の首位に立ったものが、次代の覇者になるかもしれない。

ユーザーに優しい人力検索

検索技術に長けている人は、精度の高い検索結果を得るためにどのようにディレクトリーを辿ればよいか、どんな検査キーワード(クエリー)を入力すればいいか、どんな検索テクニックを使えばよいかを知っているが、普通のユーザーはそうはいかない。では、もっと人間の要求をシステム側が正しく理解できるように、パワーセット(Powerset)のように自然言語で検索したり、ハキア(Hakia)のようにセマンティック(意味解析)な検索をしたりすることができるようになればよいが、実際、本格利用までにはまだまだ時間がかかりそうだ。ならば、人手を使ってユーザーの検索行為を手助けしようという発想が、「人力検索」である。

日本の場合、人力検索の老舗は「はてな」であるが、「マンションの隣人の女性が深夜に洗濯をして困っているが、でもその女性のことを気に入っているので交際を申し込みたいけれど、どうしたらよいか」といった悩み相談や、「どうして本や雑誌は定価販売しかないのか」といった世の中の疑問を問うような質問をし、ユーザーがあれこれ答えるというスタイルになっている。ユーザーが質問し、他のユーザーがそれに答えるという意味では、いわゆるウェブ2.0的性格をもっていると言えようが、通常、グーグルで検索するような事柄の人力検索としては利用されていない。

米インディアナポリスに拠点のあるチャチャ(ChaCha)は、「検索+人力(Search + Brainpower)」を標榜している検索サイトである。チャチャの検索窓にキーワードを入力すると、他の検索エンジンと同様に結果を一覧表示するが、その上段に、「お手伝いが必要ですか?ガイドと一緒に検索しますか?(Need help? Search with a Guide)」と表示される。「Search with Guide」のボタンをクリックすると、画面左側にガイド・セッションの欄が現れ、チャチャのガイドが「Hello. How may I help you?」とチャットで語りかけてくる。自分の探したい事柄をガイドにチャットで伝えれば、次から次へと検索結果に導いてくれる。まさしく「人力検索」である。365日、24時間いつでもガイドと話をすることができる。このガイドはロボットではなく、時給5から10ドルで雇われた本物の人間であり、チャチャはウェブサイト上でガイドになりたい人の申請を受け付けている。現在、3万人ものガイドを抱えているという。

チャチャのビジネスモデルはまだ確立していないように見受けられるが、アマゾン創業者のジェフ・ベゾス(Jeff Bezos)が同社の出資に関わっている。アマゾンは、数年前からアマゾン・メカニカル・ターク(Amazon Mechanical Turk)という、コンピュータが苦手な作業を人力で解決するサービスを展開しており(例えば、会社の倉庫に似合う看板はどれかを選択するような仕事)、人力に早くから注目していた。今後、アマゾン上での商品検索のガイドとして人力導入を検討しているのかは分からないが、その可能性に注目していることは確かだ。

次に、人力検索エンジンを標榜しているマハロ(Mahalo)を紹介したい。マハロは、予め1万ほどの検索キーワード(クエリー)に対応した検索結果ページを人力で作成している。

マハロのトップページには、ファッション、セレブのゴシップ、トラベルなど、多くのユーザーが興味を示そうなディレクトリーが並んでいる。これらのディレクトリーから階層を辿ってもいいし、検索窓にキーワードを入力してもいいが、特長的なのは、検索結果のトップに人力で予め検索した7つの検索結果(The Mahalo Top 7)が表示されることだ。マハロを使えば、グーグルなどの検索エンジンで欲しい結果が得られるまでの時間を節約することができるというのが売りである。また、マハロで検索すると、使えるリンク集が同時に表示され、これらのリンクもグーグルで探すのは容易ではないとしている。マハロは、「情報を探す時間の分だけ、コンテンツを楽しむ時間に充てて欲しい」とユーザーに訴えている。

マハロは、人力で膨大な百科事典のような情報源を予め製作しておき、検索キーワードに対応したコンテンツを表示する。いわば、ウィキペディア(Wikipedia)とグーグルとを統合したようなモデルになっている。マハロは、2008年までに25,000のクエリーに対応したいとしている。

最後に紹介したいのは、人力で検索結果の上位表示を変更するスプローズ(Sproose)である。検索キーワードを入力すると、ユーザーが適切な検索結果であると投票した数の最も多い検索結果ほど、上位に表示される。また、投票した他のユーザーの投票履歴などを見ることもでき、ユーザー間のソーシャルな関係も構築できる。いわば、ディグ(Digg)の特徴を検索サイトに応用した例である。

これから検索サービスを利用するユーザーの裾野は広がるばかり。あまり高度な検索手法に慣れていない多くのユーザー層には、人力検索は欠かせないサービスになりそうである。

姿を現し始めた自然言語検索パワーセット

あらためて言うまでもなく、検索エンジンはインターネット利用には不可欠な存在になった。米調査会社ニールセン・ネットレーティングス(Nielsen Netratings)の2007年7月のデータによれば、米国では、日本と異なりヤフー(Yahoo)(シェア20.1%)ではなく、グーグル(Google)の利用シェア(シェア53.3%)の方が大きい。グーグルが如何に大きな存在かは、時価総額(1,671億ドル)を語らずとも見た目でも分かる。シリコンバレーはマウンテンビュー(Mountain View)にあるグーグル・キャンパスに行くと、シリコン・グラフィックス(SGI)が入居していたビル群ではスペースが足りず、周辺のオフィスビルにも次々とグーグルの看板を付けている。グーグルの創業者であるラリー・ページ(Larry Page)やセルゲイ・ブリン(Sergey Brin)が乗るプライベート・ジェット機は、唯一、シリコンバレーにあるNASA専用の飛行場から離発着が許されている民間機である。また、シリコンバレーだけでなく、世界中の優秀なエンジニアが、その土地を離れずに仕事が出来るよう、ニューヨークや東京など世界中の都市にもオフィスを構築している。日本の若きエンジニア達も就職先にグーグル本社やグーグル・ジャパンを選んでいる。

米国では、この巨大なグーグルに対して、検索エンジンの世界で真っ向から勝負をかけようとしている企業が多数ある。グーグル以外の検索エンジンを解説するブログ「Alt Search Engines」では、毎月、新興検索エンジンのトップ100を紹介している。

これら新興検索エンジンには、いくつかの特徴がある。一つは、自然言語での検索を可能にしたり、人力を活用して検索したりするという、「より人間が使いやすい検索テクノロジー(Better Technology)」を使うもの。二つ目は、検索結果のプレビュー画面を見せたり、クラスターに分けて検索結果を表示したり、視覚化技術を用いて分かりやすくしたりという、「よりよいユーザー・インターフェイス(Better UI)」を使うもの。三つ目は、ブログ、不動産情報、医療情報など特定の情報分野や専門領域の検索を得意とする「垂直型の検索エンジン(Vertical Search)」である。

自然言語検索の有望格は、米パワーセット(Powerset)である。同社は、グーグルのようなキーワード検索の限界を打ち破り、人間にとって自然で直感的な検索ができるエンジンを開発中だ。例えば、グーグルを使って、”book by children”と”book for children”のキーワードで検索した場合、”by”や”for”の前置詞はグーグルでは「ストップ語」という扱いになり無視されてしまい、この2つのキーワードでの検索に違いがなくなってしまう。しかしパワーセットでは構文解析して検索するので、「子供が書いた本」なのか「子供向けの本」なのかを判別して検索結果を表示できるという。同社の技術は、一部は内部で開発されたものであるが、一部はゼロックスのパロアルト研究所(PARC)との間でライセンス契約されたものであると言う。

これまで、パワーセットの検索技術のレベルはヴェールに包まれており、一部のスクリーンショットが提供されていただけであった(“politicians who died in office”と入力すると、その意味を捉えて、事務所で死んだ政治家に関する検索結果が得られる旨、スクリーンショットで提供していた)。
2007年9月にネットテクノロジー系ブログのテッククランチ(TechCrunch)が、有望スタートアップ企業40社を紹介するイベント「テッククランチ40」を開催したが、40社のうちの1社としてパワーセットも登場し、同イベント参加者を優先的に招待するパワーセット・ラボ(Powerset Labs)を開設することを表明した。パワーセット・ラボでは、ウィキペディア(Wikipedia)上のテキスト情報の意味を解析し、構造化された事実をインデックス化するパワーマウス(Powermouse)などの試みについてのユーザーフィードバックを求めるとのことだ。これで、今まで全く非公開であったパワーセットの本当の実力が、徐々に明らかになるであろう。