１月１７日

隠しファイル

　検索サイトがいくつかありますが、特にドキュメントファイルを検索する仕組みのサイトの場合、リンクが全く張られていなくても、検索の対象になります。

　例えば、私が社外秘のファイルを作成したとしましょう。テキストファイルで「○○運用会社　新ファンドにおける～」ナンテ感じのファイルを作成し、自分のホームページのディレクトリにＦＴＰ送信するんです。フロッピーディスクで自宅に持ち帰るのは面倒ですし、自宅で、ダウンロードした方が簡単ですから。すると、私のホームページからは、このファイルにリンクを張っていなくても、infoseekやgooで『○○運用会社』と入力して検索をかけると、ピックアップされてしまうんです。検索サイトは、人手で、ホームページを１ページずつアクセスして、書かれている内容をデータベース化しているわけではありません。巡回すると決まったドメインに関しては、そこに置かれているファイルを機械的にだだだだーーーーとアクセスしてテキストファイルを読み上げ、データベース化しているのです。ですから、秘密のファイルを、自分のホームページ用のディレクトリに保存しておいて、誰もアクセスできないと思ったら大間違いなんです。

　これをクリアするためには、ファイルにアクセスした場合や、そのディレクトリにアクセスした段階でパスワードを要求するように、全てのファイルにプログラミングをするしかないと思っていました。CGIでそう言った込み入ったプログラムを書くのはちょっと面倒。私が会議室で使っているパスワード管理プログラムは随分簡単に出来ていますので、これをクリアするのは実は簡単なんです。しかし、新聞社サイトやその他の企業サイトが利用しているパスワードプログラムは結構複雑で、その上外注するとそれなりに金額を請求されます。

　そんな訳で、隠しファイルは、フロッピーディスクで持ち帰るか、メールで送信するしかないなと思っていたんです。ところが、infoseekの解説をじっくり読むと、これを解決できる方法があるようです。

　その方法は/robots.txtと言うファイルを置くこと。このファイルは、サーバー側で検索サイトが使っているWWWロボットの行動を制限するために用意するファイルです。回収してもらいたくないページや、回収してもらっても無意味だと思われるページがある場合にロボットによる回収を拒否することが可能です。ただし、これは紳士協定的な取り決めですので、 /robots.txtによる指定を守らないロボットも存在します。また、現在のところ、/robots.txtはサーバー管理者以外は関知できませんので、サーバー管理者の方に頼んで用意してもらうしかないようです。詳細はこちらです。

back to my homepage