驚きのあるプログラミングとデータ収集趣味

芸風というのは歳とともに変わるもので、自分でかくプログラムで好きなのは、データをああだこうだと加工して出力する類のものです。

むかしは、ゲームなんかもつくっていたくらいなので、GUI 部品とかそういったプレゼンテーションレイアーのプログラミングがすきだったのですが、最近はバックエンドでこそこそ動いて、画面にはなにもださずに、でもすごいことをやってのけて終了する UNIX のコマンドのようなソフトが好みです。

というのは、GUIとかって自分でかいても、あたりまえというか(いや、ホントはすごいんですけど!)、動作の予測ができてしまうところに驚きがないのが、自分ではかかなくなった原因なのかと思います。(あくまでソースコードのアルゴリズムのお話です)

楽しいのは、自分でかいたコードが正しく動いているのに、結果が自分の想像と違うとき!

[tegaki]そーだったのか![/tegaki]

なんだかドキドキしちゃいますよね。(笑)

たぶん、WordPress のつくったプラグインで、この最たる例で言えば wp-kumonosu が代表です。

wp-kumonosu

基本はサイトにいただいた、コメント・トラックバックをさまって管理画面に表示するだけ。 WordPress の動作になにも影響しないというへんてこなプラグインですが、昔に一度だけコメントをいただいた方とかを思い出して、浸れるという素敵な部分をもちます。 🙂

wp-kougabu も、自分では忘れていたような画像をひっぱりだしてくるという意味では似ているのかもしれません。

wp-kougabu10

どちらも自分で動かしてみて、「おー!そうかー!」、みたいな感覚になれるのが面白かったです。

ソースコードというのは自分の頭の中の処理をそのままかいただけのもの。 でも、与えるデータによっては意外性がでてきたりする。 これがぼくがプログラミングをする楽しみのひとつなのかもしれません。

で、重要なのはデータ。 そんなこともあり、自分はわりとデータ収集趣味があるのではないかとおもいます。 なんといっても、スパムメールですら 3万通くらいとってあったりするのです。 これは、もちろんスパムフィルターの学習素材です。

あと、WordPress にくるスパムコメント。 なにげにあれのホスト情報はプロキシを探すのに便利かも。 関係ないか。(笑)

メールに関して言えば、メーリングリストも相当な情報源で、おそらくトラブルがあったときは Google を検索するより、メーラでその話題を扱っているメーリングリストを検索したほうが早いと思います。

あとは、RSS。

これは、家のローカルサーバで動かしているフィードリーダを使っていますが、理由は取得フィードの保存期限が事実上無限だからです。 インターネット上の RSSリーダは、保存期限が明確でなくてどうも不安です。 中身のエクスポートもできないみたいだし。

yutakasan

うちの Gregarius という feed aggregator の MySQL の内容です。 データは 2006/10/06 から保存されています。 (上は yutaka さんの記事です!) Gre ちゃんは、そんな使いやすいソフトではないのですが、データベース構造がそのまんまで、分かりやすいので愛用しています。

RSS によるコンテンツ配信については、納得いかないことのひとつが画像の扱いです。

・・・だって、画像はただの直リンクなんだもん。 🙂 サイト消えたら画像見えなくなります。 RSS はコンテンツ配信という意味では、かなり不完全な仕組みだと思うんですがどうなんでしょう・・・。 配信されてねーじゃん、みたいな(笑) 今は img タグ見つけたら、そのままサーバに画像吸い取ってリンクをすげかえようかと、ちょっと画策していたりもします。

ほかに RSS に関しては、RSS を登録するとほぼフルオートで解析して、勝手に全文RSSをつくるプログラムをかいていて、これにニュースサイトRSSを登録しているので、どんどん Gregarius にスクラップされていっています。 あれ、そんなニュースあったなーとかって検索できて便利です。

以上はすべてローカル(手元)にデータがあるからできる芸当。 MySQL で like 検索するもよし、形態素して検索するもよし。

データ集計検索こそ、オープンアーキテクチャであり、自分の意思でデータを集め、自分のアルゴリズムで行うべき事柄。

Google に対する過度の信頼は、彼らに情報操作される危険性をはらむ。 都合の悪いこと、もしくは他者からの巨額の裏の金のやりとりで、順位操作がされている可能性を排除してはいけない。 彼らは自ら語ることなく、表示順位による第三者意見の提示というマジックで情報を容易に操作できる。 検索アルゴリズムがトップシークレットになっているのは何故かを考えるべきであり、上層社員に莫大な金を与えているのをなぜか考えるべきであり、そして、利用者に無料で提供されるアプリケーションはそれを考えていても「ぼくらの Google がそんなわけない」と思わせる、甘い罠である。

なーんて冗談ですが、こんな映画あったら面白そうですね。

と話がそれたところで、おしまい。

コメントを残す