読者です 読者をやめる 読者になる 読者になる

徒然なる日々を送るソフトウェアデベロッパーの記録(2)

技術上思ったことや感じたことを気ままに記録していくブログです。さくらから移設しました。

そうだったのか検索エンジン

今頃になって、Kindle ライブラリにgihyo.jp
という本があるのに気付き、ゴロム符号化の直前まで読んだ。

この本のすごいところは、書いてある通りに読み進めると、本当に検索エンジン
書けるところです。ただ、プログラム言語として C を選択しているので、
枝葉末節のところで微妙に難しく感じられました。(uthash はもうメンテナンス
されてないみたいですし。)

というわけで、(整理途中なのでかなり恥ずかしいものがありますが)
エッセンスと思われる部分を C++11 で書きなおしてみました。
http://minosys.com/published/index.php?project=finder
Ubuntu 14.04LTS 64bit で動作を確認しています。

ただし、検索はそこそこ速いのですが、登録は ja.wikipedia.org 全体で20分強
かかります...(Core i7-860 2.8GHz 8GB RAM SATA 3Gbps HDD の場合)

これは私のプログラムがヘボくて、大量のコピーが発生していたり、vectorへの
push_backを多用しているせいかと。
java で書いた方が速いかも)

そう言えば、昔 senna には大変お世話になりました。
ありがとうございました。