かずきち。の日記

サーバサイドエンジニアのつぶやき

Google技術講演会@東大

工学部2号館でGoogle技術講演会をやっていると聞きつけたので、ちょっと足を運んで見てきました。
研究室ミーティングがあって行けないかなーと思って諦めていたら…
史上稀にみる早さで終わったので、神保町から移動して参加してきました。
到着したときはもう満員御礼状態で部屋に入ることすらべきなかったので、ドア付近で聴講させていただきました。
立っていてメモ取れなかったのが残念です。
こうゆう講演会って生で聞かないとわからない情報だらけで貴重だと思いました。
去年の年末のウェブ学会の懇親会で工藤さんと話したときのことを思い出しながら話を聞いていました。
MeCab、CaboCha、AjaxGoogleなので、IMEという流れは極めて自然なのかなと思いました。
工藤さんの記事です。
作って理解するAjax
「ググる」の精度を高めるために必要なもの


記憶の範囲内でまとめておきます。完全に雑記です。

  • IMEは決してクラッシュしてはならない。
  • 4秒おきにプロセスをkillするデモ*1
  • 従来のIMEはdll(Dynamic Link Library)で動いている。
  • インプットメソッドの設計にとらわれない。
  • GoogleIMEはクラッシュを前提として作られている。
  • PlayBack機能で復元する。
  • 使っているのはkey-value store。*2
  • TRIE、LOUDSを使っている。
  • テストは実装の2倍から3倍の時間がかかっている*3
  • 普通のソフトウェア開発よりも完成までは意外と短い*4
  • LOUDSとハフマンコーディングでkeyとvalueをそれぞれ圧縮している。
  • Sandboxを使っている。*5
  • 辞書はバイナリに埋め込んでいる*6
  • もともとは20%プロジェクト。そして昇格。
  • もしかして検索からヒントを得た。
  • Gmailも20%プロジェクトから。
  • 20%プロジェクトはオプションではなくマスト。
  • 日本のGoogleのインターナショナルな活躍は検索時の画像の表示。
  • フラットな会社組織でデータの2次利用とかもやらせてもらえる。
  • 世界の情報に誰でもアクセスできるようにが理念。
  • 辞書のオープン化は検討中。
  • Linux版はやる気なし。*7
  • 収録語数は秘密。


いろいろ自分で思ったことがもっといっぱいあるのですが、ちょっとアホなこととか考えていそうで恥ずかしいのでまとめはこの辺で。
日本語Wordnetみたいにオントロジー構築とかまでやってくれたりしないのかなー??w
早く卒論のパワポ作らなきゃいけません。
間に合うのかなー

*1:過激なデモにも耐えていましたw

*2:RDBではなく、KeyとValueのシンプルなデータ構造じゃないと辞書なんか無理だろうなと思ってました。

*3:過酷なメモリ状態などでバリバリと。

*4:普通がどれくらいなんですか??w

*5:chroniumなのかな??

*6:なんかこれすごいなって思いました。

*7:ディストリビューションごとの対応とか面倒ですよね。