読者です 読者をやめる 読者になる 読者になる

かずきち。の日記

Pythonエンジニア&元東大生のつぶやき

武田研ミーティング

20080507 - 武田研ミーティング


武田先生
17日からアメリカに渡航するかも
lined dataとはweb of dataのこと
名前を使ったURIを書きなさい
URI=URL=URN
他からリンクするようにするべきである
URIはURLとURNを含む言葉であり、リソースの場所や名前を示すものだと分かりました。また、URLはURIのうちの主にリソースの場所を示す部分集合であるということも分かり、URIとURLの違いを理解できました。よって、リソースを識別するための言葉として用いるならば、より上位に位置するURIを用いたほうが適切ではないかと思います。


小出さん
日本語、英語の単語の対応表を作りたい
マルチリンガルのマルチネットのブラウザを作りたい


大向さん
dbpediaでの表示
rdeで生データを見てみると…
xml lan=jp,enのように分けている


Google ページランクの計算アルゴリズム
http://www.ams.org/featurecolumn/archive/pagerank.html
あるページのスコアは、それにリンクしているページのスコアの合計、と。スコア間の条件式を与える行列Mを作って、Mv=v を満たすベクトルvを探すと。基本的に巨大な行列の固有状態を求めていると。1が最大固有値なので、ひたすらMをかけて行けばいいと。Mは 25 billion 次元であるが、0でない要素はごく少数、と。
量子系の厳密対角化による基底状態計算とまったく同じですな。16サイト16電子のハバード模型だと次元数は100 billion (赤玉8、黒玉8を16個の箱に入れる場合の数、ただし同じ箱には同じ色の玉は2個以上入らない)、これは地球シミュレータ基底状態が計算されてる。


dbpediaExplorer
地名に関する知識を一枚のページに表示するもの
面白そうだ


URIの使い方
あるものの識別子としてのURI
人間が読むHTMLがあるURI
RDF,XMLで書かれているURI


コンテントネゴシエーションとは、言語やファイルタイプなど複数の表現形式のファイルをサーバ上に用意しておき、クライアント(ブラウザ)からのリクエストに応じてサーバが最適なファイルを自動的に判断してレスポンスを返す仕組みのことである。判断するための材料はリクエスト中のヘッダ情報に含まれている。AN HTTPDで使う情報は以下の 3つである。


言語(Accept-Language:)
ファイルタイプ(Accept:)
エンコーディング(Accept-Encoding:)


DBLPデータは同姓同名問題を解決できる??
linked data的存在


FOAF (Friend of a Friend)とは、その名のとおり友達の友達の友達…という連鎖をメタデータとして表現することで、ネットワーク上の興味深い属性や関係を、エージェントを用いて分析できるようにする試みです[FOAF-PROJ]。これは、RDFの可能性を追求しようという実験[RDFWeb]の基本ツールとして生まれたもの。ベースは人とそのつながりを表現する仕組みですが、それぞれの人の写真や関心、所属組織といった属性情報を合わせて記述していくことで、人を媒介に世の中の様々なものごとの相互関連を辿り、分析したり表現したりするという応用を目指しています。
FOAFは、名前、関心領域、ホームページなどといった、人を描写するための様々な語彙を定義しています。これらは、RDFWebの様々なプロジェクトで用いられているだけでなく、人間系の情報を記述する共通語彙として、RSSなどのほかのRDF/XMLデータで利用することも可能です。また、個人の情報を扱うFOAFは、情報の信頼性や電子署名といった面での検討も行われており、セマンティック・ウェブの実現に不可欠な「信頼性のウェブ」の興味深い実験の場でもあります。


機械学習(きかいがくしゅう、Machine learning)とは、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法のことである。 ある程度の数のサンプルデータ集合を対象に解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出する。 データ集合を解析するため、統計学との関連も非常に深い。
機械学習検索エンジン、医療診断、スパムメールの検出、金融市場の予測、DNA配列の分類、音声認識や文字認識などのパターン認識、ゲーム戦略、ロボット、など幅広い分野で用いられている。応用分野の特性に応じて学習手法も適切に選択する必要があり、様々な手法が提案されている。それらの手法は、Machine Learning や IEEE Transactions on Pattern Analysis and Machine Intelligence などの学術雑誌などで発表されることが多い。


http://linkeddata.org/


perlのモジュール
http://linkeddata.org/
pythonのモジュール
http://peak.telecommunity.com/
イージーインストールできる
univeresal feedparserという超便利なモジュールがあって、RDFなどを処理できる


モジュールはコンパイルする必要があるのか??
いつの間にか勝手にできているパターンが多い


reはRegularExpression


Pythonのモジュールのdocumentationはあまりない


Pythonゼミについて
ファイルの読み書き
ネットワーク分析
正規表現
ウェブアクセス、認証系の突破方法


telnetで叩いてみる
303 リダイレクトのコード


正規表現 井川
HTTP 酒巻
文字コード+ファイルの読み書き 森近


28日に武田先生にこれをやりますと発表

広告を非表示にする