2009年06月29日

ニュースメディアの「宮古」を追いかける

「みやごじん」開設当初、コンテンツの一つとして[あちこちのニュースメディアに出てくる「宮古」]を追いかけようとその仕掛けを載せていました。
でも、その稼動を止めてからあっという間に一年近く。
検索の根っことして使っていたGoogleNewsの規約で検索結果の二次利用を禁止していたため、止めざるを得なかったのが理由でした。
しかし「別の方法を考えてみたい」としていながら、今に至っても形になっていません。


正確に言えば、考えてはいたけど手間がかかりすぎて大変だからなのですが。

Googleが、ニュースコンテンツに関して二次利用を禁止するのは(おそらく)ニュースソースの持つ著作権に配慮してのことです。
記事見出しであれば云々、リンクは云々、本文は云々。うんぬんうんぬんと、議論が尽きない話になってしまいます。

最近のトレンドとしては、以下の傾向がある模様。
・記事の見出しは著作性が無い(著作権が無い?)
・検索目的でコンテンツをキャッシュすることは合法化の方向(来年からは国内サーバでも問題ないらしい)
 →http://www.itmedia.co.jp/news/articles/0906/12/news099.html

特定のサイトからコンテンツを取ってくる(クローラーcrawler)と、その中から記事と見出しを解析(パース:parse)するあたりは頭の良い先人が作って公開してくれているプログラムがあるのでそれを利用すれば良い。
ただ、情報が欲しいサイトに定期的にクロールを行い、都度パースして情報抽出を行い、データベース化しなくてはいけない。

一番考えたくなくて、放置気味だったのが検索機能。
記事のような文書を対象に検索を行う場合、全文検索と言われるやり方で対処する必要があります。
しかしこれが、なかなかとっつきにくいんです。
一番の面倒くさい感は、これがあったからなのです。

んでも、仕事で全文検索の案件をやってしまったのでした。
やってみればそこそこ面白い世界で。

ということで、今現在、ニュースの検索ができる裏方システムを作ってみています。
岩手日報はもちろん、全国紙のデータも収集予定です。

しかし、、パースの処理(事前のサイトの構造解析)が、すごく重いです。
3DCGとかビデオ編集をやっている人は、PCの性能不足を日々感じていることと思いますが、サーバーの処理でこんなに重い〜と感じたのは久しぶりかも。
とある新聞社サイトの解析はCPU使用率90%以上で回り続けて、3時間とかかかりました。
一度解析してパターンの抽出が終われば、その後の処理は若干重いくらいで済むのですけどね。

ぼちぼち、データ収集先のサイトを追加しつつ、データの蓄積もしつつ(自動処理ができたのでほおっておくだけですけど)、宮古のニュース一覧として公開できる日を目指しております。

そういえば、そろそろ一周年だしっ。がんばりまっす。

※ニュースのフリーワード指定での検索機能は、公開の予定はありません。
 派手にやって訴えられるのはイヤですもの。
 別途個人的に使い倒します。
ラベル:みやごじん
posted by きっちゃん at 21:12| Comment(0) | TrackBack(0) | みやごじん | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。