COBOL技術者の憂鬱

COBOLプログラマは不在にしています

動画検索エンジン

今年の秋あたりから、暇をみては開発を続けている例のWEBサービスですが、ほぼ完成に近づきつつあります。
YouTubeの動画データベースから、特定のキーワードでタグ検索して結果を一覧表示し、その中からユーザーに選択された個別の動画について、さらにwikipediaとamazonから関連情報を取得して表示するというものです。
WEB上に散在している各種API叩きまくりのマッシュアップサイトなのですが、これが自分でも中々面白い仕上がりになったなと感じています。周囲にいる知り合いに使ってもらったところ、評判も上々でした。
私の周囲は汎用機系の技術者ばかりなので、密かに私がこんなサイトを作っていたということを知って驚いていたようですが・・


今は、動画検索部分のロジックが中々難しくて苦労しています。動画をアップロードしたユーザーが、必ずしも私が想定する単語でタグ登録してくれるとは限らないので、そのあたりの表記のゆらぎにどの程度まで対応させるかというところで悩んでいます。英単語であれば、タグに使用される単語のバリエーションがある程度まで限られてくるのですが、日本語ってほんとに曖昧な表記の仕方ができるし、しかも「ひらがな」「カタカナ」「漢字」「大文字」「小文字」に「句読点」まで組み合わせることができるので、かなりやっかいですね。こういうことをやっていると、あらためて日本語って習得が難しい言語なんだなと思って仕方がありません。その分、表現できるスペックも高いんでしょうが・・


もし可能であれば、ちまちま単語で検索するのではなくて、動画に記録されている情報を直接検索できればよいんですがね。
こういうのを使ってなんとかできないものかと夢想するのですが・・
riyaのように顔認識をするためのライブラリ - Clouder::Blogger