みてれぅのレビューアンテナに関してですが、仕様上どうしてもページ内の全ての掲載動画に反応してしまいます。
やはり気にしてしまう方もいらっしゃるかと思いますので、下記のタグで感知されたくない動画リンク・iframe部分を囲う事で、みてれぅチャンネルが認識しなくなる方法をご用意させていただきました。
※囲うタグ
<!-- NoMiterewStart --> 〜〜感知されたくない内容〜〜 <!-- NoMiterewEnd -->
<div class="NoMiterew"> 〜〜感知されたくない内容〜〜 </div>
<span class="NoMiterew"> 〜〜感知されたくない内容〜〜 </span>
<p class="NoMiterew"> 〜〜感知されたくない内容〜〜 </p>
4つのうち、いずれかをご選択の上、そのまま「iframeやリンクを直接囲ってください」。
注意:
スクレイピングするのは面倒なので、しごく単純な正規表現に突っ込んでます、ごめんなさい。
そのため、上記タグは一字一句改変せず、タグ内にはiframeやリンクのみが入るようにしてください。(もう少し説明しますと、選択したものと同じタグ種類(div,span,p)が含まれている内容を囲ってしまうと、最初の閉じタグの時点で切れちゃうという事です。通常は<!– NoMiterew*** –>をお使いください。ただHatenaはコメントタグを消してしまうようです。)
なお、既に取得された内容に対しては反映されません。ご了承くださいませ。
++
余談
本文抽出は様々な方法を試してみました、が、基本的に動画レビューをされている方々のブログの多くは、「本文が少ない」のです。動画に数行の解説といったパターンが多いのですね。そのため、下手に抽出を行っても、まあ殆どを取りこぼす結果となりますです。
そもそも本文外に貼られた動画であっても基本的には「ネット上に公開されたページからリンクをして紹介している」ので、こちらの意図には整合してしまっているため、うまいこと区分けできませんです。
Googleブログ検索やテクノラティも、そこはほぼ捨て去ってますね。逆にyahooやgooのブログ検索はかなり上手にフィルタリングしているようです。これは相当な人手と時間と予算をかけた結果でしょう・・・
一応、はてなのサイドバー機能等の定型処理可能なものに関してはカット工程をはさんでおります。また、発見次第手を加えて行こうかと思いますが、なにぶん多種多様なブログがありますので、こちらから全部に対応する事は一切ございません。ご理解とご了承のほど、お願い申し上げます。