スクレイピングの方法と更新されたデータの追加方法のSQL

口コミやレビューが書いてあるサイトをスクレイピングし、内容をまとめて並べるSQLを作る方法。また、もし口コミなどが追加された際には新たにまとめたものを作るSQLを教えて欲しい。

”口コミやレビューが書いてあるサイト”の多くはデータの収集やコピーを禁止しているかと思います。
例えば@cosmeでは「掲載の情報・画像など、すべてのコンテンツの無断複写・転載を禁じます。」と明記されていますし、食べログでは「食べログへ投稿された口コミを無断転載・無断利用することは禁止します。」と利用規約に記されています。

もしもサイトの利用規約によりデータの収集およびスクレイピング等の行為が禁止されていない場合は、質問者さんが使いたいプログラミング言語でスクレイピングの方法を調べてコーディングしてください。そしてそのデータをデータベースへ登録すれば良いでしょう。
情報の追加については例えば週一回等と頻度を決めて自動化して情報収取すれば良いかと思います。

スクレイピングしたものにtableが無かった。

もしもスクレイピング先のHTMLにTABLEタグが無い場合にはそのHTMLの構造に合わせて欲しい情報をスクレイピングする必要があります。具体的な方法は解析対象のHTMLを掲載いただければ何かアドバイスできることがあるかもしれません。

コメントを投稿

0 コメント