従来スクレイピングの課題
CSSセレクタやXPathでスクレイピングを実装すると、対象サイトのHTML構造が変わるたびにコードが壊れます。保守コストが高く、大量のサイトを対象にする場合は特に問題になります。
LLM活用スクレイピング
HTMLをLLMに渡して「この中から商品名・価格・在庫状況をJSONで抽出してください」と指示する方法が注目されています。HTML構造が変わってもプロンプトを変える必要がありません。
実装アプローチ
Claude API活用版(クラウド)
PuppeteerでHTMLを取得し、Claude APIに渡して構造化データを抽出します。精度が高く、複雑なHTMLにも対応できます。APIコストはかかりますが、高精度が必要な場面に最適です。
Ollama活用版(ローカル)
コストを抑えたい場合はOllamaのLlama3やDeepSeekを使います。大量処理に向いており、GPUサーバーがあれば非常にコストパフォーマンスが高いです。
弊社での活用
EC商品情報の収集では、各モールのHTML構造変更への対応コストがほぼゼロになりました。「商品名・価格・レビュー数を抽出して」というプロンプトが保守の中心になっています。
まとめ
AI×スクレイピングは、弊社の得意分野である「データ収集・マーケティング」とAI技術が融合した強みです。より高度なデータ収集自動化についてはお気軽にご相談ください。