株式会社WR

株式会社WR

WEB TOTAL CONSULTING

AIを使ったWebスクレイピングの進化——LLMで構造化データを自動抽出する
ブログ一覧へ
AI・技術ブログ

AIを使ったWebスクレイピングの進化——LLMで構造化データを自動抽出する

従来のCSSセレクタ・XPathベースのスクレイピングはサイトのHTML構造変更に弱い問題がありました。LLMを使ってHTMLから必要な情報を自然言語で抽出する新しいアプローチを解説します。

従来スクレイピングの課題

CSSセレクタやXPathでスクレイピングを実装すると、対象サイトのHTML構造が変わるたびにコードが壊れます。保守コストが高く、大量のサイトを対象にする場合は特に問題になります。

LLM活用スクレイピング

HTMLをLLMに渡して「この中から商品名・価格・在庫状況をJSONで抽出してください」と指示する方法が注目されています。HTML構造が変わってもプロンプトを変える必要がありません。

実装アプローチ

Claude API活用版(クラウド)

PuppeteerでHTMLを取得し、Claude APIに渡して構造化データを抽出します。精度が高く、複雑なHTMLにも対応できます。APIコストはかかりますが、高精度が必要な場面に最適です。

Ollama活用版(ローカル)

コストを抑えたい場合はOllamaのLlama3やDeepSeekを使います。大量処理に向いており、GPUサーバーがあれば非常にコストパフォーマンスが高いです。

弊社での活用

EC商品情報の収集では、各モールのHTML構造変更への対応コストがほぼゼロになりました。「商品名・価格・レビュー数を抽出して」というプロンプトが保守の中心になっています。

まとめ

AI×スクレイピングは、弊社の得意分野である「データ収集・マーケティング」とAI技術が融合した強みです。より高度なデータ収集自動化についてはお気軽にご相談ください。

Category AI・技術ブログ

Related Posts

関連記事

開発・技術のご相談はお気軽に

お見積りは無料です。まずはお気軽にご相談ください。

お問い合わせ →