目次一覧
状態:-
閲覧数:487
投稿日:2023-04-10
更新日:2023-04-10
経緯
「教えて!goo」も「Yahoo!知恵袋」も「Twitter」同様備忘録用途には向いていないと思われるので、投稿件数が多い方は注意した方がよいかも。後からの振り返りには向いていません。
このエントリーの結論 /「Octoparse」の操作勘所 / 今回取得できたデータ
今回(できれば)取得したかったデータ / 感想 / 具体例
「教えて!goo」も「Yahoo!知恵袋」も「Twitter」同様備忘録用途には向いていないと思われるので、投稿件数が多い方は注意した方がよいかも。後からの振り返りには向いていません。
このエントリーの結論 /「Octoparse」の操作勘所 / 今回取得できたデータ
今回(できれば)取得したかったデータ / 感想 / 具体例
このエントリーの結論 /「Octoparse」の操作勘所 / 今回取得できたデータ
このエントリーの結論
「教えて!goo」と「Yahoo!知恵袋」を「Octoparse」でスクレイピング
自分の質問データ一覧を取得することが目的。
100 %期待した通りに取得できませんでしたが、最低限取得したいデータのダウンロードには成功しました。
※無料で取得&ダウンロードできました。
「Octoparse」の操作勘所
ログインが必要なWebページからデータ取得
「操作ヒント」から「ログインする」を選択するのではなく「テキストを入力する」を選択します。
今回取得できたデータ
教えて!goo
「質問タイトル」「質問日時」「質問URL」を含む一覧データ
実行時間 56分4秒
データ件数 1015件0件重複
※「教えて!goo」で表示されている質問件数は「995 件」。差分が発生している理由は不明。データ件数 1015件0件重複
Yahoo!知恵袋
https://chiebukuro.yahoo.co.jp/my?fr=common-navi&sort=21#ListSection
「質問本文の一部」「質問日時」「質問URL」「ベストアンサーの回答本文の一部」を含む一覧データ
※大前提として「Yahoo!知恵袋」には、「教えて!goo」とは異なり「質問タイトル」項目がありません。
実行時間 3分13秒
データ件数 564件0件重複
※「教えて!goo」で表示されている質問件数は「562 件」。差分が発生している理由は不明。データ件数 564件0件重複
今回(できれば)取得したかったデータ / 感想 / 具体例
今回(できれば)取得したかったデータ
教えて!goo
「質問本文」「回答」を含む一覧データ
Yahoo!知恵袋
「質問本文の全文」「回答全文」を含む一覧データ
感想
出だしは良かったのですが
「Octoparse」を操作し始めて割とすぐに「今回取得できたデータ」の抽出&ダウンロードに成功しました。
しかし、それだけでした。
それ以降、5 ~ 6 時間試すも進展はありませんでした。
「Octoparse」の操作勘所と成果について
ページネーションされているデータは(偶然)取得できたのですが、ページネーション先のデータも合わせて取得する方法が最後まで分かりませんでした。
具体例
下記内容のデータは取得できたのですが、
質問A(リンク)
質問B(リンク)
質問C(リンク)
質問D(リンク)
質問E(リンク)
12345次へ
質問B(リンク)
質問C(リンク)
質問D(リンク)
質問E(リンク)
12345次へ
下記内容のデータをまとめて取得する方法が分かりませんでした。
質問A(リンク)
質問B(リンク)
質問C(リンク)
質問D(リンク)
質問E(リンク)
12345次へ
質問B(リンク)
質問C(リンク)
質問D(リンク)
質問E(リンク)
12345次へ
リンク先の質問Aページ
質問Aタイトル
質問A本文
質問A回答
質問A本文
質問A回答
リンク先の質問Bページ
質問Bタイトル
質問B本文
質問B回答
以下略質問B本文
質問B回答
「『下記リンクのテキスト+URLを抽出する』を選びます」と掲載されていますが、どうしても「下記リンクのテキスト+URLを抽出する」が表示されません……。
検索結果ページと詳細ページを同時にスクレイピングの方法
※このページをご覧になられた方の中で、操作方法をもしご存知の方がいたらぜひ教えて(コメントして)ください。