Peing(ペイング) -質問箱-で自分が回答したデータをテキスト形式で取得してくるスクリプト
質問回答サービスのPeing(ペイング)を利用しているんですが、 2020-10-01の利用規約改定で質問回答データの保持期間が「無期限」から「質問作成より1年」に変更になりました。 ネタ回答しているものもありますが、わりと真面目に回答したものもあり、 消えてしまうともったいないなと思い、データをダウンロードしておこうと思いました。 しかし現在のところ一括データダウンロードのようなサービスの提供もないようなので、 せっかくなので、Pythonを使ってスクレイピングしてくるスクリプトを書いてみました。
※ちなみに私に質問のある方はこちらからどうぞ。
スクリプト
import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import json # メールアドレスとパスワードの指定 USER = "fumokmm" PASS = "xxxxxxxx" # セッションを開始 session = requests.session() # ログインページを表示してトークンを取得 login_url1 = "https://peing.net/ja/acc/login?" r1 = session.get(login_url1) soup = BeautifulSoup(r1.text, "html.parser") elem_authenticity_token = soup.find_all("input", attrs={"type": "hidden", "name": "authenticity_token"}) # ログイン情報 login_info = { "account": USER, "password": PASS, "authenticity_token": elem_authenticity_token[0].get("value") } # action login_url = "https://peing.net/ja/acc/login_confirm" res = session.post(login_url, data=login_info) res.raise_for_status() # エラーならここで例外を発生させる for i in range(102): page = i + 1 # 回答済みに移動 res = session.get("https://peing.net/ja/box/reply?page={}".format(page)) res.raise_for_status() # エラーならここで例外を発生させる soup = BeautifulSoup(res.text, "html.parser") print("------------------------------- Page {}".format(page)) def my_filter(t): return t.name == "div" and t.has_attr("data-questions") data_questions = soup.find_all(my_filter)[0] data_questions_json = json.loads(data_questions.attrs["data-questions"]) for data_questions in data_questions_json: print("At {}".format(data_questions.get("created_at"))) print("Q: {}".format(data_questions.get("body"))) print("A: {}".format(data_questions.get("answer_body"))) print("-------------------------------")
結果 (抜粋)
------------------------------- Page 1 At 2020-10-20T10:35:13.000+09:00. Q: 何回目のデートで告白するのが正解ですかね? A: 正解も間違いもないです。 何回目でも、いまだって思った時にどうぞ。 ------------------------------- At 2020-10-20T10:33:27.000+09:00. Q: 親友の好きなとこは? A: 飾らないところ。 ------------------------------- At 2020-10-20T10:16:24.000+09:00. Q: 周りの人に恋人が連続で出来てくると焦りません? A: それは焦りませんが、 一人で複数人同時に恋人にしてたりしたらビックリします。 ------------------------------- At 2020-10-15T18:32:15.000+09:00. Q: この人がいないと駄目だなって思う人は誰ですか? A: それはやっぱり奥さんですかね。 ------------------------------- At 2020-10-15T17:56:46.000+09:00. Q: 定期的に買うものってあります? A: 技術書とビジネス書ですね。 ------------------------------- ------------------------------- Page 2 At 2020-10-15T13:38:55.000+09:00. Q: あなたが人生の先輩として慕ってる人って誰? A: いません ------------------------------- At 2020-10-15T09:30:12.000+09:00. Q: マイブームは何ですか? A: 子どものために歌を覚えること。 ------------------------------- At 2020-10-14T18:43:29.000+09:00. Q: 最近、なんの本買いましたか?? A: 草薙 龍瞬 著『これも修行のうち。 実践!あらゆる悩みに「反応しない」生活』(KADOKAWA 2016) ------------------------------- At 2020-10-14T17:36:14.000+09:00. Q: 根に持つことって悪いことですか? A: いい悪いは人によって基準が違うのでなんとも言えないですが、 根に持っていても、「人生の役に立つ」ことは何もないと思います。 ------------------------------- At 2020-10-14T17:09:09.000+09:00. Q: 今一番気になっているのはどんなことですか A: 宇宙の外側がどうなっているか ------------------------------- ・ ・ ・ (つづく)
説明
- Python3で実行しています
- Pythonよくわかっていない中、色々なサイトにお世話になりながら書いています
- ここでは
BeautifulSoup
などのライブラリを利用しています- インストールには
pip
を使いましたが、pip
の使い方などは、参照のサイトをご覧ください(丸投げ)
- インストールには
- Peing自体はログインして利用する必要があるため、
requests.session()
を利用しています - 最初の方で、「ログインページを表示してトークンを取得」ってところがありますが
- これはログインフォームで
authenticity_token
という値もhidden
で渡す必要があるらしく、ログインページ(ユーザID、パスワードを入れるページ)を表示した際にランダムで振られるようです - なので、一度ログインページを表示して、
authenticity_token
を取ってくる処理を入れてあります
- これはログインフォームで
for i in range(102):
の102
がマジックナンバーですが、これは記事を書いている時点の私の投稿の最後のページが102ページだったためです- 本当は最終ページを調べて自動的に指定することもできましたが、そんなに利用頻度も高くないスクリプトなので最終ページを調べてからここでは決め打ちで書いています
- 途中、JSONをパースしているところがありますが
- Peingが内部でVue.jsを使っているのか、動的にページが書き換えられてしまうようなので
- 無理矢理、
data-questions
という属性からJSON文字列を取得してくる処理で対応しています
感想
BeautifulSoup
が結構強力なことが分かりました- スクレイピングはWebページのHTMLを解析することになるため、よく「たった〇〇だけで簡単!」と謳われているようなスクリプトでも、結構作るのが大変だということが分かりました
参照
- Peing(ペイング) -質問箱- 匿名で質問を受け取ろう
- python3でwebスクレイピング(Beautiful Soup) - Qiita
- 【Python3】ブラウザを経由したスクレイピング(動的なページなど)【Selenium】 - Qiita
- 【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】 - Qiita
- PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
- Pythonのスクレイピングで、いらすとやの画像を一気にダウンロード | ハシカケ-実現したいことから学べるプログラミングサイト
- 図解!PythonでWEB スクレイピングを極めろ!(サンプルコード付きチュートリアル) - AI-interのPython3入門
- Python3メモ - BeautifulSoup4のあれこれ - Szarny.io
- How to Install PIP on Windows | Liquid Web
- PhantomJSを使って色々試してみる - Qiita