No Programming, No Life

プログラミング関連の話題や雑記

Peing(ペイング) -質問箱-で自分が回答したデータをテキスト形式で取得してくるスクリプト

質問回答サービスのPeing(ペイング)を利用しているんですが、 2020-10-01の利用規約改定で質問回答データの保持期間が「無期限」から「質問作成より1年」に変更になりました。 ネタ回答しているものもありますが、わりと真面目に回答したものもあり、 消えてしまうともったいないなと思い、データをダウンロードしておこうと思いました。 しかし現在のところ一括データダウンロードのようなサービスの提供もないようなので、 せっかくなので、Pythonを使ってスクレイピングしてくるスクリプトを書いてみました。

※ちなみに私に質問のある方はこちらからどうぞ。

スクリプト

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import json

# メールアドレスとパスワードの指定
USER = "fumokmm"
PASS = "xxxxxxxx"

# セッションを開始
session = requests.session()

# ログインページを表示してトークンを取得
login_url1 = "https://peing.net/ja/acc/login?"
r1 = session.get(login_url1)
soup = BeautifulSoup(r1.text, "html.parser")
elem_authenticity_token = soup.find_all("input", attrs={"type": "hidden", "name": "authenticity_token"})

# ログイン情報
login_info = {
    "account": USER,
    "password": PASS,
    "authenticity_token": elem_authenticity_token[0].get("value")
}

# action
login_url = "https://peing.net/ja/acc/login_confirm"

res = session.post(login_url, data=login_info)
res.raise_for_status() # エラーならここで例外を発生させる

for i in range(102):
    page = i + 1
    # 回答済みに移動
    res = session.get("https://peing.net/ja/box/reply?page={}".format(page))
    res.raise_for_status() # エラーならここで例外を発生させる
    soup = BeautifulSoup(res.text, "html.parser")
    print("------------------------------- Page {}".format(page))
    def my_filter(t):
        return t.name == "div" and t.has_attr("data-questions")
    data_questions = soup.find_all(my_filter)[0]
    data_questions_json = json.loads(data_questions.attrs["data-questions"])
    for data_questions in data_questions_json:
        print("At {}".format(data_questions.get("created_at")))
        print("Q: {}".format(data_questions.get("body")))
        print("A: {}".format(data_questions.get("answer_body")))
        print("-------------------------------")

結果 (抜粋)

------------------------------- Page 1
At 2020-10-20T10:35:13.000+09:00.
Q: 何回目のデートで告白するのが正解ですかね?
A: 正解も間違いもないです。
何回目でも、いまだって思った時にどうぞ。
-------------------------------
At 2020-10-20T10:33:27.000+09:00.
Q: 親友の好きなとこは?
A: 飾らないところ。
-------------------------------
At 2020-10-20T10:16:24.000+09:00.
Q: 周りの人に恋人が連続で出来てくると焦りません?
A: それは焦りませんが、
一人で複数人同時に恋人にしてたりしたらビックリします。
-------------------------------
At 2020-10-15T18:32:15.000+09:00.
Q: この人がいないと駄目だなって思う人は誰ですか?
A: それはやっぱり奥さんですかね。
-------------------------------
At 2020-10-15T17:56:46.000+09:00.
Q: 定期的に買うものってあります?
A: 技術書とビジネス書ですね。
-------------------------------
------------------------------- Page 2
At 2020-10-15T13:38:55.000+09:00.
Q: あなたが人生の先輩として慕ってる人って誰?
A: いません
-------------------------------
At 2020-10-15T09:30:12.000+09:00.
Q: マイブームは何ですか?
A: 子どものために歌を覚えること。
-------------------------------
At 2020-10-14T18:43:29.000+09:00.
Q: 最近、なんの本買いましたか??
A: 草薙 龍瞬 著『これも修行のうち。 実践!あらゆる悩みに「反応しない」生活』(KADOKAWA 2016)
-------------------------------
At 2020-10-14T17:36:14.000+09:00.
Q: 根に持つことって悪いことですか?
A: いい悪いは人によって基準が違うのでなんとも言えないですが、
根に持っていても、「人生の役に立つ」ことは何もないと思います。
-------------------------------
At 2020-10-14T17:09:09.000+09:00.
Q: 今一番気になっているのはどんなことですか
A: 宇宙の外側がどうなっているか
-------------------------------
・
・
・
(つづく)

説明

  • Python3で実行しています
  • Pythonよくわかっていない中、色々なサイトにお世話になりながら書いています
  • ここではBeautifulSoupなどのライブラリを利用しています
    • インストールには pip を使いましたが、pipの使い方などは、参照のサイトをご覧ください(丸投げ)
  • Peing自体はログインして利用する必要があるため、requests.session() を利用しています
  • 最初の方で、「ログインページを表示してトークンを取得」ってところがありますが
    • これはログインフォームで authenticity_token という値もhiddenで渡す必要があるらしく、ログインページ(ユーザID、パスワードを入れるページ)を表示した際にランダムで振られるようです
    • なので、一度ログインページを表示して、 authenticity_token を取ってくる処理を入れてあります
  • for i in range(102):102マジックナンバーですが、これは記事を書いている時点の私の投稿の最後のページが102ページだったためです
  • 本当は最終ページを調べて自動的に指定することもできましたが、そんなに利用頻度も高くないスクリプトなので最終ページを調べてからここでは決め打ちで書いています
  • 途中、JSONをパースしているところがありますが
    • Peingが内部でVue.jsを使っているのか、動的にページが書き換えられてしまうようなので
    • 無理矢理、data-questions という属性からJSON文字列を取得してくる処理で対応しています

感想

  • BeautifulSoup が結構強力なことが分かりました
  • スクレイピングはWebページのHTMLを解析することになるため、よく「たった〇〇だけで簡単!」と謳われているようなスクリプトでも、結構作るのが大変だということが分かりました

参照