mixi export

mixi exportとは?

mixi の日記とコメントのログをadiaryで取り込める形式に変換するツールです。adiaryのエクスポート機能を使用することにより、Movable Type形式などのログを得ることもできます。

  • Windowsの場合、mixi_export.exe を実行してください。
  • Perl環境向けの mixi_export.pl を実行する場合、Perl本体およびNet::SSLeayライブラリが必要です。
  • Net::SSLeayライブラリは最初から入っていることもありますが、導入方法はOSにより異なります(サポートしません)。

利用は個人の責任でお願いします(無保証)。なお、本ツールに関して mixi に問い合わせることはおやめください。全くの無関係です。

最近の変更履歴

  • 2022/12/27 mixiの仕様変更に対応。
  • 2022/01/28 案内メッセージを変更。
  • 2021/04/20 ステータスエラー時にリトライするよう修正。記事取得URLの初期値をhttpsに変更。

使用方法

使い方

  1. 実行すると、内蔵の HTTP/HTTPS proxy が起動します。
  2. 表示されたメッセージに従い、ブラウザの proxy を設定します。
    • 通常は 127.0.0.1 の 8888 ポートになります。
  3. proxyを設定後 https://mixi.jp/ にアクセスし、ログインします。
  4. ログイン後に http://mixi.jp/x 等にアクセスすると成功画面が表示されます。
  5. proxyの設定を解除して、ツールの動作が終わるのを待ってください。

補足

  • 2018年9月にmixiに導入された「reCAPTCHA」は自動ロボット避けのシステムです。ソフトから自動的にログインすることが困難になったため、proxy型のソフトになりました。
  • 将来、mixi全体がhttps化した場合これ以上の対応は不可能です。まだ使えるうちにご利用ください。

コマンドラインオブション

mixi_export.exe/pl を -h オブション付きで実行すると次のようなヘルプが表示されます。

Usage: mixi_export.exe [options] [output_xml_file]
Available options are:
  -c charset	画面出力時の文字コードを指定します
  -p port	ポート番号を指定します(default:8888)
  -g		mixi に接続しログを取得します (default)
  -n		mixi に接続せずに、セーブされたログを処理します
  -s sec	sleepする時間を指定します(単位:秒)
  -l log_dir	ログを保存するディレクトリを指定します
  -?|-h		このヘルプを表示します
オプション補足説明
-c charset 画面に出力するメッセージの文字コード。Windows環境ではShift_JIS、UNIX系環境では環境変数 LANG を参照し設定されます。
-p port proxyとして起動するポート番号を指定します。デフォルト: 8888
-s sec mixiからデータを取得する時間間隔(sleep時間)を秒で設定します。デフォルトでは3秒になっており、1つの記事を取得してから次の記事を取得するまで指定した秒数だけ休みます。
-l log_dir ログを保存するディレクトリを指定します。./log2 がデフォルトです。

実行オプションのサンプル

mixiに接続せずに、すでに取得してあるログファイルを再処理し、mixi_export.xml に出力します。

mixi_export -n mixi_export.xml

mixiに接続時の sleep 時間を2秒に設定します。

mixi_export -s2

FAQ

●接続が遅いので、sleep 時間を1秒にしても良いですか?
ゆっくりとデータを取得しますので、(mixi側が接続を拒否するまでsleepしない)backup_mixi と比べて動作が遅いと感じるかも知れません。このようなツールで自動的にログを取得する際(ロボット)は、相手サーバの迷惑にならないようにゆっくり取得するのが礼儀だとお考えください。あまり短いsleep時間を設定することはmixi利用者全員の迷惑となります
●うまく動作しません
接続できないのであればネットワーク環境を疑ってください。接続(ダウンロード)できているのであれば、mixiの出力データの仕様が変わった可能性があります(ご連絡いただければ多分対応します)。

古い変更履歴

  • 2019/05/30 出力XMLにて記事タイトルが取得できない問題を修正。log-data.htmlを生成するよう変更。
  • 2018/10/03 安定性向上。
  • 2018/09/27 接続が途中で切れると無限ループに陥るバグを修正。alarm処理の修正。
  • 2018/09/22 記事のリンク形式が変わっていたので対応。HTMLを直接開くと大きい写真が表示されない問題を修正。
  • 2018/09/15 reCAPTCHA 導入に伴いログイン方法を proxy 型に変更。
  • 2017/11/21 HTTP/GETリクエストに失敗していたので修正。
  • 2017/10/02 ひと月に31件以上ある時、2ページ目を読み込めなくなっていた問題を修正。
  • 2017/04/17 日記内画像の書き換えに対応。その他修正。
  • 2017/04/14 非公開記事への対応。日記に付随する3枚までの画像ファイルに対応。
  • 2016/07/08 ログインできなくなっていたので修正。パーサをadiary Ver3用に修正。
  • 2015/01/21 ログインにhttpsが必須になっていたので対応しました。
  • 2015/01/06 HTML仕様変更に対応。
  • 2010/10/07 コメント欄の仕様変更に対応。
  • 2009/08/24
    • mixiの仕様変更に対応しました。
    • 携帯投稿記事の改行が消える問題に対応しました。
    • Unicode変換表問題("~"等の文字化け)に対応しました。
  • 2008/03/06 月の記事数が60を越えるとき60件までしか取得できない問題を修正しました。
  • 2007/10/21 月の記事数が30を越えるとき無限ループになる問題を修正しました。
  • 2007/10/08 mixiの仕様変更に対応しました。
  • 2007/01/05 各記事の保存ファイル名を日付がわかりやすいように変更しました(バージョンアップ時は旧ログは一度削除し再度取得し直してください)。また再取得範囲の決定方式を変更しました。
  • 2006/12/30 1記事に51件以上コメントがあるときもきちんと取得できるようにしました。
  • 2006/12/28 ひと月あたり31件目以降の日記が取得できない問題を修正しました。
  • 2006/12/27 mixiの仕様変更に対応しました(コメントの解析に失敗していました)。
  • 2006/12/17 mixiの仕様変更に対応しました(日記本文の解析に失敗していました)。
  • 2006/07/26 初版