🐣 【メモ】wikiextractor のインストール&使い方
作成日: 2022/01/05
0

Wikipedia から日本語コーパスを作成するツールとして「WikiExtractor」があちこちのウェブページなどで紹介されていますが、私のPC環境ではそれらの説明通りではうまく動かなかったので、改めてうまくいった手順をまとめてみました。
・PC環境:Windows10 (64bit) 上の WSL2-Ubuntu
・Python環境:Anaconda3 で Python 3.9.7 を使用
・手順

  1. Wikipedia ダンプファイルを取得する
$ wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
  1. WikiExtractor を GitHub から clone する
$ git clone --depth 1 https://github.com/attardi/wikiextractor.git
  1. clone した wikiextractor ディレクトリに入ってインストールファイルを実行する
$ python setup.py install

wikiextractor 3.0.6 が /home/(Myhome)/anaconda3/bin にインストールされました。このバイナリファイルを実行して Wikipedia 記事テキストを抽出します。
4. WikiExtractor を実行する

$ wikiextractor -o wikicorpus jawiki-latest-pages-articles.xml.bz2
...
INFO: Finished 7-process extraction of 2107578 articles in 904.5s (2330.0 art/s)

参照したWebページなどでは "python -m wikiextractor.WikiExtractor" や "python3 ./wikiextractor/WikiExtractor.py" でゴニョゴニョするように書いてあったのですが、私の環境ではいずれもエラーが出て動作しませんでした。


pythonで自然言語処理プログラムが書けるようになりたいと思っています。Ticketnoteで自分の到達度を確認できれば嬉しいです。