string-splitter

ファイルまたは標準入力のプレーンテキストを全体文字列に対する正規表現フィルタ、NFKC正規化、アルファベットの大文字小文字変換、分かち書き、トークンごとの正規表現フィルタ、英語の活用形を基本形に戻したりして整形します。

使い方

コンパイルします。

% git clone https://github.com/naoa/string-splitter.git
% cd string-splitter
% make

標準入力またはファイルからプレーンテキストを読み取り、正規表現フィルタ、NFKC正規化、分かち書きを実行します。

% echo "Hello! ２０１４年７月１３日は、<b>雨</b>でしょう。" | ./string-splitter
hello ! 2014 年 7 月 13 日 は 、 雨 でしょ う 。

入力形式
UTF8の文字コードのテキストのみ対応しています。

引数	説明	デフォルト
--input	整形対象ファイル名指定なしで標準入力標準入力の場合EOSで終了	標準入力
--pre_filter	入力テキストから除去したい文字列の正規表現(全置換)。エスケープに注意。	<>タグ除去、改行コード除去、一部の記号(\,.;:&^/-#'"()[]{}])を除去
--no_normalize	NFKC正規化+アルファベットの大文字小文字変換をしない
--no_tokenize	分かち書きをしない
--mecab_dic	MeCabの辞書を指定できる
--use_baseform	MeCabで日本語の活用形を基本形に戻す
--token_filter	分かち書き後のトークンから除去したい文字列の正規表現(全置換)
--use_wordnet	WordNetを使って英語の活用形を基本形に戻す
--cut_prolong	3文字以上のトークンの場合、末尾の長音記号(ー、ｰ)を除去する
--h	オプションの説明

出力結果
整形結果のテキストが標準出力に出力されます。

依存関係

このプログラムでは、ICU、MeCab、WordNet、gflagsのライブラリを利用しています。

CentOSではたとえば、以下のようにしてインストールできます。

% yum install -y icu libicu-devel
% rpm --import http://ftp.riken.jp/Linux/fedora/epel/RPM-GPG-KEY-EPEL
% yum localinstall -y http://ftp-srv2.kddilabs.jp/Linux/distributions/fedora/epel/6/x86_64/epel-release-6-8.noarch.rpm
% yum install -y re2 re2-devel
% yum install -y gflags gflags-devel
% yum install -y wordnet wordnet-devel glib2 glib2-devel
% wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz
% tar -xzf mecab-0.996.tar.gz
% cd mecab-0.996; ./configure --enable-utf8-only; make; make install; 
% echo "/usr/local/lib" > /etc/ld.so.conf.d/mecab.conf
% ldconfig
% wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
% tar -xzf mecab-ipadic-2.7.0-20070801.tar.gz
% cd mecab-ipadic-2.7.0-20070801; ./configure --with-charset=utf8; make; make install
% echo "dicdir = /usr/local/lib/mecab/dic/ipadic" > /usr/local/etc/mecabrc

Docker

string-splitterとword2vecとword2vec-calcを含むDockerファイルです。

https://github.com/naoa/docker-word2vec

Author

Naoya Murakami [email protected]

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
COPYRIGHT		COPYRIGHT
Makefile		Makefile
README.md		README.md
string-splitter.cpp		string-splitter.cpp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

string-splitter

使い方

依存関係

Docker

Author

License

About

Releases

Packages

Languages

naoa/string-splitter

Folders and files

Latest commit

History

Repository files navigation

string-splitter

使い方

依存関係

Docker

Author

License

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages