Translate

2017年9月7日木曜日

NVIDIA Tesla K20C で Tensor2Tensor を動かしてみた

ふとしたことで一時的にNVIDIA Tesla K20Cが使える機会ができた。

(TeslaはVoltaが出だした今からだと5世代前(2008年ころ)のアクセラレータです)

ので、ココぞとばかりに前に動かしたTransformerモデルの
実装サンプル Tensor2Tensor をオプションなしで動かしてみた。



ただワークフローは英独翻訳になっていて
日本語がない...

T2Tの実装サンプルを拡張しない限り
日本語コーパスがないので
ワークフロー通り日独翻訳をやるしかない..

そこで、
原文の英語と翻訳後のドイツ語をGoogle翻訳にかけて
日本語にして比較してみた。

上段:原文をOSSで翻訳したものをGoogle翻訳で日本語に
下段:原文をそのままGoogle翻訳で日本語に

------
もしもし
こんにちは世界

さよなら世界
さようなら世界

私は私が何になるのか分からない。
私は私が使用するものではありません。


注:「私は昔の私ではありません。」が正解

夏には父は私たちをビーチに連れて行きます。
夏には父は私たちをビーチに連れて行きます。

みなさんこんにちは。
皆さんこんにちは 。

私の名前はMaile Johnsonです。
私の名前はMaile Johnsonです。

私はトルクメニスタンの大学の講師です。
私はハワイの高校生です。

去年の夏、私は17歳の日本人学生、Sayuriに会いました。
去年の夏、私は17歳の日本人学生、Sayuriに会いました。

彼女の夏休み中、彼女は市を訪れ、市を訪問し、彼女を英語で訪問する
彼女は夏休み中にハワイを訪れ、英語を勉強しました。

彼女は地元の学生として2週間家にいました。
彼女はホームステイの学生として2週間滞在しました。

私たちはとても良い友達になった。
私たちはとても良い友達になった。

ある日、彼女は私に言った。「あなたの父親はしばしばアロハシャツを着ています。私は彼らが好きです。彼らはとてもハワイ人です。
ある日、彼女は私に言った、 "あなたの父親はしばしば仕事にアロハシャツを着ます。(以下、翻訳を無視)
注:Google翻訳はたまにセンテンスを無視することがあります。上記上段のハワイアン~のくだりが下段にないのはそのためです。

私は答えた日本の着物に興味があります。
「日本の着物に興味があります」と私は答えました。

最初のアロハシャツはアジアの人々が作ったものです。
実際、ハワイの最初のアロハシャツはアジアの人々によって作られたものです。

彼らは日本の着物から来ます
彼らは日本の着物から作られました。

私はこの話をSayuriに語った。
私はこの話をSayuriに語った。

彼女は好奇心をそそられた。
彼女は好奇心をそそられた。

「日本からトルクメニスタンへの着物はどうでしたか?(以下、無視)
「日本からハワイに着物はどのように届いたのですか?」と彼女は尋ねた。

注:これもGoogle翻訳の無視

今日、ハワイの文化の例として世界中で知られているアロハシャツです。
今日、ハワイの文化の例として世界中で知られているアロハシャツです。

あなたはそれらを多くの場所で見ることができます。
あなたはそれらを多くの場所で見ることができます。

文化は混在し、世界はますます小さくなっています。
文化は混じり合い、世界はより小さくなっています。

それはとても良いことではありませんか?
それは素晴らしいことではありませんか?


------

  • T2T_v1.2.0:Apache2 License
  • TensorFlow_1.3.0:Apache2 License
  • Python_3.5.2:Python Software License
  • Copus:WMT Dataset 14
  • GPU(NVIDIA K20C)でまる2日間学習


..一昔前の翻訳サイトに少し劣るくらいのレベル..かな?

独自のコーパスを追加してもうちょっと学習させれば
もうすこしは良い性能を出せるかもしれないけど..

Google翻訳も、
語句や場合により1文
まるまるをガッツリなかったかのように
無視を決める事があるので厄介だ...



こうなると、英日コーパスが欲しくなるところなのだけど..


p.s.

ちなみにUbuntu上での環境構築は
GeForceより簡単だった。

5世代前のくせにPascalのGeForce1050Tiとは全然速度が違う。
結局GPU側のメモリ量なのかもしれないなあ..

0 件のコメント:

Jetson Nano 上で RealSense T265 用 Donkeycar パーツを試す

Donekycar (v3.1.1マスタブランチ)コードには RealSense T265用パーツクラス ( donkeycar.parts.realsense2.py の RS_T265 という名前のクラス) がすでに用意されている。 realsense2.py ...