ちょっと諸々事情があって調整したモデルのサンプル見せられないですが、かなり自然な文章が出来るなと感じました
アフィリエイト界隈で有名な文章の自動生成だと賢記玉とかいうのがあるんですが、雲泥の差というか出てくる文章のレベルが違います
上のサイトにサンプルがあったんで引用するんですけど
優光泉効果、今回はデパートスーパーの味はメーカーなのか、実は先日私も楽天の妹に優光泉効果を、それ優光泉の優光泉が3つあります。エッセンシアと詰まっており、ネイルな優光泉のやり方として、優光泉の成分と効果とはどのようなものでしょうか。
一文単位で見ても正直崩壊してますよね。
そもそもロジックとしてみたとき、検索上位のものをピックアップして合成している感じっぽいので、多分過去で言うとワードサラダの上位互換ぐらいの位置づけなのかなと思います
ちょっとファインチューニング(特定のシーンに合わせてモデルをチューニングすること)したものは載せられないんですが、バニラのgpt2で生成した文章がこちら
西田幾多郎は、この本の中で、世阿弥について次のようなことを述べている。 「ある落語家は、あれほど憎しみをもって笑っている人間には、必ず顔が似ていて、面識があったからだ」 しかし、世阿弥はその思想を「この世に生まれてきて命を懸けてやっている人間のたたずまいではないか」とも述べている。
ちゃんと読むと変ですが、ちゃんとしている部分もありって感じですね
簡易的なコピペチェックツールにかけてみましたが
類似もないため、オリジナルの文章が生成できてます。
ちなみに厳密にはバニラのgpt2ではなく、rinnaのgpt2-midium使ってます。
gpt2の大本は英語ベースで日本語も一応いけるみたいですが、精度は落ちるとのことで改めて日本語を学習させたモデルを使う必要があるんですが、無料のものだとrinnaというところが出しているものが有名でそれ使った感じです。
なおもう一つ学習量の多いモデルがあったりするんですが、gpuのメモリ的に落ちそうだったので使ってません。
---
結構雑な理解なんですが、自然言語処理はパラメータ数の多さや学習量の多さが割りと精度に直結するっぽいんですよね
機械学習といえば過学習の問題があるように思うわけですが、自然言語処理はそうでもないのやも…?
自分がやってたマシンラーニングとは少し違う領域っぽい(ニューラルネットワーク)ので、だからそういう傾向があったりするんですかね?
下記によれば
GPT-2には、15億個のパラメータがあるという。 4Bが1語だとすると、40GBは100憶語になるから、15語で1文が構成されると仮定すると、約6億7千万文の訓練データがあるともいえる。
とのことで、パラメータとは要は訓練データ数を示しているっぽいんですよね。
で、現在gpt3が出ておりまして、それの凄さがパラメータ数の多さで語られているので訓練データ=正義なのかなとか
一応mlbot作ってるときにも一部の天才たちはクソでかデータで学習させてるみたいな話聞いたので、基本的には訓練データ = 正義なんですかね?この辺は基礎がなってないのでわからんですねー
ちなみにgpt2の最大モデルが15億パラメータで、上のサンプルで使った日本語モデルのパラメータが3.3億。rinnaが出してる最大モデルが13億パラメータという話でした
そしてgpt3は1750億個
更に今後出ると言われているgpt4は100兆個とのことで、もうワケワカランですね。
gpt3は現在一部ユーザーに開放されているらしく、使ってみた動画とかあったりするんですが、より自然な文章になっててビビります。
最近は「googleみたいなサイトを作りたい」と入力すると、そんな感じのコードが返ってくるみたいな話も聞いたので、すごいなぁって感じですね。
---
なおgpt2は文章の予測モデルなので、文の意味を理解しているわけではないらしいです。山と来たら川みたいな感じで、こういう文章が来た場合は次はこういう文章を返せば良い。みたいなのを予測して文章を作ってるわけです
なので、SEO的には自動生成文章はスパムと同じ扱いなのでgoogleの対策対象なのですが、まあ発見は無理だろうなと思います(実際公式の配信でも「AIによる文章見抜ける?」に対して言葉濁してた)
そもそもgoogleがワードサラダを判定してる方法がおそらくBERT(gpt2みたいなもん)による文章の不自然さ検知ぐらいしかなくねと思うので、そしたらそこそこ自然な文章を作るgpt2の文章を検知するのは至難の業だろうなと思うわけです。
ただ、名前忘れたんですがgoogleには手動で検索結果をパトロールしてる奴らがいるので(陰謀論とかではなく公式が言ってる話です)それに見つかって手動ペナルティは全然ある話なんですけどね
ファインチューニングとかでき始めると自分の作りたい文章が思うがままになってくるので、結構面白いです。やってみたい人はkaggleが週に30時間gpuメモリ16gbを無料で使わせてくれるので、そこで遊ぶと良いかも