大きな話題となっているChatGPTや検索翻訳AIは、日本語の将来に大きな影響を与えます。今は、ChatGPTがつくる近未来に日本語が存在するか否かの重要な分岐点にあります。
CahtGPTは、OpenAI社が提供するチャットAIで、質問や指示などをテキストで入力すると、自然な会話の形で回答するシステムです。ChatGPTや、それをベースにしたMicrosoft Bing(検索AI)には、内部構造に言語を設定する項目がありません。日本語で会話を始めると日本語で応答しますし、また、日本語で質問して、フランス語の資料を検索し、ドイツ語で答えさせることもできます。
翻訳AIは、DeepL Translatorなどのサービスで、ウェブページや文章を日本語から他言語に、または他言語から日本語に翻訳できるシステムです。
望む望まざるに関係なく、ChatGPTで文章を書く時代がすぐそこまで来ています。いろんなソフトウェアのコミットログやフォーラムでの議論から、次のリリースでの大きな変更を検出して、リリースノートの下書きを書いてくれるようになります。それらのソフトウェアを集めたディストリビューションにおいても、新しいリリースの収録ソフトウェアのバージョンから、そのバージョンのリリースノートを参照して、自動的にディストリビューションのリリースノートの下書きを書いてくれるようになります。
ChatGPTのような大規模言語AIモデルは多くの側面において大発明です。そして、「文章を理解できる検索AI」としての側面は、ハイパーリンク2.0と言える大転換だと思います。URLを用いたタグで、文章から文章へとひとつひとつ繋がっていたハイパーリンクは画期的な発明でした。今後は、大まかな繋がりを元に、個別の繋がりは検索AIが繋げてくれるようになります。
そして、その検索AIは、こうしたリリースノートを元に、ソフトウェアのドキュメントも改定の下書きも担うようになります。
こうしたとき、とりわけ重要になってくるのが日本語翻訳のユーザーグループの貢献だと思います。というのは、日本語のドキュメントが改訂される方向は二つありうるからです。
– 英語のリリースノートから日本語のリリースノートを生成し、そこから日本語のドキュメントを改訂する
– 英語のリリースノートから英語のドキュメントを改定し、それを翻訳して日本語のドキュメントを改定する
この2つの方法で改訂される2つの日本語のドキュメントは、理想的には同じになるはずです。こうした比較が可能なものは、AIが自分で切磋琢磨して、どんどん賢くなります。将棋のAIが繰り返しAI同士で対戦して強くなった歴史を辿ります。
チャットGPTのような大規模モデルでは、さまざまな言語を同一の学習で同一のパラメーターでカバーします。しかしながら、もちろん世界の全ての言語をカバーするわけではありません。大規模言語モデルの中に日本語のウエイトがどれだけあるかによって、今後、CHatGPTがつくる世界の中で日本語が標準的に使われる言語になるか、それとも進化から切り離された辺境言語になるかの、重大な分岐点にあると思っています。
こうした研究の最前線に日本語話者が加わることも極めて重要ですし、メンテナンスされた日本語のドキュメントがAIの学習用のデータとして存在するということも極めて重要になってきます。
日本語ドキュメントの整備に携わる能力のある方は、自分では英語のドキュメントがあれば十分な方ばかりです。それでも、ほかの日本語話者のために膨大な労力を割いて日本語ドキュメントのメンテナンスをして下さっています。こうした作業が今後ある程度自動化され、持続可能になるために、いま、日本語ユーザグループの活動が、今まで以上に重要になっていると思います。
2050年頃、日本語のドキュメントはAIを中心として維持管理されているか、それとも、誰もメンテナンスしなくなって、英語からの翻訳を読んでいるか、表面的には同じような未来かも知れませんが、私は、この2つは大きく異なる別の未来だと思います。そして、今がその分岐点なのです。