【新機能】AI搭載OCR『オプティスクライブ』をリリースしました!
フォートトークアプリ Ver0.99.036の新機能『オプティスクライブ』は、高度なAI技術と精密な視覚モデルを用いて、PDFの内容を高精度でMarkdown形式に再構築します。
PDF内のテキストや表、図表、画像などを正確に読み取り、手作業の負担を大幅に削減。業務効率化と情報共有の迅速化を劇的に向上させます。
今回、この機能の精度を検証するため、苫米地博士の1991年の論文『MONA-LISA: Multimodal Ontological Neural Architecture for Linguistic Interactions and Scalable Adaptations』を用いました。この論文はスキャンされたもので文字情報がなく、文字が傾いている箇所もあるなど、OCR処理には一定の難易度が伴います。
(元の論文PDF: https://crl.co.jp/wp-content/uploads/2024/04/rpaper12.pdf)
複数の最新AIモデルを使って精度を比較した結果、Gemini 2.0 Flash、GPT 4.5、o1の3モデルが特に優秀な結果を示し、スキャンされたPDFであっても十分実用的な品質でデジタル文書に再構築できました。
実際のMarkdown形式の変換結果と各モデルの詳細な比較データを以下のページで公開しています。
精度や仕上がりを実際にご覧になれます。
https://forttalk.com/research/opti-scribe/
『オプティスクライブ』で、PDF文書をもっと便利に活用しましょう!
オプティスクライブで変換したMarkdownデータを、フォートトークアプリ内の『キャストクラフト』システムなどと組み合わせることで、スキャンされて文字情報のない論文であっても簡単に音声化できます。
今回、実際に苫米地博士の論文『MONA-LISA』を日本語の会話形式で音声化したファイルを作成しました。苫米地博士の研究を身近に感じていただければ幸いです。
いつもフォートトークをご愛用いただき、ありがとうございます。