Kecerdasan Buatan Mendata Dokumen, Bagaimana Memindai Teks Babahasa Indonesia?

Penggunaan kecerdasan buatan mudah mendata ragam dokumen yang kompleks dan ribet. Bagaimana jika dokumen dalam Bahasa Indonesia? Aplikasi DocuLib membuka bisnis baru yang ditawarkan kepada pemilik dokumen seperti sektor eknomi, rumah sakit, Pendidikan, dan lainnya.

Penggunaan DocuLib yang merupakan piranti lunak Optical Character Recognition (OCR) dengan teknologi pembelajaran mendalam justru menyederhanakan dokumen-dokumen yang berasal dari bentuk kertas.

Kecerdasan Buatan Mendata Dokumen

Contohnya, piranti lunak DocuLib ini mampu menyortir surel yang masuk dan meneruskannya secara otomatis kepada pihak terkait sesuai topik atau pengirimnya kepada pihak terkait.

Kepala Analitik Dokumen Fraunhofer IAIS, Dr. Nicolas Flores-Herr menjelaskan, “Tujuan kami adalah mengotomatisasi pemrosesan informasi dalam jangkauan yang luas dengan bantuan kecerdasan buatan. Pengunaan AI menghemat durasi waktu yang dibutuhkan dalam pekerjaan berbasis dokumen bagi para pelanggan kami.”

Bagi perusahaan-perusahaan yang memasang piranti lunak manajemen dokumen atau manajemen konten perusahaan, solusi piranti lunak buatan Fraunhofer IAIS adalah pelengkap yang ideal bagi pengguna.

Produk ini sudah market-ready, sudah digunakan oleh banyak perusahaan dan terus dikembangkan tanpa henti oleh para peneliti di Fraunhofer.

Bagaimana model bahasa untuk pengembangan teks yang berkaitan dengan konten? Mengenai

Natural Language Understanding (NLU) dalam penggunaan perangkat berbasis AI ini melangkah lebih maju lagi. Solusi NLU mampu mengakses dokumen-dokumen yang kompleks maupun tidak terstruktur, dalam hal konten.

Untuk analisis semantik (kandungan makna bahasa), tim NLU telah mengembangkan model bahasa yang dilatih dengan menggunakan teknik pembelajaran secara mendalam.

Model bahasa ini diumpani ribuan teks dari berbagai topik. Di dalamnya termuat artikel-artikel dari koran, unggahan media sosial, atau email.

Modul AI lalu melanjutkan membangun sebuah model statistik. Pada tahap keduanya, pengguna manusia mengintervensi dan menerapkan aturan sebagai evaluasi yang ingin dicapai.

“Dengan mengombinasikan statistik dan aturan, piranti lunak ini membutuhkan lebih sedikit data pembanding, tapi pada saat yang bersamaan bekerja lebih cepat dan tepat,” kata Sven Giesselbach, pemimpin tim Natural Language Understanding Fraunhofer IAIS.

Suite NLU menganalisis dokumen-dokumen, mengekstrak data kunci, dan bahkan membuat sebuah ringkasan terstruktur jika dibutuhkan.

Dengan hasil tersebut dan mempertimbangkan kontennya, dokumen-dokumen tersebut dapat saling dibandingkan, atau teks-teks yang mengandung informasi serupa dapat diidentifikasi.

Contohnya, kata “theft” (pencurian) dan “chain” (rantai) dalam teks A, dan dalam teks B ada kata “jewelry” (perhiasan) dan “stolen” (pencurian), maka model bahasa piranti lunak dapat mengenali kedekatan tematisnya.

Dia juga dapat memahami frasa “The rate is due in advance at the beginning of the month” dalam dokumen A punya makna yang sama dengan “The rate is to be paid monthly” dalam dokumen B.

“Model bahasa berbasis AI kami superior, dibandingkan operasi kata kunci tradisional. Karena ini bukan hanya mencari kata kunci yang ditentukan, tapi juga mencari secara cerdas atas kata-kata serupa atau yang digunakan sebagai sinonim. Sebagai tambahan, piranti lunak ini juga sensitif terhadap kesamaan morfologis,” ungkap Sven Giesselbach.

Sebuah contoh konkret, misalnya dalam dokumen kasus pengadilan. Para pakar di Fraunhofer IAIS bekerja sama dengan Fakultas Hukum Universitas Cologne.

Dalam operasional ini, sebagai contoh, NLU suite menyortir dan memilih secara mandiri atas kasus-kasus yang mencolok secara karakteristik yang sama, seperti vonis hukuman yang sama atau kejadian yang sama.

Dengan cara ini, konten yang sama/sesuai antara berbagai macam dokumen menjadi jelas terlihat dalam tempo yang singkat.

Sementara di rumah sakit, solusi NLU dapat mengevaluasi diagnosis medis atau surat-surat (diagnosis) dokter. Dengan maraknya penggunaan terminologi teknis baru seperti “COVID-19“, AI dalam piranti lunak ini dapat mengenali kata “lung” (paru-paru) sebagai konteks prioritasnya.

Selanjutnya kecerdasan buatan dapat mencari berbagai macam dokumen yang berkaitan dengan masalah/penyakit respirasi.

Proteksi data dijamin sepanjang saat. Semua data pribadi sifatnya anonim dan disimpan dalam server di Jerman. Selain itu, keamanan operasinya juga tunduk pada hukum General Data Protection Regulation (GDPR).

Bagaimana dengan dokumen berbahasa asing misalnya dalam Bahasa Indonesia? Sebagai tambahan, model bahasa NLU juga menguasai teks bahasa asing.

Misalnya, mampu menganalisis dokumen-dokumen berbahasa Inggris, Jerman, dan Bahasa Indonesia—semuanya diungkap dalam satu operasi atau dikerjakan sekaligus.

Fraunhofer Giesselbach dan tim ahli terus mengembangkan model pembelajaran mendalam. Dengan demikian, sistem juga dapat mengenali penilaian positif atau negatif dalam teks dan juga emosi si penulis dalam beberapa area bisnis seperti industri otomotif.

Struktur kompleks suite NLU dirancang untuk memudahkan pengguna secara rata-rata. Aplikasi ini bisa dijalankan pada komputer desktop normal.

Spesifikasi komputer yang tinggi dibutuhkan hanya untuk menciptakan dan melatih model bahasa tertentu.

Aplikasi NLU sudah digunakan misalnya dalam evaluasi seputar kasus dan vonis pengadilan, dokumen perjalanan, dan isi kontrak penyewaan.

Di sektor kesehatan, aplikasinya sudah diterapkan misalnya pada evaluasi literatur medis dan analisis dokumen medis.