Skip to main content

🟡 Pengetahuan yang Dihasilkan

Ide di balik pendekatan pengetahuan yang dihasilkan1 adalah meminta LLM untuk menghasilkan informasi yang mungkin berguna tentang pertanyaan/prompt tertentu sebelum menghasilkan tanggapan akhir.

Misalnya, jika Anda ingin menulis blog post kecil tentang hewan tertentu, seperti beruang hantu. Sebelum meminta LLM untuk menulis pos blog, Anda dapat memintanya untuk menghasilkan beberapa fakta tentang Spirit bears. Ini akan membantu LLM menulis posting blog yang lebih informatif. Ada dua cara sederhana untuk melakukannya.

Pendekatan satu prompt​

Pendekatan pertama meminta LLM untuk menghasilkan pengetahuan kemudian menulis posting, semuanya dengan satu prompt.

Hasilkan 4 fakta tentang beruang Kermode, kemudian menggunakan fakta-fakta ini untuk menulis sebuah pos blog singkat menggunakan informasi:
Beruang Kermode, juga dikenal sebagai beruang roh, adalah subspesies langka dari beruang hitam Amerika yang ditemukan di wilayah pesisir British Columbia, Kanada.

1. Beruang Kermode adalah subspesies unik dari beruang hitam Amerika, dengan sekitar 10% populasi memiliki bulu putih.

2. Beruang Kermode adalah simbol bagi bangsa First Nations di British Columbia, dan dianggap sebagai hewan roh.

3. Beruang Kermode adalah bagian penting dari ekosistem, membantu menyebar benih dan menjaga keseimbangan hutan.

4. Beruang Kermode adalah spesies yang dilindungi, dan populasi mereka dipantau secara ketat oleh pemerintah provinsi.

Beruang Kermode adalah hewan yang unik dan istimewa yang ditemukan di wilayah pesisir British Columbia, Kanada. Sekitar 10% populasi subspesies beruang hitam Amerika ini memiliki bulu putih, menjadikan mereka pemandangan langka. Beruang Kermode adalah simbol dari orang-orang First Nations British Columbia, dan dianggap sebagai hewan roh. Ini adalah bagian penting dari ekosistem, membantu menyebarkan biji-bijian dan menjaga keseimbangan hutan. Beruang Kermode adalah spesies yang dilindungi, dan populasi nya dipantau secara ketat oleh pemerintah provinsi. Ini adalah hewan yang indah dan megah, dan penting bagi kita untuk melakukan bagian kita dalam melindungi dan melestarikan spesies ini.

Pendekatan dua prompt​

Dalam pendekatan ini, kami pertama-tama meminta LLM untuk menghasilkan fakta tentang beruang:

Hasilkan 10 fakta tentang beruang Kermode:
1. Beruang Kermode, juga dikenal sebagai Beruang Roh, adalah subspesies langka dari beruang hitam Amerika yang ditemukan di British Columbia, Kanada.

2. Beruang Kermode memiliki bulu putih atau berwarna krim yang unik, yang disebabkan oleh gen resesif.

3. Beruang Kermode merupakan simbol harapan dan pembaruah bagi suku asli British Columbia.

4. Beruang Kermode adalah spesies yang dilindungi dan terdaftar sebagai spesies yang memerlukan perhatian khusus oleh Komite Status Satwa Terancam di Kanada.

Kemudian, kami menginput informasi tersebut ke dalam prompt lain untuk menulis postingan blog:

1. Beruang Kermode, juga dikenal sebagai Beruang Roh, adalah subspesies langka dari beruang hitam Amerika yang ditemukan di British Columbia, Kanada.

2. Beruang Kermode memiliki bulu putih atau berwarna krim yang unik, yang disebabkan oleh gen resesif.

3. Beruang Kermode adalah simbol harapan dan pembaruan bagi masyarakat First Nations British Columbia.

4. Beruang Kermode adalah spesies yang dilindungi dan terdaftar sebagai spesies yang memerlukan perhatian khusus oleh Komite Status Satwa Terancam di Kanada.

Gunakan fakta di atas untuk menulis satu paragraf pos blog tentang beruang Kermode:


Beruang Kermode, juga dikenal sebagai Beruang Roh, adalah subspesies langka dari beruang hitam Amerika yang ditemukan di British Columbia, Kanada. Beruang unik ini memiliki bulu yang putih atau berwarna krem, disebabkan oleh gen resesif, dan merupakan simbol harapan dan pembaharuan bagi orang-orang First Nations di British Columbia. Beruang Kermode adalah spesies yang dilindungi dan terdaftar sebagai spesies yang memiliki kepentingan khusus oleh Komite Status Kehidupan Satwa Terancam di Kanada, menjadikannya bagian penting dari keanekaragaman hayati di wilayah ini.

Saya merekomendasikan pendekatan kedua ini karena dapat menghasilkan konten yang lebih panjang dengan lebih dapat diandalkan.

Penggunaan lainnya​

Pendekatan pengetahuan yang dihasilkan sebenarnya diperkenalkan untuk tugas yang benar-benar berbeda, yaitu menjawab pertanyaan sulit. Pertimbangkan pertanyaan berikut, yang GPT-3 menjawab dengan salah:

:::catatan Contoh ini mungkin tidak akurat. Kami sedang bekerja untuk merevisinya. :::


Jika kita pertama kali meminta LLM untuk menghasilkan fakta tentang Kongo dan Afrika Selatan, kita dapat menggunakan informasi tersebut untuk menjawab pertanyaan dengan benar. Dalam teori, ini mirip dengan %%CoT|CoT memicu%%, karena pada dasarnya kami membuat LLM menghasilkan penalaran intermediat dalam bentuk fakta terkait.

Mari mulai langkah demi langkah, menghasilkan pengetahuan. Kita dapat meminta LLM untuk menghasilkan fakta tentang Kongo dan Afrika Selatan:


Selanjutnya, mari kita gunakan pengetahuan itu untuk menjawab pertanyaan dengan benar. Ini adalah langkah integrasi pengetahuan!

Diskusi yang lebih teknis​

Meskipun kasus penggunaan di atas mirip dengan cara pengetahuan yang dihasilkan diperkenalkan secara awal, namun tidak persis sama. Konten di bawah ini mencakup konteks yang lebih teknis di mana pendekatan ini diperkenalkan. Ini mengikuti pola dua langkah menengah (generasi pengetahuan dan integrasi pengetahuan) yang kita lihat di atas.

Pengetahuan yang Dihasilkan (Liu et al.)

Menghasilkan Pengetahuan​

Dalam langkah pembentukan pengetahuan, LLM diminta untuk menghasilkan sekumpulan fakta mengenai pertanyaan ****. LLM dipicu dalam mode few-shot seperti yang terlihat di bawah ini. M penyelesaian yang berbeda dihasilkan menggunakan prompt yang sama ini (mirip dengan pendekatan konsistensi diri).

Contoh Pengetahuan yang Dihasilkan (Liu et al.)

Integrasi Pengetahuan​

Selanjutnya, kita menghasilkan pertanyaan "berpengetahuan ditambahkan" dan meminta LLM dengan mereka untuk mendapatkan jawaban akhir. Cara termudah untuk memahaminya adalah melalui contoh.

Mari kita asumsikan kita mencoba menjawab pertanyaan "Kebanyakan kangguru memiliki <mask> anggota badan". Anggaplah bahwa pada langkah generasi pengetahuan kita telah menghasilkan 2 pengetahuan (M=2):

  • Pengetahuan 1: Kanguru adalah hewan marsupial yang hidup di Australia.

  • Pengetahuan 2: Kanguru adalah hewan marsupial yang hidup di Australia.

Sekarang, kita menggabungkan setiap pengetahuan dengan pertanyaan yang dihasilkan untuk menghasilkan pertanyaan berbasis pengetahuan:

  • Penambahan Pengetahuan 1: Sebagian besar Kanguru memiliki &lt;mask\&gt; anggota tubuh. Pengetahuan 1: <code>Kanguru adalah hewan marsupial yang hidup di Australia.

  • Penambahan Pengetahuan 2: Kanguru-Kanguru kebanyakan memiliki <mask\> anggota tubuh. Kanguru adalah marsupial yang memiliki 5 anggota tubuh.

Kemudian kami mengajukan pertanyaan yang diperkaya dengan pengetahuan ini kepada LLM dan mendapatkan proposal jawaban akhir:

  • Jawaban 1: 4

  • Jawaban 2: 5

Kita memilih jawaban dengan probabilitas tertinggi sebagai jawaban akhir. Probabilitas tertinggi bisa jadi probabilitas softmax dari token jawaban, atau probabilitas log dari token jawaban.

Recitation-Augmented Language Models​

Pendekatan model bahasa recitation-augmented2 ini mirip dengan pengetahuan yang dihasilkan (pada dasarnya sama). Namun, jauh lebih sederhana dibandingkan dengan implementasi formal dari pengetahuan yang dihasilkan.

Ide di sini adalah untuk memberikan beberapa informasi penembak LLM untuk menghasilkan jawaban dan dalam langkah yang sama **. Fakta bahwa ia meresapi/menghasilkan pengetahuan dan menjawab pertanyaan dalam satu langkah yang sama adalah perbedaan utama dari pendekatan pengetahuan yang dihasilkan.

Untuk mengulangi, pendekatan ini mendorong model dengan beberapa contoh (pertanyaan, pengulangan, jawaban), kemudian mengajukan pertanyaan. Para penulis mencatat bahwa pendekatan ini dapat digabungkan dengan konsistensi diri atau jalur penyelesaian ganda.

Catatan​

  • Pengetahuan yang dihasilkan menunjukkan peningkatan pada berbagai dataset pengetahuan umum.

  • Pengetahuan yang sesuai dengan jawaban yang dipilih disebut pengetahuan yang dipilih.

  • Dalam praktiknya, Anda dapat mengambil jawaban yang paling sering muncul sebagai jawaban terakhir.


  1. Liu, J., Liu, A., Lu, X., Welleck, S., West, P., Bras, R. L., Choi, Y., & Hajishirzi, H. (2021). Generated Knowledge Prompting for Commonsense Reasoning. ↩
  2. Sun, Z., Wang, X., Tay, Y., Yang, Y., & Zhou, D. (2022). Recitation-Augmented Language Models. ↩