ระบบแปลงเอกสารเพื่อการเข้าถึง

แปลงเอกสารภาษาไทยและเอกสารหลายภาษาให้อยู่ในรูปแบบที่สามารถเข้าถึงได้ สำหรับผู้พิการทางการมองเห็น รองรับการใช้งานทั้งแบบรายบุคคล การประมวลผลแบบกลุ่มในระดับองค์กร และการเชื่อมต่อผ่าน API ในอนาคต

รองรับรูปแบบผลลัพธ์ ได้แก่ HTML ที่เข้าถึงได้, DOCX, TXT, EPUB, เสียง MP3, DAISY, เบรลล์ BRF และ PDF/UA

ระบบสาธิตนี้ได้รับการออกแบบโดยอาศัยเทคโนโลยีโอเพ่นซอร์สที่ผ่านการพิสูจน์แล้วในระดับสากล โดยองค์ประกอบต่าง ๆ ด้านล่างนี้เป็นพื้นฐานทางเทคนิคขั้นต่ำที่จำเป็น สำหรับการประมวลผลเอกสารภาษาไทย การจัดการการแปลงเอกสารแบบกลุ่ม และการสร้างผลลัพธ์ในรูปแบบที่สามารถเข้าถึงได้

OCRmyPDF

เพิ่มชั้นข้อความที่สามารถค้นหาได้ลงในไฟล์ PDF ที่ได้จากการสแกน

Tesseract OCR

ดำเนินการรู้จำอักขระ (OCR) รองรับทั้งภาษาไทยและภาษาอังกฤษ

PaddleOCR

เครื่องมือ OCR ทางเลือก เพื่อเพิ่มความแม่นยำในการอ่านภาษาไทยและโครงสร้างเอกสารที่ซับซ้อน

Poppler

แปลงหน้าของไฟล์ PDF ให้เป็นภาพ เพื่อใช้ในกระบวนการ OCR และการเตรียมข้อมูล

ImageMagick

ปรับปรุงและเพิ่มคุณภาพของภาพสแกนก่อนเข้าสู่กระบวนการ OCR

Python

ภาษาหลักสำหรับการประมวลผลเอกสาร ระบบอัตโนมัติ และการเชื่อมต่อ AI

FastAPI

ให้บริการ REST API สำหรับการเชื่อมต่อกับระบบภายนอกและหน่วยงานต่าง ๆ

Celery

จัดการงานประมวลผลเบื้องหลัง และรองรับการประมวลผลแบบกลุ่มขนาดใหญ่

Redis

ทำหน้าที่เป็นตัวกลางสำหรับคิวงานและการจัดการการประมวลผลซ้ำ

Watchdog

ตรวจสอบโฟลเดอร์นำเข้าและสั่งเริ่มกระบวนการประมวลผลอัตโนมัติ

Pandoc

แปลงเนื้อหาเป็นรูปแบบ HTML, DOCX, EPUB และข้อความ

Calibre

รองรับการแปลง eBook และการจัดการไฟล์ EPUB

Piper TTS

สร้างเสียงอ่านแบบออฟไลน์จากข้อความ โดยรองรับโมเดลเสียงภาษาไทย

eSpeak NG

ระบบสังเคราะห์เสียงขนาดเล็ก ใช้เป็นตัวสำรองในการสร้างเสียง

Liblouis

แปลงข้อความเป็นรูปแบบเบรลล์ดิจิทัล เช่น BRF

DAISY Pipeline

รองรับการสร้างหนังสือเสียงในรูปแบบ DAISY ที่มีโครงสร้างนำทาง

veraPDF

ตรวจสอบความถูกต้องของไฟล์ PDF ตามมาตรฐานการเข้าถึง

Ace by DAISY

ตรวจสอบความถูกต้องด้านการเข้าถึงของไฟล์ EPUB

MySQL / MariaDB

จัดเก็บข้อมูลเมตา สถานะงาน คำขอผู้ใช้งาน บันทึกการตรวจสอบ และผลลัพธ์

Debian Linux

ระบบปฏิบัติการเซิร์ฟเวอร์ที่มีความเสถียรและปลอดภัยสำหรับการติดตั้งระบบ

ข้อแนะนำด้านโครงสร้างเซิร์ฟเวอร์เริ่มต้น

สำหรับระยะเริ่มต้นของการสาธิตและการเปิดใช้งาน ระบบควรถูกติดตั้งบนเซิร์ฟเวอร์เฉพาะ ที่มีความสามารถเพียงพอในการรองรับงาน OCR การสร้างเสียง และการประมวลผลแบบกลุ่ม เพื่อให้ระบบสามารถทำงานได้อย่างมีประสิทธิภาพและเสถียร

ระบบแปลงเอกสารเพื่อการเข้าถึง