המרת מסמכי PDF ללא קידוד לשפה העברית

אוגוסט 2016

לפני כשנתיים התחלתי לעבוד בפרויקט שחלק ממרכיביו היה התמודדות עם מסמכים דיגיטליים בפורמט PDF מבוססי SAP.  כברירת מחדל מסמכים דיגיטליים מבוססי SAP אינם כוללים תגיםLang / קידוד לעברית.  משמעות הדבר היא שכשמשתמש בתוכנה קוראת מסך פותח  מסמך מסוג זה במחשב מבוסס מערכת הפעלה חלונות עם תוכנת Adobe Reader הוא ישמע ג'יבירש. הינה דוגמה קטנה לפלט קורא מסך בעת ניסיון לקרוא קובץ כזה: ,ø÷é çå÷ì. אנשים עם  לקויות ראייה או עיוורון בטח מכירים את השיר הזה…

עובדה זו הקשתה מאוד על קריאת מסמכים כאלה, על הנגשתם ועל המרתם באמצעות תוכנות OCR כמו ABBYY Fine Reader. תוכנות כמו ABBYY עדיין מבצעות שגיאות רבות בהמרה – דבר שעשוי לפגוע במהימנות הקובץ המומר ובמיוחד אם הוא כולל נתונים שיש בהם התחייבויות ו/או השלכות משפטיות – כמו למשל הקראה לא תקינה של שם מוצר  או תעריף או ערך מספרי מסוים. באותם הימים גם פתיחת המסמך באמצעות Microsoft Word בגרסת 2013 ו 2016 אז לפני שנתיים, השאירה את המסמך בלתי קריא לתוכנות קוראות מסך.

מה זה מסמך בלי קידוד לעברית ?

מדובר במסמכי PDF כגון חשבוניות, הסכמי שירות, דוחות, מכתבים, הודעות ומסמכים נוספים. בדרך כלל מסמכים אלה נוצרים במחוללי מסמכים שהפלט הסופי שלהם הוא מסמך PDF. מאחר ורוב המחוללים פותחו בחו"ל, חסר בהם קידוד לשפה העברית כברירת מחדל  (וייתכן שגם לשפות אחרות). כך שאם המסמך כתוב באנגלית, לא תהייה בעיה לקרוא אותו עם תוכנות קוראות מסך. אבל אם הוא כתוב בעברית, גם אם הוא מעוצב ומסוגנן, תוכנה קוראת מסך לא תוכל להקריא אותו בסביבת Adobe ויישומים נוספים. לפיכך הוא יהיה חייב לעבור המרה.

למען הסר ספק, וככל שמדובר במסמכי PDF מבוססי SAP ניתן להנגיש אותם בהתאם להנחיות WCAG 2.0 וזה כולל בין היתר

  • מתן טקסט חלופי לתמונות
  • הוספת כותרות היררכיות
  • הוספת רשימות תבליטים ומספור
  • הנגשת טבלאות
  • הנגשת פקדי טפסים אינטראקטיביים
  • הוספת הקידוד הנדרש לזיהוי שפה ראשית

ועוד.

מאי 2018

ההתקדמות הטכנולוגית המבורכת לא משאירה אותנו מאחור בניגוד לחוקים ותקנות

והינה, היום ה 22.05.2018 אני יושבת מול מחשב ופותחת מסמך PDF מבוסס SAP שהגיע אלי בבקשה לבדיקה והתייעצות. גם אם שיערתי את התשובה, באופן טבעי אני מבצעת את הבדיקה בכל זאת. לחצתי על Export בתוכנת Adobe DC Pro בכדי להמיר את המסמך ל Microsoft Word. ולתדהמתי, NVDA הקריאה את תוכן המסמך בעברית תיקנית ולא בג'יבריש. בבדיקה נוספת, פתחתי את מסמך ה PDF מחוץ ל Adobe DC Pro על ידי לחיצת קליק ימני על קובץ ה PDF, בחירה בפתיחה באמצעות ואז בחירה ב Microsoft Word. ושוב, אותה התוצאה.

אמרתי, רגע אחד, זה לא יכול להיות. חזרתי לאותה התיקייה במחשב שלי מאוגוסט 2016 ושלפתי קובץ PDF מבוסס SAP לפני הנגשה. המרתי גם אותו – ואותה התוצאה. כלומר הקובץ מוקרא עם תוכנה קוראת מסך NVDA וסביר להניח שגם עם תוכנות קוראות מסך אחרות.

ואז אמרתי, עוד פעם, רגע, זה לא יכול להיות, אז פתחתי כמה חשבוניות שאני מקבלת מספקיות תקשורת שנוצרים גם הם ככל הנראה בסביבת SAP או בסביבה אחרת שאין בה קידוד לשפה העברית. ושוב, אותה התוצאה.  גם מסמכים חתומים בחתימה דיגיטלית המוטבעת במסמך ה PDF לא מהווים בעיה בהמרה.

אז מה קרה פה?

מה שקורה פה זה ככל הנראה שמיקרוסופט לא  מפסיקה לעבוד על שיפור הנגישות לאנשים עם מוגבלויות. וככל הנראה עדכונים אחרונים ב Microsoft Office 2016 ו Office 365 הם אלה שהביאו לתיקון עוול מתמשך. עוול שבגינו כל קריאת מסמך דיגיטלי מבוסס SAP או  אחר חסר קידוד לעברית היה בגדר משימה מאתגרת ומתסכלת.

מה עושים  כשלפניכם קובץ PDF בלתי קריא בסביבת חלונות, עם Adobe Reader?

בהנחה שהקובץ איננו קובץ סרוק

  1. חובה גרסת Microsoft Office 2016 או Microsoft Office 365. אני מציעה לעבוד עם Microsoft Office 365 כי הוא תמיד הכי מעודכן.
  2. יש לוודא שגרסת ה Office 2016 מעודכנת.
  3. קליק ימני על קובץ ה PDF
  4. מתפריט ההקשר, בחירה ב"פתיחה באמצעות"
  5. ובחירה ב Word

ייתכן שבפעם הראשונה להמרת קובץ כזה תתקבל הודעה מ Microsoft Word שאתם עומדים להמיר קובץ  PDF. אשרו את המהלך ולכו על זה.

מה עושים עם קובץ PDF כזה ב IOS

מסתבר שב IOS אין אחידות בכל הנוגע לקובצי PDF שחסר בהם קידוד לעברית. במקרים מסוימים הקבצים מוקראים בסדר נכון – מימין לשמאל ובמקרים אחרים לא. כמו כן במקרים מסוימים ההקראה בעברית תקינה יותר בהשוואה לקבצים אחרים. כנראה שעוד אצטרך לחקור את הנושא  באופן מעמיק יותר.

ומה עושים עם קובץ PDF כזה באנדרואיד?

ת'אמת, לא בדקתי עדיין.

ומה עם מאפייני נגישות בקובץ המומר?

ברוב המקרים, רוב תכונות הנגישות שהיו בקובץ ה PDF מועברות לגרסת ה Word.

  • המבנה ההיררכי של הכותרות
  • טקסט חלופי לתמונות.
  • מבנה תבליטים ומספור
  • כותרות עמודות בטבלאות נתונים (חזור כשורת כותרת בראש כל עמוד) לא נשמרות. אבל לא נורא, אפשר להוסיף אותם בקלות רבה עם NVDA

ואחרי כל זה, ייתכנו מקרים של קובצי PDF שאין בהם קידוד לעברית שלא יוקראו אחרי המרה מ PDF ל Word. אם תמצאו כאלה, אתם מוזמנים לעדכן אותי.

 

השאר תגובה

%d בלוגרים אהבו את זה: