דעם אַרטיקל וועט זיין אין דערצו צו די פריערדיקע איינער (און אין מער דעטאַל וועט אַנטדעקן די עסאַנס פון דירעקט טעקסט דערקענונג.
זאל ס אָנהייבן מיט די עסאַנס, וואָס פילע וסערס טאָן נישט פֿאַרשטיין.
נאָך סקאַנינג אַ בוך, צייַטונג, זשורנאַל, אאז"וו, איר באַקומען אַ סכום פון בילדער (וואָס איז, גראַפיק טעקעס, נישט טעקסט טעקעס) וואָס דאַרפֿן צו זיין אנערקענט אין אַ ספּעציעל פּראָגראַם (איינער פון די בעסטער פֿאַר דעם איז אַבבי פינדערעאַדער). דערקענונג - דעם איז דער פּראָצעס פון באקומען טעקסט פון גראַפיקס, און עס איז דעם פּראָצעס וואָס מיר וועלן שרייַבן אויס אין מער דעטאַל.
אין מיין בייַשפּיל, איך וועל מאַכן אַ סקרעענשאָט פון דעם פּלאַץ און פּרובירן צו באַקומען די טעקסט פון עס.
1) עפענען אַ טעקע
עפענען די בילד (s) אַז מיר פּלאַן צו דערקענען.
דורך דעם וועג, דאָ עס זאָל זיין אנגעוויזן אַז איר קענען עפענען נישט בלויז בילד פאָרמאַץ, אָבער אויך, פֿאַר בייַשפּיל, דדזשווו און פּדף טעקעס. דאס וועט לאָזן איר צו געשווינד דערקענען די גאנצע בוך, וואָס, איבער די נעץ, איז יוזשאַוואַלי פונאנדערגעטיילט אין די פאָרמאַץ.
2) עדיטינג
גלייך שטימען מיט אַוטאָ-דערקענונג טוט נישט מאַכן פיל זינען. אויב, פון קורס, איר האָבן אַ בוך אין וואָס בלויז טעקסט, קיין בילדער און טאַבלאַץ, פּלוס סקאַנד אין ויסגעצייכנט קוואַליטעט, און איר קענען. אין אנדערע פאַלן, עס איז בעסער צו שטעלן אַלע געביטן מאַניואַלי.
יוזשאַוואַלי, איר ערשטער דאַרפֿן צו באַזייַטיקן ומנייטיק געביטן פון דער בלאַט. צו טאָן דאָס, גיט די רעדאַגירן קנעפּל אויף די טאַפליע.
דעמאָלט איר דאַרפֿן צו לאָזן נאָר די געגנט מיט וואָס איר ווילן צו אַרבעטן מער. פֿאַר דעם עס איז אַ געצייַג פֿאַר טרימינג ומנייטיק געמארקן. אויסקלייַבן די מאָדע אין די רעכט זייַל. צו שנייַדן אַוועק.
ווייַטער, אויסקלייַבן די געגנט איר ווילן צו לאָזן. אין די בילד אונטן, עס איז כיילייטיד אין רויט.
דורך דעם וועג, אויב איר האָבן עטלעכע בילדער עפענען, איר קענען צולייגן קראַפּינג צו אַלע בילדער בייַ אַמאָל! באַקוועם ניט צו שנייַדן יעדער סעפּעראַטלי. ביטע טאָן אַז אין די דנאָ פון דעם טאַפליע עס איז אן אנדער גרויס געצייַג -גליידער. מיט דער הילף פון עס, איר קענען ויסמעקן ומנייטיק דוואָרז, בלאַט נומערן, ספּעקס, ומנייטיק ספּעציעל אותיות און יחיד סעקשאַנז פון די בילד.
נאָך איר גיט צו שנייַדן די עדזשאַז, דיין אָריגינעל בילד זאָל טוישן: בלויז די וואָרקספּאַסע וועט בלייַבן.
דעמאָלט איר קענען אַרויסגאַנג די בילד רעדאַקטאָר.
3) סעלעקציע פון געביטן
אויף די טאַפליע, אויבן די עפענען בילד, עס זענען קליין רעקטאַנגגאַלז וואָס דעפינירן דעם יבערקוקן געגנט. עס זענען עטלעכע פון זיי, לאָזן ס באַטראַכטן בעקיצער די מערסט פּראָסט אָנעס.
בילד - די פּראָגראַם וועט נישט דערקענען דעם געגנט, עס וועט פשוט נאָכמאַכן די ספּעסאַפייד רעקטאַנגגאַל און פּאַפּ עס אין די דערקענט דאָקומענט.
טעקסט איז דער הויפּט געגנט וואָס די פּראָגראַם וועט פאָקוס און וועט פּרובירן צו באַקומען טעקסט פון די בילד. מיר העלפֿן דעם שטח אין אונדזער בייַשפּיל.
נאָך סעלעקציע, די געגנט איז פּיינטיד אין אַ ליכט גרין קאָליר. דעמאָלט איר קענען גיינ ווייַטער צו דער ווייַטער שריט.
4) טעקסט דערקענונג
נאָך אַלע געביטן זענען באַשטימט, גיט אויף די מעניו באַפֿעל צו דערקענען. צומ גליק, אין דעם שריט, גאָרנישט מער איז דארף.
די דערקענונג צייַט דעפּענדס אויף די נומער פון בלעטער אין דיין דאָקומענט און די מאַכט פון די קאָמפּיוטער.
אויף דורכשניטלעך, איין פול בלאַט סקאַנד אין גוט קוואַליטעט נעמט 10-20 סעקונדעס. אויף דורכשניטלעך פּיסי מאַכט (דורך הייַנט סטאַנדאַרדס).
5) טעות קאָנטראָלירונג
וואָס די אָריגינעל קוואַליטעט פון די בילדער, יוזשאַוואַלי עס זענען שטענדיק ערראָרס נאָך דערקענונג. אַלע די זעלבע, אַזוי ווייַט קיין פּראָגראַם קענען גאָר עלימינירן די ווערק פון אַ מענטש.
דריקט אויף די ויסשרייַבן אָפּציע און ABBYY FineReader וועט אָנהייבן אַרויספירן צו איר, אין דרייען, די ערטער אין די דאָקומענט ווו ער סטאַמבאַלד. דיין אַרבעט, קאַמפּערד די אָריגינעל בילד (דורך דעם וועג, עס וועט ווייַזן איר דעם אָרט אין אַ ענלאַרגעד ווערסיע) מיט די פאַרשיידנקייַט פון דערקענונג - צו ענטפֿערן אין די אַפערמאַטיוו, אָדער צו ריכטיק און אַפּרווו. דערנאך די פּראָגראַם וועט גיין צו די ווייַטער שווער פּלאַץ און אַזוי אויף ביז די גאנצע דאָקומענט איז אָפּגעשטעלט.
אין אַלגעמיין, דעם פּראָצעס קענען זיין לאַנג און נודנע ...
6) אפגעהיט
ABBYY FineReader אָפפערס עטלעכע אָפּציעס פֿאַר שפּאָרן דיין אַרבעט. די מערסט אָפט געניצט איז אַ "פּינטלעך קאָפּיע". עס די גאנצע דאָקומענט, דער טעקסט אין עס, וועט זיין פאָרמאַטטעד אין די זעלבע וועג ווי אין דער מקור. א באַקוועם אָפּציע איז צו אַריבערפירן עס צו וואָרט. אזוי מיר האבן אין דעם בייַשפּיל.
נאָך דעם, איר וועט זען דיין דערקענט טעקסט אין אַ באַקאַנט וואָרט דאָקומענט. איך טראַכטן אַז עס ס קיין פונט אין ווייַטער דיסקרייבינג וואָס צו טאָן מיט אים ...
אזוי, מיר האָבן אַנאַליסט מיט אַ באַטאָנען בייַשפּיל ווי צו איבערזעצן אַ בילד אין קלאָר טעקסט. דעם פּראָצעס איז ניט שטענדיק פּשוט און געשווינד.
אין קיין פאַל, אַלץ וועט אָפענגען אויף די אָריגינעל בילד קוואַליטעט, דיין דערפאַרונג און די גיכקייַט פון דיין קאָמפּיוטער.
האָבן אַ גוט אַרבעט!