גוטע נאָכמיטאָג
מיסטאָמע יעדער פון אונדז פייסט מיט די אַרבעט ווען איר דאַרפֿן צו איבערזעצן אַ פּאַפּיר דאָקומענט אין עלעקטראָניש פאָרעם. דאָס איז ספּעציעל נייטיק פֿאַר די וואס לערנען, אַרבעט מיט דאַקיומענטיישאַן, איבערזעצן טעקסטן ניצן עלעקטראָניש דיקשאַנעריז, אאז"ו ו.
אין דעם אַרטיקל איך וואָלט ווי צו טיילן עטלעכע פון די באַסיקס פון דעם פּראָצעס. אין אַלגעמיין, סקאַנינג און טעקסט דערקענונג איז גאַנץ צייַט קאַנסומינג, ווי רובֿ אַפּעריישאַנז וועט האָבן צו זיין מאַניואַלי. מיר וועלן פּרובירן צו רעכענען אויס וואָס, ווי און וואָס.
ניט אַלעמען מיד פארשטייט איין זאַך. נאָך סקאַנינג (פּאַסן אַלע די שיץ אויף די סקאַנער) איר וועט האָבן בילדער פון די פֿאָרמאַט במפּ, דזשפּג, פּנג, GIF (עס קען זיין אנדערע פֿאָרמאַטירונגען). אַזוי פון דעם בילד איר דאַרפֿן צו באַקומען דעם טעקסט - דעם פּראָצעדור איז גערופן דערקענונג. אין דעם סדר, און וועט זיין דערלאנגט אונטן.
דער אינהאַלט
- 1. וואָס איז דארף פֿאַר סקאַנינג און דערקענונג?
- 2. טעקסט סקאַנינג אָפּציעס
- 3. דערקענונג פון די טעקסט פון דעם דאָקומענט
- 3.1 טעקסט
- 3.2 פּיקטורעס
- 3.3 טאַבלעס
- 3.4 ומנייטיק זאכן
- 4. רעקאָגניטיאָן פון פּדף / דדזשווו טעקעס
- 5. טעות קאָנטראָלירונג און שפּאָרן אַרבעט רעזולטאַטן
1. וואָס איז דארף פֿאַר סקאַנינג און דערקענונג?
1) סקאַננער
צו איבערזעצן אויסדרוקן דאָקומענטן אין טעקסט פאָרעם, איר קודם דאַרפֿן אַ סקאַננער און, אַקאָרדינגלי, "געבוירן" מגילה און דריווערס אַז זענען מיט אים. מיט זיי איר קענען יבערקוקן די דאָקומענט און שפּאָרן עס פֿאַר ווייַטער פּראַסעסינג.
איר קענען נוצן אנדערע אַנאַלאָגס, אָבער די ווייכווארג וואָס איז געקומען מיט די סקאַננער אין די קיט יוזשאַוואַלי אַרבעט פאַסטער און האט מער אָפּציעס.
דעפּענדינג אויף וואָס מין פון סקאַנער איר האָבן - די גיכקייַט פון אַרבעט קענען בייַטן באטייטיק. עס זענען סקאַנערז וואָס קענען באַקומען אַ בילד פון אַ בויגן אין 10 סעקונדעס, עס זענען אָנעס וואָס וועט באַקומען עס אין 30 סעקונדעס. אויב איר יבערקוקן אַ בוך אויף 200-300 שיץ - איך טראַכטן עס איז נישט שווער צו רעכענען ווי פילע מאָל עס וועט זיין אַ חילוק אין צייַט?
2) פּראָגראַם פֿאַר דערקענונג
אין אונדזער אַרטיקל, איך וועט ווייַזן איר די אַרבעט אין איינער פון די בעסטער מגילה פֿאַר סקאַנינג און רעקאַגנייזינג לעגאַמרע קיין דאָקומענטן - אַבבי פינדערעאַדער. זינט די פּראָגראַם איז באַצאָלט, דעמאָלט מיד איך וועל געבן אַ לינק צו אנדערן - זייַן פֿרייַ אַנאַלאָג פון די קוני פאָרעם. אמת, איך וואָלט נישט פאַרגלייַכן זיי, רעכט צו דער פאַקט אַז פינעעאַדער ווינס אין אַלע שייכות, איך רעקאָמענדירן צו פּרובירן עס אַלע די זעלבע.
ABBYY FineReader 11
אַפישאַל פּלאַץ: //www.abbyy.ru/
איינער פון די בעסטער מגילה פון זייַן מין. עס איז דיזיינד צו דערקענען די טעקסט אין די בילד. געבויט פילע אָפּציעס און פֿעיִקייטן. עס קענען פּאַרסירן אַ בינטל פון פאַנץ, אַפֿילו שטיצט כאַנדריטאַן ווערסיעס (כאָטש איך האב נישט פּערסנאַלי געפרוווט עס, איך טראַכטן עס ס 'גוט צו קוים דערקענען די האנט געשריבענע ווערסיע, סייַדן איר האָבן אַ גאנץ קאַליגראַפיק האַנדרייטינג). מער אינפֿאָרמאַציע וועגן ארבעטן מיט איר וועט זיין דיסקאַסט ונטער. מיר אויך טאָן אַז דער אַרטיקל וועט דעקן די אַרבעט אין פּראָגראַם 11 ווערסיעס.
ווי אַ הערשן, פאַרשידענע ווערסיעס פון אַבבי פינדערעאַדער זענען נישט זייער אַנדערש פון יעדער אנדערער. איר קענען לייכט טאָן די זעלבע אין די אנדערע. די הויפּט דיפעראַנסיז קען זיין אין די קאַנוויניאַנס, גיכקייַט פון די פּראָגראַם און זייַן קייפּאַבילאַטיז. למשל, פריער ווערסיעס אָפּזאָגן צו עפענען אַ פּדף דאָקומענט און דדזשווו.
3) דאקומענטן צו יבערקוקן
יאָ, אַזוי דאָ, איך באַשלאָסן צו נעמען אויס די דאקומענטן אין אַ באַזונדער זייַל. אין רובֿ קאַסעס, יבערקוקן קיין טעקסטבוקס, צייטונגען, אַרטיקלען, מאַגאַזינז, אאז"ו ו די ביכער און די ליטעראַטור וואָס איז אין מאָנען. וואָס בין איך לידינג צו? פון פערזענלעכע דערפאַרונג, איך קען זאָגן אַז פיל אַז איר ווילן צו יבערקוקן - קען זיין שוין אויף די נעץ! ווי פילע מאָל איך פּערסנאַלי שפּאָרן צייַט ווען איך געפונען איין בוך אָדער אנדערן שוין סקאַנד אין די נעץ. איך נאָר געהאט צו נאָכמאַכן דעם טעקסט אין דעם דאָקומענט און פאָרזעצן מיט אים.
פון דעם פּשוט עצה - איידער איר יבערקוקן עפּעס, טשעק אויב עמעצער האט שוין סקאַנד עס און איר טאָן ניט דאַרפֿן צו וויסט דיין צייַט.
2. טעקסט סקאַנינג אָפּציעס
דאָ, איך וועל נישט רעדן וועגן דיין דריווערס פֿאַר די סקאַנער, די מגילה אַז געגאנגען מיט עס, ווייַל אַלע סקאַנער מאָדעלס זענען אַנדערש, די ווייכווארג איז אויך אַנדערש אומעטום און געסינג און אַפֿילו מער קלאר ווייזונג ווי צו דורכפירן די אָפּעראַציע איז אַנריליסטיק.
אָבער אַלע סקאַנערז האָבן די זעלבע סעטטינגס אַז קענען זיין זייער ווירקונג אויף די גיכקייַט און קוואַליטעט פון דיין אַרבעט. דאָ וועגן זיי איך וועל נאָר רעדן דאָ. איך וועט רשימה אין סדר.
1) יבערקוקן קוואַליטעט - דפּי
ערשטער, שטעלן די יבערקוקן קוואַליטעט אין די אָפּציעס נישט נידעריקער ווי 300 דפּי. עס איז קעדייַיק צו אַפֿילו לייגן אַ ביסל מער, אויב מעגלעך. די העכער די דפּי גראדן איז, די קלירער דיין בילד וועט קער אויס, און אַזוי, ווייַטער פּראַסעסינג וועט נעמען אָרט פאַסטער. אין דערצו, די העכער די קוואַליטעט פון די יבערקוקן - די ווייניקער מיסטייקס איר שפּעטער האָבן צו ריכטיק.
דער בעסטער אָפּציע גיט, יוזשאַוואַלי 300-400 דפּי.
2) טשראָמאַטיסיטי
דעם פּאַראַמעטער שטארק ווירקן דער יבערקוקן צייַט (דורך די וועג, דפּי אויך אַפעקץ, אָבער זיי זענען אַזוי שטאַרק, און נאָר ווען דער באַניצער שטעלט הויך וואַלועס).
יוזשאַוואַלי עס זענען דרייַ מאָדעס:
- שוואַרץ און ווייַס (גאנץ פֿאַר קלאָר טעקסט);
- גרוי (פּאַסיק פֿאַר טעקסט מיט טישן און בילדער);
- קאָליר (פֿאַר קאָליר מאַגאַזינז, ביכער, אין אַלגעמיין, דאקומענטן, ווו קאָליר איז וויכטיק).
וסואַללי דער יבערקוקן צייַט דעפּענדס אויף די ברירה פון קאָלירן. נאָך אַלע, אויב איר האָבן אַ גרויס דאָקומענט, אפילו די עקסטרע 5-10 סעקונדעס אויף די בלאַט ווי אַ גאַנץ וועט רעזולטאַט אין אַ לייַטיש צייַט ...
3) פאָטאָס
איר קענען באַקומען די דאָקומענט ניט נאָר דורך סקאַנינג, אָבער אויך דורך גענומען אַ בילד פון עס. ווי אַ הערשן, אין דעם פאַל איר וועט האָבן עטלעכע אנדערע פראבלעמען: בילד דיסטאָרשאַן, בלערינג. דעריבער, עס קען דאַרפן מער ווייַטערדיק עדיטינג און פּראַסעסינג פון די באקומען טעקסט. פּערסנאַלי, איך טאָן נישט רעקאָמענדירן ניצן די קאַמעראַס פֿאַר דעם געשעפט.
עס איז וויכטיק צו טאָן אַז עס וועט נישט זיין אַלע אַזאַ דאָקומענט, ווייַל יבערקוקן קוואַליטעט ער קענען זיין גאָר נידעריק ...
3. דערקענונג פון די טעקסט פון דעם דאָקומענט
מיר יבערנעמען אַז די טשערישט בלעטער סקאַנד איר באקומען. רובֿ אָפט זיי זענען פאָרמאַץ: טיף, במוו, דזשפּג, פּנג. אין אַלגעמיין, פֿאַר ABBYy FineReader - דאָס איז נישט זייער וויכטיק ...
נאָך עפן די בילד אין ABBYY FineReader, די פּראָגראַם, אין אַלגעמיין, אויף די מאַשין סטאַרץ צו קלייַבן געביטן און דערקענען זיי. אבער מאל זי טוט עס פאַלש. פֿאַר דעם מיר באַטראַכטן די סעלעקציע פון די געוואלט געביטן מאַניואַלי.
עס איז וויכטיק! ניט אַלעמען מיד פארשטייט אַז נאָך עפן אַ דאָקומענט אין דעם פּראָגראַם, די מקור דאָקומענט איז געוויזן אויף די לינקס אין די פֿענצטער, אין וואָס איר הויכפּונקט פאַרשידענע געביטן. נאָך קליקינג אויף די "דערקענונג" קנעפּל, די פּראָגראַם אין די פֿענצטער אויף די רעכט וועט ברענגען איר די פאַרטיק טעקסט. נאָך דערקענונג, דורך דעם וועג, עס איז רעקאַמענדיד צו קאָנטראָלירן דעם טעקסט פֿאַר ערראָרס אין דער זעלביקער פינערעאַדער.
3.1 טעקסט
דעם געגנט איז געניצט צו הויכפּונקט טעקסט. בילדער און טישן זאָל זיין יקסקלודיד פון עס. זעלטן און ומגעוויינטלעך פאַנץ וועט האָבן צו זיין מאַניואַלי ...
צו אויסקלייַבן אַ טעקסט געגנט, באַצאָלן ופמערקזאַמקייַט צו די טאַפליע אין די שפּיץ פון די פינערעאַדער. עס איז אַ קנעפּל "ה" (זען די סקרעענשאָט ונטער, די מויז טייַטל איז נאָר אויף דעם קנעפּל). דריקט אויף עס, דעמאָלט אין די בילד אונטן אויסקלייַבן די ניטלי רעקטאַנגגיאַלער געגנט אין וואָס די טעקסט איז ליגן. דורך דעם וועג, אין עטלעכע קאַסעס איר דאַרפֿן צו מאַכן טעקסט בלאַקס פון 2-3, און מאל 10-12 פּער בלאַט, ווייַל טעקסט פאָרמאַטטינג קענען זיין אַנדערש און טאָן ניט אויסקלייַבן די גאנצע געגנט מיט איין גראָדעק.
עס איז וויכטיק צו טאָן אַז די בילד זאָל נישט פאַלן אין די טעקסט געגנט! אין דער צוקונפֿט, עס וועט ראַטעווען איר אַ פּלאַץ פון צייַט ...
3.2 פּיקטורעס
געניצט צו הויכפּונקט בילדער און די געביטן וואָס זענען שווער צו דערקענען רעכט צו נעבעך קוואַליטעט אָדער ומגעוויינטלעך שריפֿט.
אין די סקרעענשאָט אונטן, די מויז טייַטל איז ליגן אויף די קנעפּל געניצט צו אויסקלייַבן די "בילד" געגנט. ביי די וועג, לעגאַמרע קיין טייל פון די בלאַט קענען זיין אויסגעקליבן אין דעם געגנט, און FineReader וועט דעמאָלט אַרייַנלאָזן עס אין די דאָקומענט ווי אַ נאָרמאַל בילד. עס נאָר "נאַריש" וועט נאָכמאַכן ...
טיפּיקאַללי, דעם געגנט איז געניצט צו הויכפּונקט שוואַך סקאַנד טישן, צו הויכפּונקט ניט-נאָרמאַל טעקסט און שריפֿט, די בילדער זיך.
3.3 טאַבלעס
די סקרעענשאָט ונטער ווייזט די קנעפּל צו הויכפּונקט די טישן. אין אַלגעמיין, איך פּערסנאַלי נוצן עס זייער ראַרעלי. דער פאַקט איז אַז איר האָבן גאַנץ רוטינלי ציען (פאקטיש) יעדער שורה אויף די טיש און ווייַזן וואָס און ווי די פּראָגראַם. אויב די טיש איז קליין און נישט זייער גוט, איך רעקאָמענדירן ניצן די "בילד" געגנט פֿאַר די צוועקן. דערמיט שפּאָרן אַ פּלאַץ פון צייַט, און דעמאָלט איר קענען געשווינד מאַכן אַ טיש אין וואָרט אויף די יקער פון אַ בילד.
3.4 ומנייטיק זאכן
עס איז וויכטיק צו טאָן. מאל עס זענען ומנייטיק עלעמענטן אויף דעם בלאַט וואָס מאַכן עס שווער צו דערקענען די טעקסט, אָדער טאָן ניט לאָזן איר אויסקלייַבן די געוואלט געגנט בייַ אַלע. זיי קענען זיין אַוועקגענומען ניצן די "מעקער" בייַ אַלע.
צו טאָן דאָס, גיין צו די בילד עדיטינג מאָדע.
אויסקלייַבן די מעקער געצייַג און אויסקלייַבן די אַנוואָנטיד געגנט. עס וועט זיין ירייסט און אין זייַן אָרט וועט זיין אַ ווייַס בויגן פון פּאַפּיר.
דורך דעם וועג, איך רעקאָמענדירן ניצן דעם אָפּציע צו איר ווי אָפט ווי מעגלעך. פרובירט אַלע די טעקסט געביטן וואָס איר האָט אויסגעקליבן, ווו איר טאָן ניט דאַרפֿן אַ שטיק פון טעקסט, אָדער עס זענען קיין ומנייטיק ווייזט, בלעראַסי, דיסטאָרשאַנז - ויסמעקן מיט אַ מעקער. דאַנק צו דעם דערקענונג וועט זיין פאַסטער!
4. רעקאָגניטיאָן פון פּדף / דדזשווו טעקעס
אין אַלגעמיין, דעם דערקענונג פֿאָרמאַט וועט זיין ניט אַנדערש פון די אנדערע - י.ע. איר קענען אַרבעטן מיט עס פּונקט ווי מיט בילדער. דער בלויז זאַך אַז די פּראָגראַם זאָל נישט זיין צו אַלט ווערסיע, אויב איר טאָן ניט עפענען פּדף / דדזשווו טעקעס - דערהייַנטיקן די ווערסיע צו 11.
א ביסל עצה. נאָך עפן די דאָקומענט אין פינערעאַדער - עס וועט אויטאָמאַטיש אָנהייבן צו דערקענען דעם דאָקומענט. אָפט אין פּדף / דדזשווו טעקעס, אַ ספּעציפיש געגנט פון דער בלאַט איז ניט דארף איבער די גאנצע דאָקומענט! צו באַזייַטיקן אַזאַ אַ געגנט אויף אַלע בלעטער, טאָן די פאלגענדע:
1. גיין צו די בילד עדיטינג אָפּטיילונג.
2. געבן די "טרימינג" אָפּציע.
3. אויסקלייַבן די געגנט וואָס איר דאַרפֿן אויף אַלע בלעטער.
4. גיט צולייגן צו אַלע בלעטער און טרים.
5. טעות קאָנטראָלירונג און שפּאָרן אַרבעט רעזולטאַטן
עס וואָלט ויסקומען אַז עס קען זיין אנדערע פּראָבלעמס, ווען אַלע די געביטן זענען אויסגעקליבן, דעמאָלט דערקענט - נעמען עס און ראַטעווען עס ... עס איז נישט דאָרט!
ערשטער, מיר דאַרפֿן צו קאָנטראָלירן דעם דאָקומענט!
צו געבן עס, נאָך דערקענונג, אין די פֿענצטער אויף די רעכט, עס וועט זיין אַ "טשעק" קנעפּל, זען די סקרעענשאָט אונטן. נאָך גיט עס, די FineReader פּראָגראַם וועט אויטאָמאַטיש ווייַזן איר די געביטן ווו די פּראָגראַם האט ערראָרס און עס קען נישט רילייאַבלי באַשטימען איינער אָדער אנדערן סימבאָל. איר וועט בלויז האָבן צו קלייַבן, אָדער איר שטימען מיט די מיינונג פון די פּראָגראַם, אָדער אַרייַן דיין כאַראַקטער.
דורך די וועג, אין העלפט די קאַסעס, בעערעך, די פּראָגראַם וועט פאָרשלאָגן איר אַ פאַרטיק רעכט וואָרט - איר נאָר האָבן צו נוצן די מויז צו קלייַבן די אָפּציע איר ווילן.
צווייטנס, נאָך קאָנטראָלירן איר דאַרפֿן צו קלייַבן די פֿאָרמאַט וואָס איר ראַטעווען די רעזולטאַט פון דיין אַרבעט.
דאָ FineReader גיט איר אַ מאַך צו די פולאַסט: איר קענען פשוט אַריבערפירן די אינפֿאָרמאַציע אין וואָרט איינער-אויף-איינער, און איר קענען ראַטעווען עס אין איינער פון דאַזאַנז פון פאָרמאַץ. אבער איך וואָלט ווי צו וואַרפן אן אנדער וויכטיק אַספּעקט. וואָס פֿאָרמאַט איר קלייַבן, עס ס מער וויכטיק צו קלייַבן די טיפּ פון קאָפּיע! באַטראַכטן די מערסט טשיקאַווע אָפּציעס ...
פּונקט קאָפּיע
אַלע געביטן וואָס איר האָט אויסגעקליבן אויף דער בלאַט אין דער דערקענט דאָקומענט וועט זיין ריכטיק אין די מקור דאָקומענט. א זייער באַקוועם אָפּציע ווען עס איז וויכטיק פֿאַר איר צו פאַרלירן טעקסט פאָרמאַטטינג. דורך די וועג, די פאַנץ אויך זיין זייער ענלעך צו דער אָריגינעל. איך רעקאָמענדירן מיט דעם אָפּציע צו אַריבערפירן דעם דאָקומענט צו וואָרט, צו פאָרזעצן ווייַטער אַרבעט דאָרט.
Editable copy
דעם אָפּציע איז גוט ווייַל איר באַקומען אַ שוין פאָרמאַטטעד ווערסיע פון די טעקסט. עס ינדענטאַטיאָן פון די "קיעם", וואָס קען זיין אין דער אָריגינעל דאָקומענט - איר וועט נישט טרעפן. נוציק אָפּציע ווען איר באטייטיק רעדאַגירן די אינפֿאָרמאַציע.
אמת, איר זאָל נישט קלייַבן אויב עס איז וויכטיק פֿאַר איר צו ופהיטן די נוסח פון די פּלאַן, פאַנץ, ינדענט. מאל, אויב די דערקענונג איז נישט זייער מצליח - דיין דאָקומענט קען "סקיו" ווייַל פון די געביטן פאָרמאַטטינג. אין דעם פאַל, עס איז קעדייַיק צו קלייַבן אַ פּינטלעך קאָפּיע.
קלאָר טעקסט
אַ אָפּציע פֿאַר די וואס דאַרפֿן נאָר די טעקסט פון דער בלאַט אָן אַלץ אַנדערש. פּאַסיק פֿאַר דאקומענטן אָן בילדער און טישן.
דאָס איז דער דאָקומענט סקאַנינג און דערקענונג אַרטיקל. איך האָפֿן אַז מיט די הילף פון די פּשוט עצות איר קענען סאָלווע דיין פראבלעמען ...
Good luck!