אלץ אָדער שפּעטער, אַלע יענע וואס אָפט אַרבעט מיט אָפיס מגילה פּנים אַ טיפּיש אַרבעט - יבערקוקן די טעקסט פון אַ בוך, זשורנאַל, צייַטונג, פשוט ליפלאַץ, און דאַן איבערזעצן די בילדער אין טעקסט פֿאָרמאַט, פֿאַר בייַשפּיל, אין אַ וואָרט דאָקומענט.
צו טאָן דאָס איר דאַרפֿן אַ סקאַנער און אַ ספּעציעל פּראָגראַם פֿאַר טעקסט דערקענונג. דעם אַרטיקל וועט דיסקוטירן די פֿרייַ אַנאַלאָג פון FineReader -קונעיפער (וועגן דערקענונג אין פינערעאַדער - זען דעם אַרטיקל).
זאל ס אָנהייבן ...
דער אינהאַלט
- 1. פֿעיִקייטן פון די קונעיפאָרם פּראָגראַם, פֿעיִקייטן
- 2. אַ בייַשפּיל פון טעקסט דערקענונג
- 3. באַטש טעקסט דערקענונג
- 4. קאָנקלוסיאָנס
1. פֿעיִקייטן פון די קונעיפאָרם פּראָגראַם, פֿעיִקייטן
קונעיפער
איר קענען אראפקאפיע פון דעם פּלאַץ דעוועלאָפּער: //cognitiveforms.com/
אַ עפענען מקור טעקסט דערקענונג סאָפטווער. דערצו, עס אַרבעט אין אַלע ווערסיעס פון ווינדאָוז: קספּ, וויסטאַ, 7, 8, וואָס פּליזיז. פּלוס, לייגן די גאַנץ רוסיש איבערזעצונג פון די פּראָגראַם!
פּראָס:
- טעקסט דערקענונג אין די 20 מערסט פאָלקס שפּראַכן פון דער וועלט (ענגליש און רוסיש זיך אַרייַנגערעכנט אין דעם נומער);
- ריזיק שטיצן פֿאַר פאַרשידענע דרוק פאַנץ;
- קאָנטראָלירן דעם ווערטערבוך דערקענט טעקסט;
- די פיייקייַט צו ראַטעווען די רעזולטאטן פון אַרבעט אין עטלעכע וועגן;
- מיינטיינינג די סטרוקטור פון די דאָקומענט;
- ויסגעצייכנט שטיצן און דערקענונג טישן.
קאָנס:
- טוט נישט שטיצן אויך גרויס דאָקומענטן און טעקעס (מער ווי 400 דפּי);
- טוט נישט שטיצן עטלעכע טייפּס פון סקאַנערז גלייַך (נו, דאָס איז נישט סקערי, אַ ספּעציעל סקאַננער איז אַרייַנגערעכנט מיט די סקאַננער דריווערס);
- די פּלאַן טוט נישט שייַנען (אָבער ווער דאַרף עס, אויב די פּראָגראַם גאָר סאַלווז די פּראָבלעם).
2. אַ בייַשפּיל פון טעקסט דערקענונג
מיר טראַכטן אַז איר האָבן שוין באקומען די נייטיק בילדער פֿאַר דערקענונג (סקאַנד דאָרט, אָדער אראפקאפיע די בוך אין פּדף / djvu פֿאָרמאַט אויף די אינטערנעט און באַקומען די נייטיק בילדער פון זיי.) ווי צו טאָן דאָס - זען דעם אַרטיקל).
1) עפענען די פארלאנגט בילד אין די קוינעפאָרם פּראָגראַם (טעקע / עפענען אָדער "קנטרל + אָ").
2) צו אָנפאַנגען דערקענונג - איר מוזן ערשטער קלייַבן פאַרשידענע געביטן: טעקסט, בילדער, טישן, אאז"וו. אין דעם קונעיפאָרם פּראָגראַם, דאָס קענען זיין ניט בלויז מאַניואַלי, אָבער אויך אויטאָמאַטיש! דריקט אויף די "מאַרקאַפּ" קנעפּל אין די שפּיץ שויב פון די פֿענצטער.
3) נאָך 10-15 סעקונדעס. די פּראָגראַם וועט אויטאָמאַטיש הויכפּונקט אַלע געביטן מיט פאַרשידענע פארבן. למשל, אַ טעקסט געגנט איז כיילייטיד אין בלוי. דורך דעם וועג, זי האָט כיילייטיד אַלע געביטן ריכטיק און גאַנץ געשווינד. האָנעסטלי, איך האט ניט דערוואַרטן אַזאַ אַ שנעל און ריכטיק ענטפער פון איר ...
4) פֿאַר די וואס טאָן ניט צוטרוי די אָטאַמאַטיק מאַרקאַפּ, איר קענען נוצן די מאַנואַל איינער. פֿאַר דעם עס איז אַ מכשיר (זען בילד ונטער), דאַנק צו וואָס איר קענען אויסקלייַבן: טעקסט, טיש, בילד. מאַך, פאַרגרעסערן / פאַרמינערן די ערשט בילד, טרים די עדזשאַז. אין אַלגעמיין, אַ גוט שטעלן.
5) נאָך אַלע געביטן זענען אנגעצייכנט, איר קענען גיינ ווייַטער דערקענונג. צו טאָן דעם, גיט די קנעפּל פון די זעלבע נאָמען, ווי אין די בילד ונטער.
6) ליטעראַללי אין 10-20 סעקונדעס. איר וועט זען אַ דאָקומענט אין מיקראָסאָפט וואָרט מיט די דערקענט טעקסט. וואָס איז טשיקאַווע, אין דעם טעקסט פֿאַר דעם בייַשפּיל, פון קורס עס זענען מיסטייקס, אָבער עס זענען זייער ווייניק פון זיי! ספּעציעל, באַטראַכטן ווי קלאָר דער אָריגינעל מאַטעריאַל איז - די בילד.
די גיכקייַט און קוואַליטעט איז גאַנץ פאַרגלייַכלעך מיט FineReader!
3. באַטש טעקסט דערקענונג
דעם פֿונקציע פון דער פּראָגראַם קען זיין באַקוועם ווען איר דאַרפֿן צו דערקענען נישט איין בילד, אָבער עטלעכע בייַ אַמאָל. די דורכוועג צו קאַטער פּעקל דערקענונג איז יוזשאַוואַלי פאַרבאָרגן אין די אָנהייב מעניו.
1) נאָך עפן דעם פּראָגראַם, איר דאַרפֿן צו שאַפֿן אַ נייַ פּעקל, אָדער עפענען אַ פריער געראטעוועט. אין אונדזער בייַשפּיל - שאַפֿן אַ נייַע.
2) אין דער ווייַטער שריט מיר געבן עס אַ נאָמען, פּרעפעראַבלי אַזאַ ווי זעקס חדשים שפּעטער מיר וועט געדענקען וואָס איז סטאָרד אין עס.
3) ווייַטער, אויסקלייַבן די דאָקומענט שפּראַך (רוסיש-ענגליש), אָנווייַזן צי עס זענען בילדער און טישן אין דיין סקאַנד מאַטעריאַל.
4) איצט איר דאַרפֿן צו ספּעציפיצירן די טעקע אין וואָס די טעקעס פֿאַר דערקענונג זענען ליגן. דורך דעם וועג, וואָס איז טשיקאַווע איז אַז די פּראָגראַם זיך וועט געפֿינען אַלע די בילדער און אנדערע גראַפיק טעקעס וואָס עס קענען דערקענען און לייגן זיי צו די פּרויעקט. איר אויך דאַרפֿן צו באַזייַטיקן די עקסטרע.
5) דער ווייַטער שריט איז ניט וויכטיק - קלייַבן וואָס צו טאָן מיט די מקור טעקעס, נאָך דערקענונג. איך רעקאָמענדירן צו קלייַבן די טשעקקבאָקס "טאָן גאָרנישט".
6) עס בלייבט בלויז צו קלייַבן די פֿאָרמאַט וואָס די דערקענט דאָקומענט וועט זיין געזונט. עס זענען עטלעכע אָפּציעס:
- rtf - די טעקע פון די וואָרט דאָקומענט איז געעפנט געווארן דורך אַלע פאָלקס אָפאַסאַז (אַרייַנגערעכנט פֿרייַ אָנעס, אַ לינק צו מגילה);
- txt - טעקסט פֿאָרמאַט, איר קענען ראַטעווען בלויז טעקסט, בילדער און טישן אין עס;
- htm - היפּערטעקסט בלאַט, באַקוועם אויב איר יבערקוקן און דערקענען טעקעס פֿאַר דעם פּלאַץ. זיין און קלייַבן אין אונדזער בייַשפּיל.
7) נאָך קליקינג די "ענדיקן" קנעפּל, די פּראַסעסינג פון דיין פּרויעקט וועט אָנהייבן.
8) די פּראָגראַם אַרבעט שיין געשווינד. נאָך דערקענונג, איר וועט זען אַ קוויטל מיט הטם טעקעס. אויב איר גיט אויף אַזאַ אַ טעקע, אַ בלעטערער סטאַרץ וווּ איר קענען זען די רעזולטאַטן. דורך די וועג, די פּעקל קענען זיין געזונט פֿאַר ווייַטער אַרבעט מיט אים.
9) ווי איר קענען זען די רעזולטאַטן אַרבעט איז זייער ימפּרעסיוו. די פּראָגראַם לייכט דערקענט די בילד, און לייכט דערקענען די טעקסט אונטער אים. בשעת די פּראָגראַם איז פֿרייַ, עס איז בכלל סופּער!
4. קאָנקלוסיאָנס
אויב איר אָפט טאָן ניט יבערקוקן און דערקענען דאָקומענטן, דעמאָלט קויפן פינדערעאַדער מיסטאָמע טוט נישט זינען. קונייפאָרם לייכט כאַנדאַלז רובֿ טאַסקס.
אויף די אנדערע האַנט, זי אויך האט דיסאַדוואַנטידזשיז.
ערשטער, עס זענען אויך ווייניק מכשירים פֿאַר עדיטינג און טשעק די ריזאַלטינג רעזולטאַט. צווייטנס, ווען איר האָבן צו דערקענען אַ פּלאַץ פון בילדער, דעמאָלט אין FineReader עס איז מער באַקוועם צו זען אַלץ צוגעגעבן צו די פּרויעקט אין די זייַל אויף די רעכט: שנעל אַראָפּנעמען ומנייטיק, מאַכן רעדאקציע, אאז"ו. און דריט, אויף דאָקומענטן פון לעגאַמרע שלעכט קוואַליטעט, קונעיפאָרם פארלירט דערקענונג: איר האָבן צו ברענגען דעם דאָקומענט צו מיינונג - ריכטיק מיסטייקס, שטעלן פּונקטואַציע מאַרקס, ציטירט, אאז"ו ו.
אַז ס אַלע. צי איר וויסן קיין אנדערע לייַטיש פֿרייַ טעקסט דערקענונג סאָפטווער?