דערקענען טעקסט אין אַ פּדף טעקע אָנליין.


עס איז ניט שטענדיק מעגלעך צו עקסטראַקט טעקסט פון אַ פּדף טעקע ניצן קאַנווענשאַנאַל קאַפּיינג. אָפט די בלעטער פון אַזאַ דאקומענטן זענען די סקאַנד צופרידן פון זייער פּאַפּיר ווערסיעס. צו בייַטן אַזאַ טעקעס אין גאָר עדיטאַבלע טעקסט דאַטע, ספּעציעלע מגילה מיט אָפּטיש טשאַראַקטער רעקאָגניטיאָן (אָקר) פֿונקציע זענען געניצט.

אַזאַ סאַלושאַנז זענען זייער שווער צו ינסטרומענט און, דעריבער, קאָסטן אַ פּלאַץ פון געלט. אויב איר דאַרפֿן צו דערקענען טעקסט מיט PDF קעסיידער, עס איז קעדייַיק צו קויפן די צונעמען פּראָגראַם. פֿאַר זעלטן קאַסעס, עס וואָלט זיין מער לאַדזשיקאַל צו נוצן איינער פון די בנימצא אָנליין באַדינונגען מיט ענלעך פאַנגקשאַנז.

ווי צו דערקענען טעקסט פון פּדף אָנליין

פון קורס, די אָקר אָנליין באַדינונגען שטריך שטעלן איז מער לימיטעד קאַמפּערד צו פול דעסקטאַפּ סאַלושאַנז. אבער איר קענען אַרבעטן מיט אַזאַ רעסורסן אָדער פֿאַר פֿרייַ, אָדער פֿאַר אַ נאָמינאַל אָפּצאָל. די הויפּט זאַך איז אַז די קאָראַספּאַנדינג וועב אַפּלאַקיישאַנז קאָפּע מיט זייער הויפּט אַרבעט, ניימלי טעקסט דערקענונג, ווי געזונט.

אופֿן 1: ABBYY FineReader Online

די דינסט אַנטוויקלונג פירמע איז איינער פון די פירער אין די פעלד פון אָפּטיש דאָקומענט דערקענונג. ABBYY FineReader פֿאַר ווינדאָוז און מעק איז אַ שטאַרק לייזונג פֿאַר קאַנווערטינג פּדף צו טעקסט און אַרבעט מיט אים.

די וועב אַנטקעגנשטעלנ פון דעם פּראָגראַם, פון קורס, איז ערגער צו עס אין פאַנגקשאַנאַליטי. דאך, די דינסט קענען דערקענען טעקסט פון סקאַנז און פאָטאָס אין מער ווי 190 שפּראַכן. שטיצט די קאַנווערזשאַן פון פּדף טעקעס אין דאקומענטן וואָרט, עקססעל, אאז"וו.

ABBYY FineReader אָנליין אָנליין דינסט

  1. איידער איר אָנהייבן ארבעטן מיט די געצייַג, שאַפֿן אַ חשבון אויף דעם פּלאַץ אָדער קלאָץ אין ניצן דיין פאַסעבאָאָק, Google אָדער מיקראָסאָפט חשבון.

    צו גיין צו די לאָגין פֿענצטער, גיט די קנעפּל. "לאָגין" אין די שפּיץ מעניו באַר.
  2. אַמאָל אַרייַנגערעכנט, אַרייַנפיר די געוואלט פּדף דאָקומענט אין די פינערעאַדער ניצן די קנעפּל "Upload Files".

    דעמאָלט גיט "סעלעקט בלאַט נומערן" און ספּעציפיצירן די געוואלט שפּאַן פֿאַר טעקסט דערקענונג.
  3. ווייַטער, סעלעקטירן די שפּראַכן פאָרשטעלן אין דעם דאָקומענט, די פֿאָרמאַט פון די ריזאַלטינג טעקע און גיט אויף די קנעפּל "Recognize".
  4. נאָך פּראַסעסינג, די געדויער פון וואָס דעפּענדס לעגאַמרע אויף די גרייס פון דעם דאָקומענט, איר קענען אראפקאפיע די פאַרטיק טעקע מיט טעקסט דאַטע פשוט דורך געבן אַ קליק אויף זייַן נאָמען.

    אָדער אַרויספירן עס צו איינער פון די בנימצא וואָלקן באַדינונגען.

דער דינסט איז אונטערשיידן, מיסטאָמע, דורך די מערסט פּינטלעך טעקסט דערקענונג אַלגערידאַמז אין בילדער און פּדף טעקעס. אבער, ליידער, זייַן פּאָטער נוצן איז לימיטעד צו פינף בלעטער פּראַסעסט פּער חודש. צו אַרבעטן מיט מער וואַלומאַנאַס דאָקומענטן, איר האָבן צו קויפן אַ איין יאָר אַבאָנעמענט.

אָבער, אויב די OCR פֿונקציע איז זייער ראַרעלי, ABBYY FineReader Online איז אַ גרויס אָפּציע פֿאַר יקסטראַקטינג טעקסט פון קליין פּדף טעקעס.

מעטאָד 2: Free אָנליין אָקר

פּשוט און באַקוועם דינסט פֿאַר דידזשאַטייזינג טעקסט. אָן די דאַרפֿן פֿאַר רעגיסטראַציע, די מיטל אַלאַוז איר צו דערקענען 15 פול פּדף בלעטער פּער שעה. פֿרייַ אָנליין אָקר גאָר אַרבעט מיט דאָקומענטן אין 46 שפּראַכן און אָן דערלויבעניש שטיצט דרייַ טעקסט אַרויספירן פאָרמאַץ - דאָקקס, קסלסקס און טקסט.

ווען רעדזשיסטערינג, דער באַניצער איז ביכולת צו פּראַסעסינג מאַלטי-בלאַט דאָקומענטן, אָבער דער פּאָטער נומער פון די בלעטער איז לימיטעד צו 50 וניץ.

פֿרייַ אָנליין אָקר אָנליין דינסט

  1. צו דערקענען די טעקסט פון די פּדף ווי אַ "גאַסט", אָן דערלויבעניש אויף די מיטל, נוצן די צונעמען פאָרעם אויף די הויפּט בלאַט פון די פּלאַץ.

    אויסקלייַבן דעם געוואלט דאָקומענט ניצן די קנעפּל "טעקע", ספּעציפיצירן די הויפּט טעקסט שפּראַך, רעזולטאַט פֿאָרמאַט, דעמאָלט וואַרטן פֿאַר די טעקע צו מאַסע און גיט "קאָנווערט".
  2. אין די סוף פון די דיגיטאַליזאַטיאָן פּראָצעס, גיט "Download Output File" צו ראַטעווען דעם פאַרטיק דאָקומענט מיט דעם טעקסט אויף דעם קאָמפּיוטער.

פֿאַר אָטערייזד וסערס, די סיקוואַנס פון אַקשאַנז איז עפּעס אַנדערש.

  1. ניצן די קנעפּל "Registration" אָדער "לאָגין" אין די שפּיץ מעניו באַר צו, ריספּעקטיוולי, מאַכן אַ חשבון Free אָנליין אָקר אָדער גיין אין עס.
  2. נאָך דערלויבעניש אין די דערקענונג טאַפליע, האַלטן די שליסל "קטרל", סעלעקטירן אַרויף צו צוויי שפּראַכן פון די מקור דאָקומענט פון די רשימה צוגעשטעלט.
  3. ספּעציפיצירן ווייַטער אָפּציעס פֿאַר יקסטראַקטינג טעקסט פון PDF און גיט די קנעפּל. "אויסקלייַבן טעקע" צו מאַסע די דאָקומענט אין די דינסט.

    דערנאך, צו אָנהייבן דערקענונג, גיט "קאָנווערט".
  4. נאָך פּראַסעסינג די דאָקומענט, דריקט אויף די לינק מיט די נאָמען פון די רעזולטאַט טעקע אין די קאָראַספּאַנדינג זייַל.

    די דערקענונג רעזולטאַט וועט זיין מיד סטאָרד אין די זכּרון פון דיין קאָמפּיוטער.

אויב איר דאַרפֿן צו עקסטראַקט טעקסט פון אַ קליין פּדף דאָקומענט, איר קענען בעשאָלעם ריזאָרט צו ניצן די געצייַג דיסקרייבד אויבן. צו אַרבעטן מיט גרויס טעקעס, איר וועט האָבן צו קויפן נאָך סימבאָלס אין Free Online OCR אָדער Resort צו אן אנדער לייזונג.

מעטאָד 3: נעוואָקר

גאָר אָקר-דינסט אַז אַלאַוז איר צו עקסטראַקט טעקסט פון כמעט קיין גראַפיקס און עלעקטראָניש דאָקומענטן ווי דדזשווו און פּדף. די מיטל טוט נישט אָנטאָן ריסטריקשאַנז אויף די גרייס און נומער פון רעקאַגנייזאַבאַל טעקעס, טוט נישט דאַרפן רעגיסטראַציע, און אָפפערס אַ ברייט קייט פון פֿאַרבונדענע פאַנגקשאַנז.

NewOCR שטיצט 106 שפּראַכן און איז ביכולת צו יפעקטיוולי שעפּן אַפֿילו נידעריק-קוואַליטעט דאָקומענט סקאַנז. עס איז מעגלעך צו מאַניואַלי אויסקלייַבן די געגנט פֿאַר טעקסט דערקענונג אויף דער טעקע בלאַט.

אָנליין דינסט נעוואָקר

  1. אַזוי, איר קענען אָנהייבן ארבעטן מיט די מיטל מיד, אָן די דאַרפֿן צו דורכפירן ומנייטיק אַקשאַנז.

    גלייַך אויף די הויפּט בלאַט איז אַ פאָרעם פֿאַר ימפּאָרטינג דעם דאָקומענט צו דעם פּלאַץ. צו לייגן אַ טעקע צו NewOCR, נוצן די קנעפּל "אויסקלייַבן טעקע" אין די אָפּטיילונג "אויסקלייַבן דיין טעקע". דעמאָלט אין דעם פעלד "Recognition language (s)" אויסקלייַבן איינער אָדער מער שפּראַכן פון די מקור דאָקומענט, דעמאָלט גיט "ופּלאָאַד + אָקר".
  2. שטעלן דיין בילכער דערקענונג סעטטינגס, אויסקלייַבן די געוואלט בלאַט צו עקסטראַקט דעם טעקסט, און גיט די קנעפּל. "OCR".
  3. מעגילע אַראָפּ אַ ביסל און געפֿינען די קנעפּל. אָפּלאָדירן.

    דריקט אויף אים און אין די פאַל-אַראָפּ רשימה אויסקלייַבן די פארלאנגט דאָקומענט פֿאָרמאַט פֿאַר דאַונלאָודינג. נאָך דעם, די פאַרטיק טעקע מיט די יקסטראַקטיד טעקסט וועט זיין דאַונלאָודיד צו דיין קאָמפּיוטער.

די געצייַג איז באַקוועם און אנערקענט אַלע אותיות אין אַ הויך קוואַליטעט. אָבער, די פּראַסעסינג פון יעדער בלאַט פון די ימפּאָרטיד פּדף דאָקומענט מוזן זיין לאָנטשט ינדיפּענדאַנטלי און געוויזן אין אַ באַזונדער טעקע. איר קענען, פון קורס, מיד נאָכמאַכן די דערקענונג רעזולטאַט צו די קליפּבאָרד און צונויפגיסן זיי מיט אנדערע.

דאך, לויט די אויבן נואַנס, גרויס אַמאַונץ פון טעקסט ניצן נעוואָקר זענען זייער שווער צו עקסטראַקט. מיט דער זעלביקער קליין טעקעס דינען קאָפּעס "מיט אַ קלאַפּ."

אופֿן 4: OCR.Space

א פּשוט און פאַרשטיייק מיטל פֿאַר דידזשאַטייזינג טעקסט אַלאַוז איר צו דערקענען פּדף דאקומענטן און רעזולטאַט רעזולטאַט אין אַ טקסט טעקע. עס זענען קיין לימאַץ אויף די נומער פון בלעטער. דער בלויז באַגרענעצונג איז אַז די גרייס פון דעם אַרייַנשרייַב דאָקומענט זאָל ניט יקסיד 5 מעגאבייט.

OCR.Space אָנליין דינסט

  1. רעגיסטרירן צו אַרבעטן מיט די געצייַג איז ניט נייטיק.

    פּונקט דריקט אויף די לינקס אויבן און צופֿעליקער די פּדף דאָקומענט צו דעם וועבזייַטל פון דיין קאָמפּיוטער ניצן די קנעפּל "אויסקלייַבן טעקע" אָדער פון די נעץ - דורך דערמאָנען.
  2. אין די דראָפּדאָוון רשימה "אויסקלייַבן אָקר שפּראַך" אויסקלייַבן די שפּראַך פון די ימפּאָרטיד דאָקומענט.

    דערנאָך אָנהייב די טעקסט דערקענונג פּראָצעס דורך געבן אַ קליק אויף דעם קנעפּל. "אָנהייב אָקר!".
  3. אין די סוף פון טעקע פּראַסעסינג, זען די רעזולטאַט אין די "OCR'ed Result" און גיט אָפּלאָדירןצו אָפּלאָדירן די פאַרטיק טקס דאָקטאָר.

אויב איר נאָר דאַרפֿן צו עקסטראַקט דעם טעקסט פון די פּדף און די לעצט פאָרמאַטטינג איז ניט וויכטיק אין אַלע, OCR.Space איז אַ גוט ברירה. דער בלויז דאָקומענט מוזן זיין "מאָנאָלינגואַל", ווייַל די דערקענונג פון צוויי אָדער מער שפּראַכן אין דער זעלביקער צייַט אין די דינסט איז נישט צוגעשטעלט.

זען אויך: Free analogues FineReader

עוואַלואַטינג די אָנליין מכשירים דערלאנגט אין דעם אַרטיקל, עס זאָל זיין אנגעוויזן אַז די FineReader Online פון ABBYY כאַנדאַלז די אָקר פֿונקציע רובֿ אַקיעראַטלי און אַקיעראַטלי. אויב די מאַקסימום אַקיעראַסי פון טעקסט דערקענונג איז וויכטיק פֿאַר איר, עס איז בעסטער צו ספּאַסיפיקלי באטראכט דעם אָפּציע. אבער צו באַצאָלן פֿאַר אים, רובֿ מסתּמא, אויך האָבן צו.

אויב איר דאַרפֿן צו דיטיילד קליין דאָקומענטן און איר זענען גרייט צו פאַרריכטן ערראָרס אין די דינסט זיך, עס איז רעקאַמענדיד צו נוצן NewOCR, OCR.Space אָדער Free Online OCR.