Jump to content

SUBIECTE NOI
« 1 / 5 »
RSS
PINNED Black Friday 2018

UE va limita tarifele la apeluril...

Probleme racordare la retea - un ...

ANAF a inceput vanatoarea online&...
 Monociclism extrem / Extreme unic...

Unde pot gasi role goale pentru p...

Problema traceroute/mtr

Declaratia Unica 2.1.1.A.6
 În urmatorii 10 ani, numarul de sa...

Pat suspendat de tavan

Cataloage și oferte BF 2018

De ce se da Coca Cola gratis in B...
 Referinta

Calitate sunet boxe active alimen...

Posibila sarcina nedorita

Plugin pentru wordpress
 

Diacritice

- - - - -
  • Please log in to reply
1054 replies to this topic

#433
RMC Info

RMC Info

    Active Member

  • Grup: Moderators
  • Posts: 3,064
  • Înscris: 21.04.2004

View PostAdiJapan, on 31st August 2009, 08:05, said:

Nostim. Cred că se putea realiza și mai bine, dar ideea e excelentă.

He he mie mi s-a parut excellent.

Tot acolo sub semnatura celor de la Happy Fish mai exista si o "solutie pentru criza de astazi din televiziune": suprimarea vocalelor la jurnalele de stiri (de unde vedem ca limba romana se trage din turca sau bulgara ;) Nu am linkul la indemana fiindca sunt la serviciu (nici diacritice nu am) Dar spor la cautat ! Déja suntem offtopic.

Edited by RMC Info, 31 August 2009 - 11:09.


#434
alceausu

alceausu

    Junior

  • Grup: Members
  • Posts: 5
  • Înscris: 13.08.2008
Vă semnalez apariția Diac+, program (gratuit) pentru restaurarea automată a diacriticelor.
Acesta funcționează ca plugin pentru MS Word 2007. Diac+ analizează cuvintele în context și le înlocuiește cu forma lor corectă. Acolo unde sunt ambiguități utilizatorul poate să selecteze varianta corectă.
Un corector ortografic obișnuit folosește un dicționar pentru a verifica validitatea formei cuvintelor considerate unul câte unul, în ordinea apariției lor. Astfel, un corector ortografic pentru limba română nu ar putea detecta lipsa diacriticelor în cazul unor cuvinte ca "baza", "ca" sau "sa" unde contextul de apariție dezambiguizează partea de vorbire sau atributele acesteia. Diac+ reușește să trateze și aceste cazuri cu ajutorul unei analize morfo-sintactice automate. Singurele cazuri de ambiguitate pentru Diac+ sunt cele semantice, unde chiar și un utilizator uman poate fi pus în dificultate (de exemplu, "românii"/"romanii", sau "fată"/"față").

#435
ravinescu

ravinescu

    Junior

  • Grup: Banned
  • Posts: 249
  • Înscris: 30.04.2009

View Postalceausu, on 25th October 2009, 13:56, said:

Vă semnalez apariția Diac+, program (gratuit) pentru restaurarea automată a diacriticelor.
Acesta funcționează ca plugin pentru MS Word 2007. Diac+ analizează cuvintele în context și le înlocuiește cu forma lor corectă. Acolo unde sunt ambiguități utilizatorul poate să selecteze varianta corectă.
Un corector ortografic obișnuit folosește un dicționar pentru a verifica validitatea formei cuvintelor considerate unul câte unul, în ordinea apariției lor. Astfel, un corector ortografic pentru limba română nu ar putea detecta lipsa diacriticelor în cazul unor cuvinte ca "baza", "ca" sau "sa" unde contextul de apariție dezambiguizează partea de vorbire sau atributele acesteia. Diac+ reușește să trateze și aceste cazuri cu ajutorul unei analize morfo-sintactice automate. Singurele cazuri de ambiguitate pentru Diac+ sunt cele semantice, unde chiar și un utilizator uman poate fi pus în dificultate (de exemplu, "românii"/"romanii", sau "fată"/"față").

Am încercat cu propoziția simplă "Ciinii sint rai" (corect => Cîinii sînt răi). Softul mi-a propus doar "râi" în loc de "rai". Softul nu le este de nici un folos celor care scriu în limba română normală și naturală, cea cu "Î din I" și "sînt". Iar dicționarul pe baza căruia se caută cuvintele nu este prea bun, din moment ce un cuvînt simplu ("răi") nu este propus ca înlocuitor, în locul lui fiind propus un cuvînt inexistent ("râi"). În concluzie, mai e de lucrat pentru ca extensia să devină utilă.

P.S. Termenul "restaurare" nu este potrivit, din moment ce diacriticele nu s-au pierdut și nici nu s-au deteriorat, ele lipsesc pentru că nu au fost tastate. Cred că "adăugare automată de diacritice" ar fi mai potrivit pentru descrierea extensiei.

Edited by ravinescu, 25 October 2009 - 14:03.


#436
CBV

CBV

    Active Member

  • Grup: Members
  • Posts: 1,690
  • Înscris: 28.09.2007
„Softul nu le este de nici un folos celor care scriu în limba română normală și naturală, cea cu "Î din I" și "sînt".” – (ravinescu)

Perseverați în greșeală.
Dar ce ne pasă nouă?
Vedeți cum rezolvați cu ghilimelele românești.

#437
alceausu

alceausu

    Junior

  • Grup: Members
  • Posts: 5
  • Înscris: 13.08.2008

View Postravinescu, on 25th October 2009, 14:01, said:

Am încercat cu propoziția simplă "Ciinii sint rai" (corect => Cîinii sînt răi). Softul mi-a propus doar "râi" în loc de "rai". Softul nu le este de nici un folos celor care scriu în limba română normală și naturală, cea cu "Î din I" și "sînt". Iar dicționarul pe baza căruia se caută cuvintele nu este prea bun, din moment ce un cuvînt simplu ("răi") nu este propus ca înlocuitor, în locul lui fiind propus un cuvînt inexistent ("râi"). În concluzie, mai e de lucrat pentru ca extensia să devină utilă.

Dacă scrieți "Cainii sunt rai" programul înlocuiește corect cu "Câinii sunt răi".
Deocamdată programul poate fi folosit doar pentru grafia cu  din A și pentru Ț și Ș cu sedilă. Într-o versiune ulterioră vom oferi și posibilitatea de a folosi grafia cu Î din I.
De ce a greșit în cazul "Cainii sint rai"? Programul nu a recunoscut cuvantul "sint", de aceea probabilitatea ca "rai" să fie substantiv (plural ca și "cainii") a fost mai mare decât probabilitatea de a fi adjectiv. Astfel, în loc de răi (adjectiv) a propus cuvântul râi (substantiv comun, feminin, plural).

#438
ravinescu

ravinescu

    Junior

  • Grup: Banned
  • Posts: 249
  • Înscris: 30.04.2009

View Postalceausu, on 26th October 2009, 03:33, said:

Într-o versiune ulterioră vom oferi și posibilitatea de a folosi grafia cu Î din I.

Asta e foarte bine.

View Postalceausu, on 26th October 2009, 03:33, said:

De ce a greșit în cazul "Cainii sint rai"? Programul nu a recunoscut cuvantul "sint", de aceea probabilitatea ca "rai" să fie substantiv (plural ca și "cainii") a fost mai mare decât probabilitatea de a fi adjectiv. Astfel, în loc de răi (adjectiv) a propus cuvântul râi (substantiv comun, feminin, plural).

Programul are tendința de a propune cuvinte inventate, care nu există. Asta n-ar fi o problemă dacă s-ar rezuma la propunere și nu ar face direct înlocuirea, ca în cazul lui "râi". Cuvîntul ăsta pare a fi pluralul de la "râie", însă DOOM 2 nu menționează o formă de plural pentru boala în cauză, așa cum menționează pentru alte boli (gripă/gripe, hepatită/hepatite).

Am testat programul cu cîteva articole preluate din ziarele scrise fără diacritice (Ziua, România Liberă, Onlinesport, Ziarul Financiar, etc.) sau de pe unele bloguri. În mare funcționează bine, dar cîteodată face și greșeli. De exemplu pune diacritice la numele persoanelor și uneori o nimerește, alteori nu (Zapată în loc de Zapata). Și bineînțeles că în continuare inventează cuvinte. De exemplu "Prima Casa" devine "Prima Câșă", în loc de "Prima Casă", "aferenta" devine "aferența" în loc de "aferentă", etc. Alteori nu propune varianta corectă. De exemplu pentru "rata" care apare de mai multe ori într-un text nu se propune mereu varianta "rată", dar uneori se propune cuvîntul inexistent "râța/râță". Toate acestea pot fi văzute la prelucrarea articolului Cum sa intepi la timp un balon imobiliar din RL de azi.

Altă problemă este cea a tipului diacriticelor. Programul pune diacriticele cu sedilă, ceea ce este absolut în regulă în acest moment, pentru că se asigură compatibilitate totală, deci toată lumea le va vedea. Însă în Windows Vista și Windows 7 tastatura implicită e cu diacritice cu virgulă, deci textele vor fi scrise cu aceste diacritice, iar Diac+ introduce diacritice cu sedilă, rezultînd un amestec. Pentru cine știe diferența dintre cele două tipuri de diacritice nu e nici o problemă, pentru că le poate înlocui automat pe cele introduse de Diac+ folosind funcția de găsire și înlocuire din Word. Dar cea mai mare parte a utilizatorilor nu au habar de asta și se vor întreba de ce Ș-urile și Ț-urile arată cînd într-un fel, cînd într-altul. Pe de altă parte corectorul ortografic din Word 2007 nu recunoaște diacriticele cu sedilă și le consideră greșite, deci cu atît mai mult trebuie să existe în Diac+ o opțiune de a introduce diacritice cu virgulă de la început.

În concluzie, programul poate fi folosit de cei care scriu în Word, dar după adăugarea automată a diacriticelor trebuie neapărat recitit tot textul și făcute corecturile necesare.

Edited by ravinescu, 26 October 2009 - 08:36.


#439
alceausu

alceausu

    Junior

  • Grup: Members
  • Posts: 5
  • Înscris: 13.08.2008
Vă mulțumim pentru semnalarea formelor problematice cum sunt râță (literă, slovă DEX Online) și câșă (câș adj. m., pl. câși; f. sg. câșă, pl. câșe). Într-adevăr, prezența acestor forme în dicționarul programului produce ambiguități prea mari în cazul unor cuvinte foarte frecvente cum sunt "casa" și "rata". Formele semnalate de dvs au fost eliminate din noile resurse lexicale ale programului.
Acestea vor fi descărcate automat atunci când programul Diac+ se va actualiza (odată la 7 zile).

Trebuie să precizez că mai sunt încă multe astfel de exemple. Este posibil ca în resursele lexicale ale programului (peste 1.000.000 de forme) să se fi strecurat cuvinte care fie nu sunt cuvinte valide ale limbii române, fie nu au o largă folosire. Iată câteva exemple: conț (teanc de foi de hârtie), deșchidere (formă moldovenească pentru deschidere), pâșul (s. m. art. hot., om tăcut și rău). Aceste cuvinte au fost eliminate deoarece creau ambiguități de ortografie pentru cont, deschidere, pasul.

#440
mircea21

mircea21

    Rătăcit între viitor și trecut

  • Grup: Senior Members
  • Posts: 6,704
  • Înscris: 19.12.2007

View Postravinescu, on 26th October 2009, 08:34, said:

În concluzie, programul poate fi folosit de cei care scriu în Word, dar după adăugarea automată a diacriticelor trebuie neapărat recitit tot textul și făcute corecturile necesare.
Are dreptate ravinescu. Ar trebui să existe o alternativă la adăugarea automată a diacriticelor - aplicația să evidențieze cuvintele care nu se regăsesc în dicționar (sau a căror formă este greșită în contextul respectiv), utilizatorul trebuind să opteze pentru una din formele corecte sugerate, adică varianta clasică de corectare. Chiar dacă este mult mai greu pentru utilizator să corecteze textul așa, opțiunea ar fi utilă deoarece de multe ori documentele nu depășesc câteva pagini, iar pentru cineva care are cât de cât experiență, numărul greșelilor de scriere (de acest tip) ar fi destul de mic.

#441
pamfil nastase

pamfil nastase

    Active Member

  • Grup: Members
  • Posts: 1,065
  • Înscris: 04.02.2007
Întrebare: progrămelul ăsta poate fi folosit și la corectarea unor fișiere de tip txt, wordpad, srt, sub? Sau merge doar pentru word?

Cel mai rău mă enervează subtitrările de film fără diacritice, acum de bine de rău majoritatea sînt cu, dar pînă prin 2004-05 cele făcute de amatori erau în cvazitotalitatea lor fără.

#442
ravinescu

ravinescu

    Junior

  • Grup: Banned
  • Posts: 249
  • Înscris: 30.04.2009

View Postmircea21, on 26th October 2009, 17:04, said:

Are dreptate ravinescu. Ar trebui să existe o alternativă la adăugarea automată a diacriticelor - aplicația să evidențieze cuvintele care nu se regăsesc în dicționar (sau a căror formă este greșită în contextul respectiv), utilizatorul trebuind să opteze pentru una din formele corecte sugerate, adică varianta clasică de corectare. Chiar dacă este mult mai greu pentru utilizator să corecteze textul așa, opțiunea ar fi utilă deoarece de multe ori documentele nu depășesc câteva pagini, iar pentru cineva care are cât de cât experiență, numărul greșelilor de scriere (de acest tip) ar fi destul de mic.

Programul permite adăugarea diacriticelor pe rînd, dar această metodă este nepractică, luînd prea mult timp. La rularea programului pe un text apare în partea dreaptă a ferestrei o listă cu cuvintele la care trebuie adăugate diacritice. Lista cuprinde și variante dintre care se poate alege, dar parcurgerea ei este obositoare, ea conținînd pentru un text mediu (articol de ziar) circa 100 de itemuri. De aceea eu am optat pentru adăugarea automată și apoi corectarea textului. Este ceea ce vor face probabil toți utilizatorii care vor folosi softul. Există o poză în pagina de ajutor unde se vede cum se procedează.

View Postpamfil nastase, on 26th October 2009, 17:35, said:

Întrebare: progrămelul ăsta poate fi folosit și la corectarea unor fișiere de tip txt, wordpad, srt, sub? Sau merge doar pentru word?

Cel mai rău mă enervează subtitrările de film fără diacritice, acum de bine de rău majoritatea sînt cu, dar pînă prin 2004-05 cele făcute de amatori erau în cvazitotalitatea lor fără.

Merge cu toate fișierele care pot fi deschise cu Word. De fapt limitarea din partea programului vine tocmai de la faptul că are nevoie de MS Word 2007.

Cine nu are Word 2007 poate folosi AutoCorect, un program gratuit care și el adaugă diacritice. AC este responsabil de apariția diacriticelor în subtitrările la filme, el fiind inițial conceput tocmai pentru așa ceva.

#443
mircea21

mircea21

    Rătăcit între viitor și trecut

  • Grup: Senior Members
  • Posts: 6,704
  • Înscris: 19.12.2007
Pentru cei care au testat AutoCorect și Diac+, puteți să faceți o comparație între cele două? Dacă unul este mai bun, de ce este mai bun, avantaje și dezavantaje...

#444
Phoenix

Phoenix

    Junior

  • Grup: Members
  • Posts: 307
  • Înscris: 25.05.2004
Este relativ simplu de testat, iei un text si il corectezi cu ambele programe, apoi compari fisierele corectate dupa continut cu un program gen Total Commander. Pentru o relevanta mai exacta este bine sa compari mai multe fisiere.

#445
Phoenix

Phoenix

    Junior

  • Grup: Members
  • Posts: 307
  • Înscris: 25.05.2004
@mircea21

Teste comparative pe fisiere format TXT (deci formatare 0), metoda automata de adaugare diacritice:

Diac+  
S-a incercat corectia unui fisier de 1MB, dupa 1h nu ajunsese decat la jumatate... am renuntat...
Am reluat testul pe un fisier de 55 KB, eficienta adaugarii de diacritice a fost doar de 90,43 %.

AutoCorect
Pe acelasi fisier de 55KB AC s-a descurcat 95%

Alte teste facute pe AC: la subtitrari 97%. La texte tehnice nu am facut suficiente teste ca sa fiu sigur dar in cel mai rau caz nu este sub 93%...

Edited by Phoenix, 27 October 2009 - 20:11.


#446
mircea21

mircea21

    Rătăcit între viitor și trecut

  • Grup: Senior Members
  • Posts: 6,704
  • Înscris: 19.12.2007

View PostPhoenix, on 27th October 2009, 20:03, said:

Teste comparative pe fisiere format TXT (deci formatare 0), metoda automata de adaugare diacritice:

Diac+  
S-a incercat corectia unui fisier de 1MB, dupa 1h nu ajunsese decat la jumatate... am renuntat...
Am reluat testul pe un fisier de 55 KB, eficienta adaugarii de diacritice a fost doar de 90,43 %.

AutoCorect
Pe acelasi fisier de 55KB AC s-a descurcat 95%

Alte teste facute pe AC: la subtitrari 97%. La texte tehnice nu am facut suficiente teste ca sa fiu sigur dar in cel mai rau caz nu este sub 93%...
Mulțumesc Phoenix! Am pus întrebarea pentru că nu folosesc de obicei Word 2007 și de accea nu am testat Diac+. AC îl folosesc de când a apărut...

#447
alceausu

alceausu

    Junior

  • Grup: Members
  • Posts: 5
  • Înscris: 13.08.2008
Am testat și eu ambele programe cu același articol folosit de dl. Ravinescu pentru testarea Diac+(Cum sa intepi la timp un balon imobiliarCum sa intepi la timp un balon imobiliar). Ambele programe au rulat în modul automat, fără intervenția utilizatorului. Am urmărit numărul de diferențe față de textul cu diacritice și cazurile în care inserția caracterului diacritic a schimbat sensul textului.

Diac+ 15 diferențe dintre care în două cazuri a fost schimbat sensul textului
"rata aferența" în loc de "rata aferentă"
"ar fi decențe" în loc de "ar fi decente"

AutoCorect 16 diferențe dintre care în două cazuri a fost schimbat sensul textului
"rațe mai mici" în loc de "rate mai mici"
"refinanțare urgență" în loc de "refinanțare urgentă"

PS Ar fi interesant de văzut și concluziile altora privind perfomanțele celor două programe. Testarea mea poate fi considerată ca subiectivă (sunt unul dintre autorii Diac+).

#448
A_Catalin

A_Catalin

    Junior

  • Grup: Members
  • Posts: 346
  • Înscris: 24.01.2008
Cred ca - parerea mea doar - cel mai corect ar fi sa se testeze pe texte mari nu cele de cateva pagini. Cu cat sunt mai mari cu atat se poate ajunge la un rezultat mai edificator. La texte mici probabil diferentele sunt asa de putine incat mi-e indiferent ce program folosesc.
De asemenea sa se testeze pe mai multe tipuri de texte. Nu toata lumea utilizeaza aceste pograme pentru adaugarea de diacritice la articole pe site-uri.

Sunt si eu programator (Delphi) si am facut un mic programel cu care se pot numara diacriticele dintr-un text respectiv se pot compara 2 texte si numara diferentele. E mai bine asa decat numararea manuala.
Am pus in atachment executabilul si sursele - astfel incat programatorii sa se convinga ca n-a fost facut sa favorizeze unul din programe.
Acu - daca programatorii sunt de acord - mai ramane doar sa se gaseasca cateva texte (de marime zeci.. sute de KB) corectate bine manual.
Se scot diacriticele, se adauga cu fiecare program si se numara diferentele fata de textul corectat manual.
Ce parere aveti...?

Attached Files



#449
Phoenix

Phoenix

    Junior

  • Grup: Members
  • Posts: 307
  • Înscris: 25.05.2004
Testele trebuiesc facute de alte persoane decat cele implicate in cele 2 proiecte, asa nu ar fi acuzat nimeni ca este partinitor. Eu am postat testele facute ieri de Cosmin (partenerul de proiect) si sunt facute pe real. Oricum nu cred ca sunt foarte multe persoane interesate de acest test. AC este din 2002, are ceva fani, dar putin care sa fie interesati de a ajuta sau de a comenta softul.

#450
AdiJapan

AdiJapan

    Active member

  • Grup: Senior Members
  • Posts: 3,992
  • Înscris: 27.02.2006
Nu mai înțeleg. Vorbim despre diacritice, deci ne interesează măcar un pic chestiunea. Unii dintre „noi” mai sîntem și programatori, deci ne descurcăm bine cu calculatorul. Și totuși scriem fără diacritice! Explicați-mi și mie ce se întîmplă. Ce pretenții să avem de la oameni în general dacă nici cei care se pricep nu vor să scrie cum trebuie?

Eu credeam că softul pentru adăugat diacritice este mai mult o unealtă pentru textele vechi, scrise pe vremea cînd diacriticele chiar erau o dificultate. Constat că de fapt problema este încă de actualitate, dacă nu cumva de viitor pe termen lung.

Chiar nu se poate ca exemplul bun să fie dat de aceia care știu și pot? Cam prin ce mileniu vor ajunge și românii să-și scrie limba cu toate literele?

Anunturi

Second Opinion Second Opinion

Folosind serviciul second opinion ne puteți trimite RMN-uri, CT -uri, angiografii, fișiere .pdf, documente medicale, astfel încat vă vom putea da o opinie neurochirurgicală, fără ca aceasta să poată înlocui un consult de specialitate. Răspunsurile vor fi date prin e-mail în cel mai scurt timp posibil (de obicei în mai putin de 24 de ore, dar nu mai mult de 48 de ore). Second opinion – Neurohope este un serviciu gratuit.

www.neurohope.ro

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users

Forumul Softpedia foloseste "cookies" pentru a imbunatati experienta utilizatorilor Accept
Pentru detalii si optiuni legate de cookies si datele personale, consultati Politica de utilizare cookies si Politica de confidentialitate