| Freqüência dos caracteres gráficos em língua portuguesa e o teclado de microcomputadores |
|
Texto originalmente publicado nos Anais do XI Encontro Nacional de Linguistica, em 1988, de autoria do Prof. José Marcelino Poersch, Coordenador do Centro de Pesquisas Linguísticas da Pontifícia Universidade Católica de Porto Alegre-RS, Brasil
DEPARTAMENTO DE LETRAS ANAIS DO XI ENCONTRO NACIONAL DE LINGÜÍSTICA |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| CARACTERES | FREQÜÊNCIAS | |
|---|---|---|
| PERCENTUAIS | ABSOLUTAS | |
| Grafêmicos: Total | 72,69% | 324.951 |
| Consoantes | 51,69% | 167.965 |
| Vogais | 48,31% | 156.986 |
| Intergrafêmicos | 3,20% | 14.317 |
| Numéricos | 0,38% | 1.719 |
| Outros | 3,62% | 16.151 |
| Espaços | 20,18% | 89.890 |
| TOTAL | 447.028 | |
Verifica-se que, entre os caracteres grafêmicos, as consoantes, embora tipicamente sejam mais numerosos do que as vogais (22 para 5), sua ocorrência total somente apresenta uma freqüência de 51,69% contra 48,31% das vogais.
As tabelas 2, 3 e 4, reunidas abaixo, num só quadro, fornecem as freqüências relativas e os respectivos postos dos caracteres grafêmicos, dos caracteres supragrafêmicos e dos caracteres intergrafêmicos.
TABELA 2
| Caracteres grafêmicos | ||
|---|---|---|
| A | 13,66% | 1 |
| E | 12,45% | 2 |
| O | 11,04% | 3 |
| S | 7,79% | 4 |
| I | 6,71% | 5 |
| R | 6,59% | 6 |
| N | 5,38% | 7 |
| D | 5,14% | 8 |
| T | 4,61% | 9 |
| M | 4,50% | 10 |
| U | 4,45% | 11 |
| C | 3,68% | 12 |
| L | 2,83% | 13 |
| P | 2,61% | 14 |
| V | 1,50% | 15 |
| G | 1,33% | 16 |
| Q | 1,09% | 17 |
| F | 1,08% | 18 |
| B | 1,01% | 19 |
| H | 0,99% | 20 |
| Ç | 0,55% | 21 |
| Z | 0,43% | 22 |
| X | 0,27% | 23 |
| J | 0,22% | 24 |
| W | 0,05% | 25 |
| K | 0,01% | 26 |
| Y | 0,01% | 27 |
TABELA 3
| Caracteres supragrafêmicos | ||
|---|---|---|
| Ã | 28,91% | 1 |
| É | 18,31% | 2 |
| Á | 13,96% | 3 |
| Í | 11,31% | 4 |
| Ó | 7,30% | 5 |
| Ê | 6,66% | 6 |
| Ú | 3,29% | 7 |
| Õ | 2,85% | 8 |
| À | 2,38% | 9 |
| Ü | 2,27% | 10 |
| Â | 1,77% | 11 |
| Ô | 0,92% | 12 |
TABELA 4
| Caracteres intergrafêmicos | ||
|---|---|---|
| , | 35,02% | 1 |
| . | 29,49% | 2 |
| - | 14,12% | 3 |
| _ | 5,67% | 4 |
| ) | 2,75% | 5 |
| : | 2,50% | 6 |
| ( | 2,35% | 7 |
| ¨ | 2,20% | 8 |
| ? | 2,01% | 9 |
| ; | 1,69% | 10 |
| ! | 0,89% | 11 |
| ... | 0,86% | 12 |
| / | 0,20% | 13 |
| ‘ | 0,17% | 14 |
Estas tabelas bastam, por si só, para confirmar a primeira hipótese: os caracteres gráficos, em textos de língua portuguesa apresentam diferentes percentagens de freqüência. Devido a essa diversidade de freqüências, os caracteres podem ser relacionados em ordem decrescente. Entre os caracteres grafêmicos destacam-se os vocálicos pela sua alta freqüência: A (13,66%), E (12,45%), I (6,71%) e U (4,45%).
Os grafemas consonantais mais freqüentes são: S (7,79%), R (6,59%), N (5,14%), T (4,61%) e M (4,50%). Verifica-se que a freqüência dos grafemas estrangeiros (K, W e Y) é inexpressiva: 0,50%. Convém salientar que os dez grafemas mais freqüentes cobrem 73,37% do total das ocorrências e que os cinco mais freqüentes correspondem a 51,65%, isto é, mais do que a metade de todas as ocorrências grafêmicas.
Para avaliar a segunda hipótese, que pretende verificar a relação entre a distribuição das freqüências e as amostras, calculou-se, inicialmente, a correlação simples entre as freqüências dos caracteres grafêmicos e as amostras, duas a duas (TABELA 5).
TABELA 5 – COEFICIENTE DE CORRELAÇÃO
| Amostras | I | II | III | VI | V | VI | VII | VIII | IX | X | XI | XII | Total |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| I | — | 0,98 | 0,97 | 0,97 | 0,98 | 0,99 | 0,97 | 0,99 | 0,94 | 0,99 | 0,99 | 0,97 | 0,99 |
| II | — | — | 0,96 | 0,97 | 0,98 | 0,98 | 0,97 | 0,98 | 0,95 | 0,98 | 0,97 | 0,99 | 0,98 |
| III | — | — | — | 0,99 | 0,99 | 0,97 | 0,99 | 0,98 | 0,99 | 0,98 | 0,97 | 0,97 | 0,99 |
| VI | — | — | — | — | 0,99 | 0,97 | 0,99 | 0,99 | 0,98 | 0,99 | 0,98 | 0,97 | 0,99 |
| V | — | — | — | — | — | 0,98 | 0,99 | 0,99 | 0,98 | 0,99 | 0,98 | 0,97 | 0,99 |
| VI | — | — | — | — | — | — | 0,96 | 0,99 | 0,95 | 0,99 | 0,99 | 0,97 | 0,99 |
| VII | — | — | — | — | — | — | — | 0,98 | 0,98 | 0,98 | 0,97 | 0,97 | 0,98 |
| VIII | — | — | — | — | — | — | — | — | 0,96 | 0,99 | 0,99 | 0,97 | 0,99 |
| IX | — | — | — | — | — | — | — | — | — | 0,97 | 0,96 | 0,96 | 0,97 |
| X | — | — | — | — | — | — | — | — | — | — | 0,99 | 0,97 | 0,99 |
| XI | — | — | — | — | — | — | — | — | — | — | — | 0,97 | 0,99 |
| XII | — | — | — | — | — | — | — | — | — | — | — | — | 0,98 |
Os altos coeficientes de correlação evidenciam que a tipologia textual não constitui variável interveniente na distribuição da freqüência, o que queríamos provar. Isso, em outros termos, significa que a amostra global é suficientemente ampla, não necessitando de um corpus mais extenso. A significância desses dados fica abaixo do nível 0,01 visto que o valor crítico para esse nível é 0,48.
Finalmente, resta avaliar a última hipótese; esta se refere às freqüências dos digramas. As tabelas 6, 7 e 8, que nos listam os digramas em ordem decrescente de ocorrência, confirmam a hipótese em referência. Vale a pena observar que o digrama DE ocupa o primeiro posto nas três posições. Verifica-se, outrossim, que os primeiros postos, tanto na posição inicial quanto na medial, são ocupados pelos seguintes digramas: DE, CO, SE, PA, DO, ES, UM, DA. Estes encontros são realmente os mais produtivos. Também chama a atenção o fato de que, entre os encontros consonantais, listam-se os grupos PR, TR, GR, CR, CH, BR, FR, LH, PL, CL, e que estes grupos ocupam postos semelhantes, um em relação ao outro, nas duas posições onde eles têm condições de aparecer: posição inicial e medial. Os únicos grafemas consonantais que aparecem em posição final são: L, S, M, R, N, Z.
TABELA 6 – OS TRINTA DIGRAMAS INICIAIS MAIS FREQÜENTES
| Digramas | F. | Digramas | F. | Digramas | F. |
|---|---|---|---|---|---|
| DE | 4.088 | MA | 1.245 | NÃ | 801 |
| CO | 2.937 | PO | 1.209 | IN | 778 |
| QU | 2.863 | NO | 1.194 | EM | 765 |
| SE | 2.473 | RE | 1.142 | SO | 705 |
| DO | 1.592 | CA | 1.120 | OS | 654 |
| ES | 1.481 | PE | 1.033 | EN | 636 |
| PA | 1.404 | TE | 989 | AS | 616 |
| UM | 1.369 | DI | 919 | VE | 613 |
| DA | 1.309 | ME | 900 | FA | 556 |
| PR | 1.258 | NA | 875 | SU | 536 |
TABELA 7 – OS TRINTA DIGRAMAS MEDIAIS MAIS FREQÜENTES
| Digramas | F. | Digramas | F. | Digramas | F. |
|---|---|---|---|---|---|
| DE | 3.652 | PO | 926 | DI | 675 |
| CO | 2.175 | MA | 905 | OS | 650 |
| QU | 2.140 | NO | 898 | IN | 580 |
| SE | 2.035 | RE | 888 | AS | 572 |
| DO | 1.447 | CA | 766 | EN | 507 |
| UM | 1.225 | NA | 765 | FA | 446 |
| DA | 1.172 | EM | 743 | SO | 431 |
| ES | 1.093 | PE | 730 | SU | 416 |
| PA | 1.033 | ME | 701 | VE | 407 |
| PR | 990 | TE | 700 | OU | 401 |
TABELA 8 – OS TRINTA DIGRAMAS FINAIS MAIS FREQÜENTES
| Digramas | F. | Digramas | F. | Digramas | F. |
|---|---|---|---|---|---|
| DE | 3.783 | TE | 1.459 | OU | 925 |
| OS | 3.721 | IA | 1.439 | TA | 888 |
| DO | 3.306 | SE | 1.433 | UM | 871 |
| AS | 3.111 | ES | 1.321 | NA | 837 |
| AO | 2.641 | AR | 1.205 | RO | 760 |
| EM | 2.074 | ER | 1.170 | AL | 741 |
| UE | 2.058 | MA | 1.089 | CA | 723 |
| DA | 1.941 | IS | 988 | MO | 701 |
| RA | 1.878 | NO | 936 | AM | 684 |
| TO | 1.696 | OR | 929 | EU | 650 |
4 - DISCUSSÃO DOS RESULTADOS
Embora o objetivo imediato — objetivo satisfatoriamente atingido — não extrapole o plano meramente descritivo, existem diversas contribuições no plano teórico. Será, no entanto, o plano aplicativo que merecerá maior atenção em etapas subseqüentes.
O objetivo imediato, vinculado à primeira e à terceira hipótese foi atingido, como demonstra a análise estatística da distribuição de freqüência. Tanto as freqüências percentuais dos caracteres grafêmicos quanto dos digramas puderam ser devidamente ordenados.
A segunda hipótese — aquela relacionada com a estrutura sintático-semântico-estatística — fornece dados suficientes para atingir o terceiro objetivo mediato. Chegou-se à conclusão de que o aspecto “estrutura textual” não constitui variável interviniente para alterar os dados gerais, no que se refere aos caracteres grafêmicos. Todos os coeficientes de correlação calculados entre os diversos tipos de amostras, dois a dois, apresentam-se muito fortes.
No entanto, chama a atenção o fato de as correlações estabelecidas no plano dos caracteres intergrafêmicos não apresentarem comportamento similar. Foram verificadas correlações moderadas entre algumas amostras. A análise do qui-quadrado mostrou ser significativa a influência do tipo da amostra na distribuição da freqüência desses caracteres. Faz-se, portanto, necessária uma melhor investigação desse campo. Talvez até se consiga encontrar, nos caracteres intergrafêmicos, determinantes capazes de discriminar diversas amostras entre si.
Por outro lado, os dados de freqüência aqui levantados e computados deverão oportunizar a comparação com os dados de freqüência de outros idiomas, dados já amplamente investigados e divulgados para o inglês, o francês e o alemão, entre outros.
Os resultados finais permitem partir para outras investigações e cálculos com os quais poderão ser alcançados os objetivos mediatos: contribuir na solução de problemas relacionados com editores de texto e com a disposição de caracteres em teclados de microcomputadores.
Uma das tarefas centrais será a maneira de aplicar os resultados da freqüência, em conjunção com a facilidade de acessamento dos dados às diferentes teclas, para um reordenamento dos teclados de máquinas eletrônicas de digitação. Além desse estudo de freqüência, com o auxílio de um fisiólogo, deverá ser avaliada a prontidão de reflexos dos diferentes dedos da mão e do esforço exigido aos mesmos para impulsionarem teclas diferentes daquelas onde normalmente se posicionam. Os caracteres mais freqüentes devem ocupar as teclas mais fáceis de serem acessadas; também devem ser tomadas em consideração as seqüências grafêmicas mais freqüentes. A cada letra deve ser fornecido um número de ordem segundo a rapidez com que puderem ser acessadas. Essa rapidez dependerá da capacidade de resposta de cada dedo a um estímulo enviado pelo cérebro e da distância que as teclas se encontram dos dedos escolhidos para acioná-las. No final desse estudo, procurar-se-á uma correlação positiva perfeita entre a freqüência de ocorrência e a facilidade de acessamento. Os caracteres mais freqüentes devem corresponder às teclas mais facilmente impulsionadas de modo a se obter o maior rendimento com o mínimo de custo.
O produto final desta pesquisa servirá de sugestão e não de imposição. Essa nova distribuição, por certo, enfrentará o conservadorismo exiagerado que obstaculiza a promoção dos avanços científicos e tecnológicos no mundo cultural de maneira muito semelhante à lei da inércia que dificulta mudanças de movimento no mundo físico. No entanto, se no dia de amanhã uma pesquisa experimental vier a provar que essa nova distribuição permite formar digitadores mais velozes do que o oportunizado pelo teclado QWERTY, é de se supor que a tecnologia, num futuro não muito distante, veja o alcance desta sugestão e dela faça o devido uso.
5- CONCLUSÃO
O objetivo operacional básico — levantar, em textos escritos em português do Brasil, a freqüência dos caracteres gráficos e dos digramas em posição inicial, medial e final de palavras — foi satisfatoriamente atingido. Foi confirmado que os caracteres gráficos em textos de língua portuguesa apresentam percentagens de freqüência diferentes, que a tipologia das amostras não influi na distribuição dos caracteres grafêmicos e que certos digramas são mais produtivos do que outros.
O atingimento dos objetivos aplicativos constituirá uma etapa posterior, uma investigação e um estudo aditado à presente pesquisa. Nesse estudo deverá receber atenção especial o primeiro desses objetivos: sugerir mudanças no atual teclado padrão QWERTY de microcomputadores e de outras máquinas eletrônicas de processamento de textos (editoração). Para alcançar esse objetivo, os resultados aqui apontados deverão ser cotejados com levantamentos ergométricos — reflexos dos diferentes dedos da mão e quantidade de trabalho exigido para acionar as diferentes teclas do teclado.
BIBLIOGRAFIA
BARRANOW, Ulf Gregor. Perspectivas na contribuição da lingüística e de áreas afins à Ciência da Informação.Ciência da Informação, Brasília, CNPq/IBICIT, 12 (1): 23-25, 1983.
CHERRY, Collin.A comunicação humana. São Paulo, Cultrix, 1971.
COSTA, Miriam Solange. O computador no ensino de línguas: retrospecto e perspectivas.Interação, São Paulo, Difusão Nacional do livro, 3 (18): 17-20, abril 1986.
FEIGENBAUM, Edward and MacCourduck, Pamela.The fifth generation artificial inteligence and Japan’s Computer challenge to the world. New American Library. New York, 1984.
GRUPO EDUCAÇÃO E CULTURA. “O texto perfeito”.Software, Rio, Rio Gráfica, 1984.
————. “Problemas no teclado”.Chips & Bytes. Rio, Rio Gráfica, 1984.
GUIRAUD, Pierre.Problèmes et methodes de la statistique linguistique. Dordrecht, D. Reibel publishing company, 1959.
HALLER, Johann. “Análise lingüística e indexação automática de textos”.Veritas, Porto Alegre, PUCRS, 31 (123): 393-414, 1986.
HJELMSLEV, Louis.Prolegômenos a uma teoria da linguagem. São Paulo, Perspectiva, 1975.
HERDAN, Gustav.The advanced theory of language as choice and chance. Heidelberg, Springer – Verlag. 1966.
INTERNATIONAL SOLUTION.The Diplomat: installation manual. Fifth edition. Saratoga (Ca), International Solution, 1983.
LEPSCHY, Giulio C.A lingüística estrutural. São Paulo, Perspectiva, 1971.
MALMBERG, Bertil.As novas tendências da lingüística. São Paulo. Nacional, 1971.
MAZZOCO, Alexis (entrevista). “Opportunities for linguistics in the field of computers”.The linguistics reporter. sep. 1979.
MILLER, George.Language and communication. New York, McGrawHill Company, 1951.
POERSCH, José Marcelino. O lingüista e a informática: relato de uma contribuição.I Congresso Brasileiro de Lingüística Aplicada: resumos. Campinas, IEL, 1986.
————.Versão do Diplomata para a língua portuguesa: contribuição da lingüística para a ciência da computação. PUCRS, Centro de Pesquisas Lingüísticas, 1986. Relatório de Pesquisa.
————.Freqüência dos caracteres gráficos em língua portuguesa e o teclado de microcomputadores. Porto Alegre, PUCRS, 1987. Relatório de Pesquisa.
SCHANK, Roger & CHILDERS, Peter.The cognitive computer: on language, learning and artificial inteligence. Menlo Park, Addison-Wesley Publishing Company, 1984.
SERVAN-SCHREIBER, Jean-Jacques (entrevista). Informática e Informação. Veja. São Paulo, Editora Abril, (900): 3-5, 4 dez. 1985.
VISÃO (autor não citado). “Inteligência artificial: o Brasil entra na corrida”.Visão, pág. 34-38, 22 jan. 1986.
VOTRE, Sebastião Josué.Um léxico para cartilha. Rio da Janeiro, Universidade Gama Filho, MEC/INEP, 1983.
ZIPF, G. K.Human behavior and the principle of least effort. Cambridge (Mass.), Addison-Wesley Publishing Company, 1949.
| « Anterior |
|---|
Letras e outros caracteres 


