Your browser doesn't support javascript.
loading
Mostrar: 20 | 50 | 100
Resultados 1 - 20 de 26
Filtrar
1.
Stud Health Technol Inform ; 310: 124-128, 2024 Jan 25.
Artigo em Inglês | MEDLINE | ID: mdl-38269778

RESUMO

Creating notes in the EHR is one of the most problematic aspects for health professionals. The main challenges are the time spent on this task and the quality of the records. Automatic speech recognition technologies aim to facilitate clinical documentation for users, optimizing their workflow. In our hospital, we internally developed an automatic speech recognition system (ASR) to record progress notes in a mobile EHR. The objective of this article is to describe the pilot study carried out to evaluate the implementation of ASR to record progress notes in a mobile EHR application. As a result, the specialty that used ASR the most was Home Medicine. The lack of access to a computer at the time of care and the need to perform short and fast evolutions were the main reasons for users to use the system.


Assuntos
Documentação , Interface para o Reconhecimento da Fala , Humanos , Projetos Piloto , Pessoal de Saúde , Hospitais
2.
Prensa méd. argent ; 107(5): 282-286, 20210000.
Artigo em Inglês | LILACS, BINACIS | ID: biblio-1359365

RESUMO

El aprendizaje profundo es un tipo de inteligencia artificial computarizada que tiene como objetivo entrenar a una computadora para que realice tareas que normalmente realizan los humanos basándose en redes neuronales artificiales. Los avances tecnológicos recientes han demostrado que las redes neuronales artificiales se pueden aplicar a campos como el reconocimiento de voz y audio, la traducción automática, los juegos de mesa, el diseño de fármacos y el análisis de imágenes médicas. El desarrollo de estas técnicas ha sido extremadamente rápido en los últimos años y las redes neuronales artificiales hoy en día superan a los humanos en muchas de estas tareas. Las redes neuronales artificiales se inspiraron en la función de sistemas biológicos como el cerebro y los nodos conectados dentro de estas redes que modelan las neuronas. El principio de tales redes es que están capacitadas con conjuntos de datos donde se conoce la verdad fundamental. Como ejemplo, la red debe estar capacitada para identificar imágenes donde se representa una bicicleta. Esto requiere una gran cantidad de imágenes donde las bicicletas se etiquetan manualmente (la llamada verdad fundamental) que luego son analizadas por la computadora. Si se utilizan suficientes imágenes con bicicleta o sin bicicleta, la red neuronal artificial puede entrenarse para identificar bicicletas en otros conjuntos de imágenes. En las imágenes médicas, los enfoques clásicos incluyen la extracción de características semánticas definidas por expertos humanos o características agonísticas definidas por ecuaciones. Las características semánticas pueden proporcionar una buena especificidad para el diagnóstico de enfermedades, pero pueden diferir entre diferentes médicos dependiendo de su nivel de experiencia, requieren mucho tiempo y son costosas. Las características agonísticas pueden tener una especificidad limitada, pero ofrecen la ventaja de una alta reproducibilidad. El aprendizaje profundo tiene un enfoque diferente. Se requiere un conjunto de datos de entrenamiento donde se conoce la verdad básica, en este caso el diagnóstico. El número de datos necesarios es elevado y, por lo general, se utilizan 100.000 imágenes o más. Una vez que se entrena la red neuronal artificial, se puede aplicar a un conjunto de datos de validación en el que también se conoce el diagnóstico, pero no se informa a la computadora. La salida de la red neuronal artificial es, en el caso más simple, una enfermedad o ninguna enfermedad que pueda compararse con la verdad fundamental. La concordancia con la verdad del terreno se cuantifica utilizando medidas como el área bajo la curva (AUC, puede tomar valores entre 0 y 1, siendo 1 la discriminación perfecta entre salud y enfermedad), especificidad (puede tomar valores entre 0% y 100% y la proporción de negativos reales que se identifican correctamente) y la sensibilidad (puede tomar valores entre 0% y 100% y cuantifica la proporción de positivos reales que se identifican correctamente). Si se requiere una alta sensibilidad o una alta especificidad depende de la enfermedad, la prevalencia de la enfermedad, así como el entorno clínico real donde se debe emplear esta red


Assuntos
Humanos , Inteligência Artificial , Redes Neurais de Computação , Interface para o Reconhecimento da Fala , Aprendizado Profundo
3.
Rev. Investig. Innov. Cienc. Salud ; 3(2): 98-118, 2021. ilus
Artigo em Espanhol | LILACS, COLNAL | ID: biblio-1392911

RESUMO

La acústica forense es una disciplina de la criminalística que ha alcanzado una ma-durez analítica que obliga a que el perito en análisis de voz se especialice en adquirir conocimientos en fonética, tecnologías de sonido, habla, voz, lenguaje, patologías del habla y la voz, así como procesamiento de la señal sonora. Cuando un dictamen deba ser realizado por un profesional de la salud completamente ajeno a la técnica legal, se tropieza con una falta de protocolos, métodos y procedimientos de trabajo que le permitan entregar un informe técnico, válido y validado para la realización de una entrevista y su posterior análisis comparativo de voces, lo que promueve la necesidad de elaborar una ruta o guía metodológica a través de medios académicos físicos o electrónicos para el desarrollo de este conocimiento y su difusión profesional y científica


Forensic acoustics is a criminalistics discipline that has reached an analytical maturity that requires the expert in voice analysis to specialize in acquiring knowledge in pho-netics, sound technologies, speech, voice, language, speech, and voice pathologies, as well as sound signal processing. When an opinion must be made by a health profes-sional completely unrelated to the legal technique, he encounters a lack of protocols, methods, and work procedures that allow him to deliver a technical, valid, and vali-dated report for conducting an interview and its subsequent comparative analysis of voices, which promotes the need to develop a methodological route or guide through physical or electronic academic means for the development of this knowledge and its professional and scientific dissemination


Assuntos
Interface para o Reconhecimento da Fala , Reconhecimento de Voz , Voz , Qualidade da Voz/fisiologia , Interface para o Reconhecimento da Fala/normas , Disartria , Reconhecimento de Voz/fisiologia
4.
Audiol., Commun. res ; 25: e2237, 2020. tab, graf
Artigo em Português | LILACS | ID: biblio-1098093

RESUMO

RESUMO Objetivo identificar a contribuição do microfone omnidirecional (T-Mic) e microfone direcional adaptativo (UltraZoom) do processador de som Naída CIQ70 para o reconhecimento da fala no ruído e em ambiente reverberante. Identificar a contribuição do processador de som Naída CIQ70 para usuários do processador Harmony. Métodos participaram do estudo sete adultos com implante coclear unilateral, usuários do processador de som Harmony. O reconhecimento de sentenças foi avaliado em silêncio, em sala reverberante (RT60 de 553 ms) e ruído de 42,7 dBA (Leq), com os processadores Harmony e Naída CIQ70. A contribuição do microfone direcional UltraZoom foi avaliada no ruído. As sentenças gravadas foram apresentadas a 0° azimute. O ruído (babble noise) foi apresentado a + 5 dB SNR, a 90° azimute. Os participantes avaliaram subjetivamente a clareza do som e a dificuldade de escutar nas várias condições do teste. Resultados a média do reconhecimento de sentenças no silêncio com reverberação foi de 38,5% com o Harmony e 66,5% com o Naída CIQ70. A pontuação média de reconhecimento de sentenças no ruído foi de 40,5% com o Naída CIQ70, sem UltraZoom, e de 64,5% com UltraZoom. Nas classificações subjetivas de clareza do som e facilidade de escuta no ruído, nenhuma diferença foi identificada entre as condições de teste. Conclusão para usuários experientes do processador de som Harmony, a compreensão da fala em silêncio em uma sala reverbente foi significativamente melhor com o Naída CIQ70. O uso de uma tecnologia de microfone direcional adaptativa (UltraZoom) contribuiu para o reconhecimento de fala no ruído.


Abstract Purpose 1) To measure speech understanding in noise with the Naída Q70 in the omnidirectional microphone mode (T-Mic) and adaptive directional microphone mode (UltraZoom) in reverberating acoustics and noisy conditions. 2) To measure improvement in speech understanding with use of the Advanced Bionics (AB) Naída Q70 sound processor for existing Harmony users. Methods Seven adult unilateral cochlear implant (CI) recipients, who were experienced users of the Harmony sound processor, participated in the study. Sentence recognition was evaluated in quiet in a reverberating room, with Harmony and Naída CI Q70 processors. Effectiveness of Naída CI Q70's UltraZoom directional microphone was evaluated in noise. Target stimuli were recorded Portuguese sentences presented from 0° azimuth. Twenty-talker babble was presented at +5dB SNR from ±90° azimuth. In addition to sentence recognition, the participants also rated the clarity of sound and difficulty of listening in the various test conditions. In order to evaluate the outcomes under more realistic acoustic conditions, tests were conducted in a non-sound treated reverberant room (RT60 of 553 ms and noise floor of 42.7 dBA (Leq). Results The average sentence recognition in quiet in the reverberant non-sound treated room was 38.5% with the Harmony and 66.5% with Naída CI Q70. The average sentence recognition score in noise was 40.5% with Naída CI Q70 without UltraZoom and 64.5% with UltraZoom. For subjective ratings of sound clarity and listening ease in noise no difference were identified between the test conditions. Conclusion For experienced users of the Harmony sound processor, speech understanding in quiet in a reverberating room was significantly improved with the Naída CI Q70. The use of an adaptive directional microphone technology (UltraZoom) enhanced speech perception in noise.


Assuntos
Humanos , Masculino , Feminino , Adulto , Implante Coclear , Interface para o Reconhecimento da Fala , Acústica da Fala , Inteligibilidade da Fala , Percepção da Fala , Perda Auditiva Bilateral , Ruído
5.
Int J Med Inform ; 121: 39-52, 2019 01.
Artigo em Inglês | MEDLINE | ID: mdl-30545488

RESUMO

The overall purpose of automatic speech recognition systems is to make possible the interaction between humans and electronic devices through speech. For example, the content captured from user's speech using a microphone can be transcribed into text. In general, such systems should be able to overcome adversities such as noise, communication channel variability, speaker's age and accent, speech speed, concurrent speeches from other speakers and spontaneous speech. Despite this challenging scenario, this study aims to develop a Web System Prototype to generate medical reports through automatic speech recognition in the Brazilian Portuguese language. The prototype was developed by applying a Software Engineering technique named Delivery in Stage. During the conduction of this technique, we integrated the Google Web Speech API and Microsoft Bing Speech API into the prototype to increase the number of compatible platforms. These automatic speech recognition systems were individually evaluated in the task of transcribing the dictation of a medical area text by 30 volunteers. The recognition performance was evaluated according to the Word Error Rate measure. The Google system achieved an error rate of 12.30%, which was statistically significantly better (p-value <0.0001) than the Microsoft one: 17.68%. Conducting this work allowed us to conclude that these automatic speech recognition systems are compatible with the prototype and can be used in the medical field. The findings also suggest that, besides supporting medical reports construction, the Web System Prototype can be useful for purposes such as recording physicians' notes during a clinical procedure.


Assuntos
Documentação/métodos , Internet/estatística & dados numéricos , Erros Médicos/prevenção & controle , Sistemas Computadorizados de Registros Médicos/normas , Software , Interface para o Reconhecimento da Fala/normas , Fala/fisiologia , Adulto , Brasil , Feminino , Humanos , Masculino , Pessoa de Meia-Idade , Adulto Jovem
6.
AMIA Annu Symp Proc ; 2018: 683-689, 2018.
Artigo em Inglês | MEDLINE | ID: mdl-30815110

RESUMO

Conversations especially between a clinician and a patient are important sources of data to support clinical care. To date, clinicians act as the sensor to capture these data and record them in the medical record. Automatic speech recognition (ASR) engines have advanced to support continuous speech, to work independently of speaker and deliver continuously improving performance. Near human levels of performance have been reported for several ASR engines. We undertook a systematic comparison of selected ASRs for clinical conversational speech. Using audio recorded from unscripted clinical scenarios using two microphones, we evaluated eight ASR engines using word error rate (WER) and the precision, recall and F1 scores for concept extraction. We found a wide range of word errors across the ASR engines, with values ranging from 65% to 34%, all falling short of the rates achieved for other conversational speech. Recall for health concepts also ranged from 22% to 74%. Concept recall rates match or exceed expectations given measured word error rates suggesting that vocabulary is not the dominant issue.


Assuntos
Interface para o Reconhecimento da Fala , Algoritmos , Humanos , Prontuários Médicos , Fala , Vocabulário
7.
Audiol., Commun. res ; 23: e1915, 2018. tab, graf
Artigo em Português | LILACS | ID: biblio-983904

RESUMO

RESUMO Objetivo Compor um banco de palavras dissilábicas para elaborar, realizar a validação de conteúdo, obter evidências de fidedignidade e gravar digitalmente listas de dissílabos equivalentes, para a realização do Índice Percentual de Reconhecimento de Fala (IPRF), a fim de complementar a bateria de materiais de fala disponíveis para essa avaliação. Métodos Foram selecionados vocábulos dissilábicos, paroxítonos, substantivos, os quais foram submetidos ao processo de validação de conteúdo, que abrangeu o julgamento quanto à familiaridade, adequação e reconhecimento auditivo, por juízes especialistas e não especialistas. Foram elaboradas listas de dissílabos, com 25 palavras em cada uma, a partir dos vocábulos resultantes da validação de conteúdo, e realizada a pesquisa de equivalência dessas listas, a fim de obter evidências de fidedignidade para o novo instrumento de teste proposto. Resultados A primeira versão do banco de palavras foi composta por 442 dissílabos. Destes, 198 foram considerados familiares pela maioria dos juízes, sendo que 176 foram julgados como adequados. Após o reconhecimento auditivo, foram mantidos, no banco de palavras, 172 vocábulos, distribuídos em seis listas, com 25 palavras em cada uma. Dentre estas listas, apenas uma diferiu das demais e cinco foram consideradas equivalentes, denominadas LD-A, LD-B, LD-C, LD-D e LD-E, gravadas em formato digital em Compact Disc. Conclusão Cinco listas de dissílabos elaboradas foram consideradas equivalentes, nomeadas de listas LD-A, LD-B, LD-C, LD-D e LD-E, disponibilizadas em gravação digital, com evidências satisfatórias de validade e confiabilidade, para complementar a bateria de materiais de fala disponíveis para a realização do IPRF.


ABSTRACT Purpose To compose a bank of dissyllabic words to develop equivalent disyllabic lists, perform content validation, obtain evidence of reliability and digitally record these lists to determine the Speech Recognition Percentage Index (SRPI) in order to complement the set of materials available for this evaluation. Methods We used disyllabic, paroxytone nouns, which were submitted to content validation, which included assessment of familiarity, appropriateness and auditory recognition by expert and non-expert raters. Lists of disyllabic words (with 25 words each) were developed from the words selected after content validation, and the equivalence search of these lists was carried out to collect evidence of reliability for the proposed new test instrument. Results The first version of the word bank was composed of 442 disyllables; 198 of them were considered to be familiar by most raters, and 176 were deemed as appropriate; after auditory recognition, 172 words were kept in the word bank, distributed into six lists, with 25 words in each one. Among these lists, only one differed from the others while the other five were considered to be equivalent, and were named LD-A, LD-B, LD-C, LD-D and LD-E, and recorded in digital format onto a Compact Disc. Conclusion Five lists of disyllabic words were considered as equivalent, named LD-A, LD-B, LD-C, LD-D and LD-E lists. They were digitally recorded and made available with satisfactory evidence of validity and reliability, to complement the set of available speech materials for SRPI assessment.


Assuntos
Humanos , Audiometria da Fala , Testes de Discriminação da Fala , Teste do Limiar de Recepção da Fala , Psicometria , Percepção da Fala , Estudos Transversais , Interface para o Reconhecimento da Fala , Perda Auditiva
8.
Audiol., Commun. res ; 23: e1979, 2018. tab
Artigo em Português | LILACS | ID: biblio-983903

RESUMO

RESUMO Objetivo Investigar os efeitos dos processos cognitivos e do Índice de Inteligibilidade de Fala no reconhecimento de fala no ruído em idosos, com e sem alteração cognitiva, usuários de próteses auditivas. Métodos 34 idosos, de 64 a 87 anos, com perda auditiva neurossensorial simétrica de grau moderado, usuários de próteses auditivas, foram distribuídos em grupos de idosos sem (GA; n=21) e com (GB; n=13) evidências de alteração cognitiva. A fim de garantir que o ajuste das próteses auditivas estivesse adequado, realizou-se o mapeamento visível de fala amplificada e foram obtidos os indices de ínteligibilidade de fala. Os idosos foram submetidos a uma triagem cognitiva (10-CS) e ao teste Lista de Sentenças em Português. A avaliação constou da pesquisa do limiar de reconhecimento de sentenças no ruído. Esta pesquisa foi realizada em campo livre, na condição sem e com próteses auditivas. Para análise estatística, foram utilizados os testes de Qui-Quadrado e Mann-Whitney. O nível de significância adotado foi de 0,05. Resultados Não houve diferença significativa entre os índices de inteligibilidade de fala obtidos em ambos os grupos, tanto na condição com próteses auditivas, como na condição sem as próteses. Verificou-se que os idosos com e sem alteração cognitiva apresentaram o mesmo acesso aos sons da fala (SII), nas duas condições. Observou-se que os idosos sem alteração cognitiva apresentaram menor relação sinal/ruído média, para o reconhecimento de 50% das sentenças na presença de ruído tanto na condição sem próteses auditivas como na condição com próteses, do que aqueles com alteração cognitiva. Conclusão Idosos com melhor cognição apresentaram melhor reconhecimento de fala em condições de escuta difícil.


ABSTRACT Purpose Investigate the effects of cognitive processes and Speech Intelligibility Index (SII) in sentence recognition in noise among elderly users of hearing aids with and without cognitive disorders. Methods Study participants were 34 older adults, aged 64-87 years, with bilateral moderate sensorineural hearing loss, users of hearing aids for over a year. The individuals were divided into two groups: GA - without cognitive impairment (n=21) and GB - with cognitive impairment (n=13). In order to verify the adequate amplification of the hearing aids, participants of both groups underwent Visible Speech Mapping and had their Speech Intelligibility Indexes obtained. Subsequently, they were submitted to cognitive screening (10-CS) and the Brazilian Portuguese Sentence List Test. Evaluation consisted of a search for speech perception thresholds in noise (S/N ratio). This search was performed in free-field conditions first without and then with the hearing aids. Data were statistically analyzed at a significance level of 5% using the Chi-squared and Mann-Whitney tests. Results No statistically significant differences were observed between the SII results obtained in both groups either with or without hearing aids. These results demonstrate that the older individuals in the GA and GB present the same access to speech sounds with and without hearing aids. Individuals in the GA presented lower S/N ratio under both conditions. Conclusion Older individuals with better cognition present greater speech recognition in the presence of competitive noise.


Assuntos
Humanos , Idoso , Idoso de 80 Anos ou mais , Inteligibilidade da Fala , Implantes Cocleares , Cognição , Ruído , Percepção da Fala , Teste do Limiar de Recepção da Fala , Distribuição de Qui-Quadrado , Estatísticas não Paramétricas , Interface para o Reconhecimento da Fala , Auxiliares de Audição , Perda Auditiva Neurossensorial
9.
Audiol., Commun. res ; 23: e1935, 2018. tab, graf
Artigo em Português | LILACS | ID: biblio-983923

RESUMO

RESUMO Objetivo Traduzir e adaptar o software Logiciel d'Écoute dans le Bruit - LEB, verificar sua efetividade e jogabilidade em um grupo de escolares sem queixas auditivas e/ou de aprendizagem. Métodos A efetividade foi investigada por meio da análise do desempenho de dois grupos pareados, antes e depois do treinamento, no teste de fala comprimida. O grupo treinado (GT), constituído por 22 escolares, entre 9 a 10 anos de idade, recebeu treinamento com o software e o grupo controle (GC), composto por 20 escolares da mesma faixa etária, não recebeu nenhum tipo de estimulação. Após o treinamento, os sujeitos do GT responderam a uma avaliação qualitativa sobre o software. Resultados Os comandos foram compreendidos e executados com facilidade e eficácia. O questionário revelou que o LEB foi bem aceito e estimulante, proporcionando novos aprendizados. O GT apresentou evoluções significativas, em comparação ao GC. Conclusão O êxito na tradução, adaptação e jogabilidade do software fica evidenciado pelas mudanças observadas na habilidade de fechamento auditivo, sugerindo sua efetividade para treinamento da percepção da fala no ruído.


ABSTRACT Purpose To translate and to adapt the software "LEB", verify its effectiveness and playability in a group of students without hearing and / or learning complaints. Methods (I) Effectiveness was investigated by analyzing the performance of two paired groups before and after training in the compressed speech test. The trained group (TG), composed by 22 students aged 9 to 10 years old, received training with the software and the control group (CG), composed by 20 students of the same age, did not receive any type of stimulation; (II) after the training, the subjects of the TG responded to a qualitative evaluation about the software. Results The commands were understood and executed easily and effectively. The questionnaire revealed that LEB was well accepted and stimulating, providing new learning. The GT presented significant evolutions in comparison to the control group. Conclusions The success in the software's translation, adaptation and gameplay process is evidenced by the observed changes in the auditory closure ability, suggesting its effectiveness for training speech perception in the noise.


Assuntos
Humanos , Transtornos da Percepção Auditiva , Percepção da Fala , Interface para o Reconhecimento da Fala , Ruído/efeitos adversos , Estimulação Acústica
10.
J Speech Lang Hear Res ; 60(7): 2047-2063, 2017 07 12.
Artigo em Inglês | MEDLINE | ID: mdl-28609511

RESUMO

Purpose: To produce a novel, efficient measure of children's expressive vocal development on the basis of automatic vocalization assessment (AVA), child vocalizations were automatically identified and extracted from audio recordings using Language Environment Analysis (LENA) System technology. Method: Assessment was based on full-day audio recordings collected in a child's unrestricted, natural language environment. AVA estimates were derived using automatic speech recognition modeling techniques to categorize and quantify the sounds in child vocalizations (e.g., protophones and phonemes). These were expressed as phone and biphone frequencies, reduced to principal components, and inputted to age-based multiple linear regression models to predict independently collected criterion-expressive language scores. From these models, we generated vocal development AVA estimates as age-standardized scores and development age estimates. Result: AVA estimates demonstrated strong statistical reliability and validity when compared with standard criterion expressive language assessments. Conclusions: Automated analysis of child vocalizations extracted from full-day recordings in natural settings offers a novel and efficient means to assess children's expressive vocal development. More research remains to identify specific mechanisms of operation.


Assuntos
Desenvolvimento Infantil , Reconhecimento Automatizado de Padrão , Interface para o Reconhecimento da Fala , Fala , Criança , Pré-Escolar , Feminino , Humanos , Lactente , Modelos Lineares , Aprendizado de Máquina , Masculino , Reconhecimento Automatizado de Padrão/métodos , Análise de Componente Principal , Reprodutibilidade dos Testes , Voz
SELEÇÃO DE REFERÊNCIAS
DETALHE DA PESQUISA