Stratos: Punto de Encuentro de Desarrolladores

¡Bienvenido a Stratos!

Acceder

Foros





help me !

Iniciado por ethernet, 14 de Diciembre de 2002, 08:04:45 PM

« anterior - próximo »

ethernet

Hola, en mi proyecto de fin de carrera he desarrollado un reconocedor de voz independiente del locutor y ahora me queda la parte en la q debo darle un uso.

Para q usariais vosotros un reconocedor de voz? en cosas de la vida cotidiana o no tan cotidiana lo usariais?

Nota: el reconocedor no distingue el locutor solamente pasa de voz a texto.

saludos y gracias de antemano

Mars Attacks

                                Uso lógico: para redactar textos sin necesidad de escribirlos (algo que cualquier discapacitado te agradecería).
Uso friki: para controlar tu ordenador por la voz (aunque tendrías que añadir un programa que, pasado como entrada el texto correspondiente ejecutara el programa al que hiciera referencia).                                

ethernet

oh thx mars ;**

se me ovlido comentar q las palabras q reconoce no son muchas, pogamos unas 80-100 como mucho o sea no valen aplicaciones tipo tu hablas y yo escribo xDD.

saludos

CoLSoN2

                                tío, pa lo tipico de "LUCES!" y se enciendan las luces. Eso es tope de l33t XDDDDD

Lo que dice Mars del uso Friki es cojonudo. Le das un nombre al PC, tipo Ethy, así haces que al decir ethy abra un receptor de ordenes:

- Ethy, ejecuta Half-life
- Ethy, defragmenta
- Ethy, formatea unidad C
- Ethy, comeme el rabo

Lo de Ethy es porque queda mejor, más que nada XDDD

No se si he dicho alguna parida, pero molaría mil.                                
Manuel F. Lara
Descargar juegos indie  - blog sobre juegos indie y casual
El Desarrollo Personal.com  - blog sobre productividad, motivación y espíritu emprendedor

Mars Attacks

                                Pues no es nada complicado hacer en C un programa que esté recibiendo todo el tiempo strings desde la entrada de datos estándar (o leyendo en algún fichero) al que le pases una línea de órdenes y él la ejecute. Eso sí, necesitarías hacer alguna tabla "traductora" de órdenes, un reconocedor gramatical que para cada entrada de palabra reservada la tradujera a la palabra reservada de orden.

Ethy, ejecuta Half-life

se traduciría por (el Ethy le indica que la entrada siguiente será una orden)
system('run pathdelhalflifehalflife.ese') o como coño se le den las órdenes de sistema desde un programa en C :)
El resto todo es un "switch (orden) {"
y los parámetros los coge puessssss... haciendo que el último parámetro sea otro carácter de control (como el Ethy), por ejemplo diciéndole que si durante un tiempo no recibe entrada, añada al archivo de órdenes un $ o @ o algo. El programa se activa al oír el ethy, va leyendo la órden hasta que llega al $, la decodifica y luego la ejecuta (o da un mensaje de error si no la ha entendido, aunque lo más idóneo sería que mostrara por pantalla lo que el programa ha entendido, para evitar malentendidos,  y después pedir una orden verbal "sí" o "adelante" o algo así para ejecutarlo.
:) coño, me pone a mil este tema.                                

Loover

                                Je, eso me recuerda a mi practica de hacer una shell para Linux. Uf que no me va a dar tiempo.                                
IndieLib Libreria 2.5d utilizando aceleración por hardware para la programación de juegos 2d.
Indie Rover The monkeys are reading!

Mars Attacks

                                una shell???  :o
Yo he hecho programas en C y scripts pero todo un shell??? ¿Cómo se hace eso?                                

Guybrush Threepwood

                                Las apliciones más normales para reconocimiento parcial de señal de voz son los menús:
- Facilitación de manejo de máquinas a discapacitados visuales como ya se ha dicho
- Selección de opciones en aplicaciones a través de teléfono (telefónica ya tiene alguna de esas: llamas y tienes que ir navegando por menús diciendo los números que se te ofrecen:"Diga uno si quiere hablar con el departamento de marketing; Diga dos si..." Por cierto que no funcionan muy bien, menos mal que siempre puedes dar a la tecla del teléfono en vez de decirlo de viva voz)

Hay un laboratorio en mi facultad que se dedica a estos temas, échale un vistazo a la web por si encuentras algo que te interese
http://labaudio.datsi.fi.upm.es/

Por cierto que felicidades, este campo del reconocimiento de voz es la leche de difícil :) ¿Tienes alguna web o documento comentando las características técnicas del programa?                                

ethernet

De momento tengo todo cogido con pinzas cuando acabe el proyecto no dudare en subirlo.
Mi proyecto se basa en los malos resultados q dio este otro -> *  Reconocimiento de Voz: Construcción de un Entorno de Trabajo sobre HTK y Experimentación en Contextos Generales.  (http://www.infor.uva.es/~cesargf/proyectos/leidos.html) . Por eso neesito una tarea para acotar el numero de palabras.

saludos

synchrnzr

                                Ethernet, como molas :o

Hace nada eché una ojeada al tema síntesis/reconocimiento de voz para proporcionar esa funcionalidad en mi motor pero por la documentación que encontré por ahí llegué a la conclusión que de momento la fiabilidad de los métodos que se usan era demasiado baja como para darle una aplicación real. O sea que decidí no implementarlo y considerarlo como proyecto de final de carrera :idea:

Todo lo que puedas contarme sobre el tema me interesa (que documentación has utilizado como fuentes, si has usado redes neuronales, qué resultados has conseguido, etc...) Aunque al final creo que de proyecto haré alguna otra cosilla, me interesa mucho el tema (y si has estudiado algo de síntesis también  :X9: )

De cara a los videojuegos yo tenía pensada una utilidad muy clara: imagínate que en el XWing o el TIE Fighter en vez de dar las órdenes con Shift+Algo las dieras con voz, de esa forma permites al jugador el poder dar órdenes sin apenas distraerse del uso de los controles. Y ahora un pequeño secretito: pensaba usar esta característica en el proyecto Utopía :oops:

Sync

PD: Jo, que buena cosa que en esa página que das salga también un proyecto de síntesis XDDD
PPD: Bueno, eso del control tampoco es tan original, seguro que hay algun juego que ya lo hace pero ocmo no estoy al dia XDDD                                

Mars Attacks

                                El Age Of Empires, sin ir demasiado lejos. Te me has adelantado para proponer su uso en juegos de tipo estrategia o simuladores ("Fuego!").
A mí también me interesa mucho el tema, pero quizás en un ámbito más reducido y simplón. Me he bajado el Speech developer de microsoft (grrrr, no hay algo opensource facilito?) y voy a ver si consigo algunas nociones básicas de lo que tiene el asunto.                                

ethernet

Umh un amigo mio hizo un proyecto de sintesis y esta mucho mas avanzado q el tema de reconocimiento. El proyecto del chaval era conseguir q la locucion fuera natural o sea  q el pc no hablara como un robor, q diera entonacion etc.

Yo estoy usando modelos ocultos de markov para ello uso la libreria de microsoft HTK. La verdad es no tenia otra salida, tengo q continuar con lo q ya esta empezado. Por lo q he visto redes neuronales es ligeramente superior a este metodo q uso yo pero tp he profundizado mas.

Por ahora hemos obtenido un acierto de entre 60%-90%. Todo depende de los modelos q usemos, si estan muy entrenados si tenemos el silecion modelado, etc. El siguiente paso sera modelar trifonemas q se basa en pillar  trios de fonemas q mas se repiten y modelarlos.

No sabia q estuvierais tan interesados en este tema.

saludos

Mars Attacks

                                Pues acabo de bajarme el Speech SDK de Moco$oft y XDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD

Madre mía, para haber de darle la orden "stop", lo que me ha costado :)
Es lentíiiiisimo y sólo ha acertado cinco de las... quinientas palabras que le habré dicho :)

Aún así, seguiré investigando a ver qué se puede hacer con esto.                                






Stratos es un servicio gratuito, cuyos costes se cubren en parte con la publicidad.
Por favor, desactiva el bloqueador de anuncios en esta web para ayudar a que siga adelante.
Muchísimas gracias.